ChatGPT und der Ölteppich

Johannes Stiehler

September 2023

Technologie

Arbiträre Ausbrüche

#LargeLanguageModels

#TextKI

Cover Image for ChatGPT und der Ölteppich

„Data is the new oil“, so sagte im Jahr 2006 der britische Mathematiker Clive Humby. Wahrscheinlich war er sich nicht bewusst, wie richtig er lag und wie weit man diese Analogie treiben kann.

Daten sind wie Öl, ohne Verarbeitung sind sie nutzlos.
Daten sind wie Öl, wesentliche Prozesse werden von ihnen angetrieben.
Daten sind wie Öl, sie sind – in gewissem Sinne – schlecht für die Umwelt.
Daten sind wie Öl, sie sind wertvoll, obwohl in relativ großen Mengen vorhanden.

Einer der wesentliche Unterschiede ist aber, dass Daten sich im Gegensatz zu Öl nicht verbrauchen. Man kann die gleichen Datensätze immer wieder in verschiedenen Kontexten verwenden.

Klassisches Machine Learning hat immer zuerst bedeutet, Daten zu sammeln und vor allem, Daten aufzubereiten. Automatische Übersetzung zum Beispiel steht und fällt mit dem Vorhandensein sogenannter „alinierter Texte“, also von Dokumenten, die in zwei verschiedenen Sprachen vorliegen und idealerweise Satz für Satz gegenübergestellt werden können. Auf dieser (Daten)Basis kann dann ein Machine Learning Modell trainiert werden, das auch für neue Sätze das (oft) korrekte Gegenüber ausspuckt. Im Wettrennen solcher Systeme war oft entscheidend, wer die saubereren und größeren Datenmengen hatte und nicht, wer den besseren Algorithmus bzw. die bessere Technologie besaß.

Die technischen Ansätze basieren sowieso oft auf frei verfügbarer Forschung, die Daten machen den Unterschied.

Mit Deep Learning ist dieser Datenhunger noch deutlich größer geworden. Während vorherige Verfahren mit 100 Positivbeispielen pro Kategorie schon ganz gut funktionierten (z.B. 100 Finanznews vs 100 Politiknews zum Trainieren eines Classifiers), brauchten Deep Learning Verfahren mindestens eine Größenordnung mehr. Dafür funktionierte hiermit dann plötzlich so etwas Verrücktes wie Bildsuche bzw. Bildkategorisierung.

Mit Large Language Models (und anderen Formen generativer AI) haben wir die nächste Stufe der Datengier gezündet. Hier wird eigentlich nur noch von Milliarden geredet. Im dem Fall sind diese Inputdaten zwar nur unkategorisierte „Tokens“ statt manuell vorsortierter Dokumente, aber die verwendeten Datenmengen sind dennoch gigantisch.

Ein wesentlicher Unterschied ist allerdings, dass im Falle von ChatGPT und anderen solchen Modellen jemand anderes für mich alle möglichen bunten Daten gesammelt und zu einem Brei vermischt hat - einem Ölteppich sozusagen.

Dadurch kann das Modell ohne weitere Datenzufuhr fast alle Fragen beantworten, aber kann umgekehrt für keine Frage wirklich verlässliche, präzise oder auch nur reproduzierbare Antworten garantieren. Der große Datenbrei spuckt auf fast alles eine Antwort aus, aber je dünner die Datenlage im Trainingsset war, desto fragwürdiger wird sie.

Was? Aber ChatGPT wurde doch auf dem gesamten Wissen der Welt trainiert, oder nicht?

Selbst wenn das so wäre (sowohl „gesamt“ als auch „Wissen“ als auch „Welt“ sind vermutlich keine angemessenen Begriffe), benötigt es nicht nur ein Dokument zu jedem Thema, sondern sehr sehr viele, um am Ende faktisch korrekte Antworten zu geben. Man sieht das sehr schön, wenn man sich ein bisschen an den „Rand“ des Weltwissens begibt: Waren zu einem Thema wenig Dokumente im Trainingsset und überrumpelt man das System vielleicht noch mit abwegigen Abfragesprachen wie z.B. Deutsch, dann ist die Halluzination nicht weit:

Nein, das ist nicht korrekt, Georg Lohmeier hat diese Serie geschrieben und die Fälle spielen alle 1911/12.

Aber vielleicht war ja der Bindestrich verwirrend, im Original schreibt es sich ohne diesen:

Ah ja, nein, das ist nicht weniger falsch. Interessanterweise bleibt das Modell in der richtigen „Umgebung“, sowohl Ernst Maria Lang als auch Max Neal sind im weitesten Sinne Humoristen aus Bayern. Aber kann der Bindestrich eine solche Umdeutung hervorrufen?

Probieren wir das lieber nochmal mit einer wörtlichen Wiederholung (im selben Chat-Fenster):

Ah, wieder ein bayrischer Humorist, wieder der Falsche. Für alle genannten Herren (inklusive dem echten Autor) existieren Wikipedia-Seiten und auch andere Informationen im Netz. Dennoch fantasiert ChatGPT-4 (in allerneuester Ausprägung vom 12. Sep 2023) sich lustig beliebigen Käse zusammen.

Rücken wir wieder etwas mehr in das Zentrum der Welt von ChatGPT, werden die Antworten wieder korrekt, konsistent und vor allem wiederholbar:

Jede Wiederholung dieser Frage erzeugt (für mich, Stand heute) die gleiche Antwort. Und selbst die englische Variante ist konsistent und quasi eine 1:1 Übersetzung der deutschen:

Aber ist das denn wichtig? Interessiert sich irgendjemand wirklich für das „Königlich Bayerische Amtsgericht“??

Vermutlich schon, aber das wesentlichere Problem ist, dass unzählige Start-Ups in extrem engen Nischen gegründet werden, mit dem Anspruch, für diese Nische ein tolles „AI-angetriebenes“ Produkt zu bauen, was in der Realität oft bedeutet, dass diese Produkte auf mehr oder minder phantasievolle Art Prompts an ChatGPT schicken und dessen Ausgaben weiterverarbeiten.

Das obige Beispiel dokumentiert aussagekräftig, welche Qualität von solchen Ansätzen zu erwarten ist, sobald man den üppigen Kern der OpenAi-Trainingsdaten verlässt.

Johannes Stiehler

CO-Founder NEOMO GmbH

Johannes hat während seiner gesamten Laufbahn an Softwarelösungen gearbeitet, die Textinformationen verarbeiten, anreichern und kontextabhängig anzeigen.

Wir haben noch mehr zu bieten!

Unseren Newsletter abonnieren

Wenn Sie sich vom Twitter- und LinkedIn-Wahnsinn abkoppeln, aber trotzdem unsere Inhalte lesen möchten, freuen wir uns und haben genau das richtige für Sie: Unser Newsletter hält Sie über alles Wissenswerte auf dem Laufenden.

Bitte benutzen Sie das untenstehende Formular, um ihn zu abonnieren.

Folgen Sie uns für Einblicke, Ausblicke und Durchblicke.

Wann immer neue Inhalte verfügbar sind oder etwas Bemerkenswertes in der Branche passiert - wir halten Sie auf dem Laufenden.

Folgen Sie uns auf LinkedIn und Twitter, um Neuigkeiten zu erfahren, und auf YouTube für bewegte Bilder.

Teilen, wenn's gefällt

Wenn Ihnen unser Beitrag gefällt, helfen Sie uns bitte, ihn zu verteilen, indem Sie Ihr eigenes Netzwerk aktivieren.

Weitere Blogartikel

„Digitale Wissenbissen“: Generative KI-Agenten - Ein Job, ein Bot

Januar 2025

In dieser Episode tauchen wir tief in die Welt der Agentic AI ein und erkunden, ob spezialisierte KI-Agenten Geschäftsprozesse revolutionieren können, indem sie komplexe Aufgaben autonom und effizient bewältigen.

Weiterlesen

"Digitale Wissensbissen": Die Zukunft der Datenanalyse – Ein Gespräch mit Christian Schömmer

November 2024

Data Warehouse, Data Lake, Data Lakehouse - die Begriffe eskalieren stetig. Aber was brauche ich wirklich für welchen Zweck? Reicht meine alte (und teure) Datenbank oder würde ein "Data Lakehouse" mein Geschäft so richtig weiterbringen? Gerade in der Kombination mit Generativer KI sind die Möglichkeiten so vielfältig wie verwirrend. Gemeinsam mit Christian Schömmer setzen wir uns vors Datenhaus am See und gehen der Sache auf den Grund.

Weiterlesen

"Digitale Wissensbissen": Generative KI in geschäftskritischen Prozessen

September 2024

Nach der etwas kritischen Sicht auf generative KI in der letzten Episode geht es diesmal um den konkreten Einsatz: Kann man generative KI schon in Geschäftsprozessen integrieren und wenn ja, wie geht das genau. Es stellt sich heraus: Wenn man zwei oder drei Grundregeln beachtet, treten die meisten der Probleme in den Hintergrund und die coolen Möglichkeiten generative KI kommen relativ risikofrei zur Geltung. Wir gehen sehr konkret darauf ein, wie wir eine Compliance-Anwendung gebaut haben, die maximal von Large Language Models profitiert, ohne auf menschliche Kontrolle und "Accountability" zu verzichten.

Weiterlesen