ChatGPT und der Ölteppich

Johannes Stiehler
Technologie
Arbiträre Ausbrüche
#LargeLanguageModels
#TextKI
Cover Image for ChatGPT und der Ölteppich

„Data is the new oil“, so sagte im Jahr 2006 der britische Mathematiker Clive Humby. Wahrscheinlich war er sich nicht bewusst, wie richtig er lag und wie weit man diese Analogie treiben kann.

  • Daten sind wie Öl, ohne Verarbeitung sind sie nutzlos.
  • Daten sind wie Öl, wesentliche Prozesse werden von ihnen angetrieben.
  • Daten sind wie Öl, sie sind – in gewissem Sinne – schlecht für die Umwelt.
  • Daten sind wie Öl, sie sind wertvoll, obwohl in relativ großen Mengen vorhanden.

Einer der wesentliche Unterschiede ist aber, dass Daten sich im Gegensatz zu Öl nicht verbrauchen. Man kann die gleichen Datensätze immer wieder in verschiedenen Kontexten verwenden.

Klassisches Machine Learning hat immer zuerst bedeutet, Daten zu sammeln und vor allem, Daten aufzubereiten. Automatische Übersetzung zum Beispiel steht und fällt mit dem Vorhandensein sogenannter „alinierter Texte“, also von Dokumenten, die in zwei verschiedenen Sprachen vorliegen und idealerweise Satz für Satz gegenübergestellt werden können. Auf dieser (Daten)Basis kann dann ein Machine Learning Modell trainiert werden, das auch für neue Sätze das (oft) korrekte Gegenüber ausspuckt. Im Wettrennen solcher Systeme war oft entscheidend, wer die saubereren und größeren Datenmengen hatte und nicht, wer den besseren Algorithmus bzw. die bessere Technologie besaß.

Die technischen Ansätze basieren sowieso oft auf frei verfügbarer Forschung, die Daten machen den Unterschied.

Mit Deep Learning ist dieser Datenhunger noch deutlich größer geworden. Während vorherige Verfahren mit 100 Positivbeispielen pro Kategorie schon ganz gut funktionierten (z.B. 100 Finanznews vs 100 Politiknews zum Trainieren eines Classifiers), brauchten Deep Learning Verfahren mindestens eine Größenordnung mehr. Dafür funktionierte hiermit dann plötzlich so etwas Verrücktes wie Bildsuche bzw. Bildkategorisierung.

Mit Large Language Models (und anderen Formen generativer AI) haben wir die nächste Stufe der Datengier gezündet. Hier wird eigentlich nur noch von Milliarden geredet. Im dem Fall sind diese Inputdaten zwar nur unkategorisierte „Tokens“ statt manuell vorsortierter Dokumente, aber die verwendeten Datenmengen sind dennoch gigantisch.

Ein wesentlicher Unterschied ist allerdings, dass im Falle von ChatGPT und anderen solchen Modellen jemand anderes für mich alle möglichen bunten Daten gesammelt und zu einem Brei vermischt hat - einem Ölteppich sozusagen.

Dadurch kann das Modell ohne weitere Datenzufuhr fast alle Fragen beantworten, aber kann umgekehrt für keine Frage wirklich verlässliche, präzise oder auch nur reproduzierbare Antworten garantieren. Der große Datenbrei spuckt auf fast alles eine Antwort aus, aber je dünner die Datenlage im Trainingsset war, desto fragwürdiger wird sie.

Was? Aber ChatGPT wurde doch auf dem gesamten Wissen der Welt trainiert, oder nicht?

Selbst wenn das so wäre (sowohl „gesamt“ als auch „Wissen“ als auch „Welt“ sind vermutlich keine angemessenen Begriffe), benötigt es nicht nur ein Dokument zu jedem Thema, sondern sehr sehr viele, um am Ende faktisch korrekte Antworten zu geben. Man sieht das sehr schön, wenn man sich ein bisschen an den „Rand“ des Weltwissens begibt: Waren zu einem Thema wenig Dokumente im Trainingsset und überrumpelt man das System vielleicht noch mit abwegigen Abfragesprachen wie z.B. Deutsch, dann ist die Halluzination nicht weit:

Amtsgericht, 1. Versuch



Nein, das ist nicht korrekt, Georg Lohmeier hat diese Serie geschrieben und die Fälle spielen alle 1911/12.

Aber vielleicht war ja der Bindestrich verwirrend, im Original schreibt es sich ohne diesen:

Amtsgericht, 2. Versuch


Ah ja, nein, das ist nicht weniger falsch. Interessanterweise bleibt das Modell in der richtigen „Umgebung“, sowohl Ernst Maria Lang als auch Max Neal sind im weitesten Sinne Humoristen aus Bayern. Aber kann der Bindestrich eine solche Umdeutung hervorrufen?

Probieren wir das lieber nochmal mit einer wörtlichen Wiederholung (im selben Chat-Fenster):

Amtsgericht, 3. Versuch


Ah, wieder ein bayrischer Humorist, wieder der Falsche. Für alle genannten Herren (inklusive dem echten Autor) existieren Wikipedia-Seiten und auch andere Informationen im Netz. Dennoch fantasiert ChatGPT-4 (in allerneuester Ausprägung vom 12. Sep 2023) sich lustig beliebigen Käse zusammen.

Rücken wir wieder etwas mehr in das Zentrum der Welt von ChatGPT, werden die Antworten wieder korrekt, konsistent und vor allem wiederholbar:

Ölige Daten, 1. Versuch

Jede Wiederholung dieser Frage erzeugt (für mich, Stand heute) die gleiche Antwort. Und selbst die englische Variante ist konsistent und quasi eine 1:1 Übersetzung der deutschen:

Ölige Daten, 2. Versuch

Aber ist das denn wichtig? Interessiert sich irgendjemand wirklich für das „Königlich Bayerische Amtsgericht“??

Vermutlich schon, aber das wesentlichere Problem ist, dass unzählige Start-Ups in extrem engen Nischen gegründet werden, mit dem Anspruch, für diese Nische ein tolles „AI-angetriebenes“ Produkt zu bauen, was in der Realität oft bedeutet, dass diese Produkte auf mehr oder minder phantasievolle Art Prompts an ChatGPT schicken und dessen Ausgaben weiterverarbeiten.

Das obige Beispiel dokumentiert aussagekräftig, welche Qualität von solchen Ansätzen zu erwarten ist, sobald man den üppigen Kern der OpenAi-Trainingsdaten verlässt.

Johannes Stiehler
CO-Founder NEOMO GmbH
Johannes hat während seiner gesamten Laufbahn an Softwarelösungen gearbeitet, die Textinformationen verarbeiten, anreichern und kontextabhängig anzeigen.

Wir haben noch mehr zu bieten!

Unseren Newsletter abonnieren

Wenn Sie sich vom Twitter- und LinkedIn-Wahnsinn abkoppeln, aber trotzdem unsere Inhalte lesen möchten, freuen wir uns und haben genau das richtige für Sie: Unser Newsletter hält Sie über alles Wissenswerte auf dem Laufenden.

Bitte benutzen Sie das untenstehende Formular, um ihn zu abonnieren.

NEOMO verpflichtet sich, Ihre Privatsphäre zu schützen und zu respektieren und Ihre persönlichen Daten nur dazu verwenden, Ihr Konto zu verwalten und die von Ihnen angeforderten Informationen bereitzustellen. Um Ihnen die gewünschten Inhalte zur Verfügung stellen zu können, müssen wir Ihre personenbezogenen Daten speichern und verarbeiten.

Folgen Sie uns für Einblicke, Ausblicke und Durchblicke.

Wann immer neue Inhalte verfügbar sind oder etwas Bemerkenswertes in der Branche passiert - wir halten Sie auf dem Laufenden.

Folgen Sie uns auf LinkedIn und Twitter, um Neuigkeiten zu erfahren, und auf YouTube für bewegte Bilder.

Teilen, wenn's gefällt

Wenn Ihnen unser Beitrag gefällt, helfen Sie uns bitte, ihn zu verteilen, indem Sie Ihr eigenes Netzwerk aktivieren.

Weitere Blogartikel

Image

"Digitale Wissensbissen": Die Zukunft der Datenanalyse – Ein Gespräch mit Christian Schömmer

Data Warehouse, Data Lake, Data Lakehouse - die Begriffe eskalieren stetig. Aber was brauche ich wirklich für welchen Zweck? Reicht meine alte (und teure) Datenbank oder würde ein "Data Lakehouse" mein Geschäft so richtig weiterbringen? Gerade in der Kombination mit Generativer KI sind die Möglichkeiten so vielfältig wie verwirrend. Gemeinsam mit Christian Schömmer setzen wir uns vors Datenhaus am See und gehen der Sache auf den Grund.

Image

"Digitale Wissensbissen": Generative KI in geschäftskritischen Prozessen

Nach der etwas kritischen Sicht auf generative KI in der letzten Episode geht es diesmal um den konkreten Einsatz: Kann man generative KI schon in Geschäftsprozessen integrieren und wenn ja, wie geht das genau. Es stellt sich heraus: Wenn man zwei oder drei Grundregeln beachtet, treten die meisten der Probleme in den Hintergrund und die coolen Möglichkeiten generative KI kommen relativ risikofrei zur Geltung. Wir gehen sehr konkret darauf ein, wie wir eine Compliance-Anwendung gebaut haben, die maximal von Large Language Models profitiert, ohne auf menschliche Kontrolle und "Accountability" zu verzichten.

Image

Bleeding Edge - Fluch oder Segen?

Wir setzen auf modernste Technologien, um Unternehmen durch innovative Lösungen voranzubringen. Daher gehen wir in Gesprächen mit Kunden und Partnern oder unseren Webinaren immer wieder darauf ein, Unternehmen die Vorteile und Möglichkeiten moderner Technologien nahezubringen. Aber auch für uns selbst kommt KI zum Einsatz: Durch die Automatisierung von Ausschreibungsprozessen konnten wir wertvolle Ressourcen sparen und Effizienz steigern.