5 Gründe, warum ChatGPT (oft) nicht die Lösung ist
Nach der Veröffentlichung von GPT-4 stänkern sich unkritische Fans und KI-Weltuntergangspropheten auf sozialen Medien mit neuem Enthusiasmus an.
Höchste Zeit, einen abwägenden Blick auf die Technologie und ihre Einsetzbarkeit für Consumer-Anwendungen zu werfen.
Im Folgenden werden einige Begriffe verwendet, die vielleicht nicht jedem klar sind:
ChatGPT: Eine Variante von GPT, die für Konversationen, also mehrschrittige Interaktionen mit Nutzern ausgelegt ist.
GPT: "Generative Pre-Trained Transformer", ein Large Language Model, dass Textausgabe erzeugen kann und für viele Anwendungsfälle ohne zusätzliches Training einsetzbar ist.
(Large) Language Model: Eine digitale Repräsentation einer oder mehrerer natürlicher Sprachen. Im Wesentlichen besteht seine Funktion in der Vorhersage der plausibelsten Fortsetzung eines Eingabetextes.
Deep Learning: Ein Ansatz für maschinelles Lernen, der viele früher separate Prozesse (z.B. Feature Engineering und Abstraktionen der Eingabedaten) zusammenfasst und “mitlernt”. Neuronale Netze, insbesondere Transformer-Architekturen sind der aktuell erfolgreichste Ansatz hierzu.
Diese Begriffe beinhalten einander: ChatGPT ist ein GPT ist ein Large Language Model ist eine Deep Learning Anwendung.
1. ChatGPT ist Anti-UX
Ein Online-Auftritt lebt von Nutzerführung.
ChatGPT-Konversationen werden vom Nutzer geführt.
So einfach ist das.
Wie in anderen Posts beschrieben, ist ChatGPT primär “hilfreich um jeden Preis”. Man könnte sogar von einer gewissen Unterwürfigkeit sprechen.
Inwiefern ist das ein Problem?
Auf meinem Online-Angebot, sagen wir z.B. einem News-Portal möchte ich die Kontrolle über das Nutzungserlebnis behalten. Ich will Technologien verwenden, die einerseits den Besuchern schnelle Bedürfnisbefriedigung ermöglichen, aber andererseits auch erlauben, das Verhalten der Nutzer in bestimmte Richtungen zu steuern.
Beispiel: Eine Autocomplete-Funktionalität erspart dem Nutzer Tipparbeit und mentale Anstrengung (Wie schreibt man nochmal “Wolodymyr Selenskyj”?), erlaubt aber gleichzeitig auch, bestimmte Produkte oder Artikel zu promoten.
Der Betreiber des Angebots hat in der Hand, wohin er Besucherströme lenken möchte.
Eine Chat-KI hingegen ist notorisch schwer überhaupt einzuschränken, sie lässt sich vollständig vom Nutzer steuern, im Falle von ChatGPT auch zu völlig abwegigen Inhalten. OpenAI gibt zwar ein paar windige Leitplanken vor, um Hassrede und andere Unarten einzuschränken. Für Integratoren gibt es aber keine Möglichkeit, ChatGPT dazu zu bringen, seine Unterhaltungen auf bestimmte Themen zu beschränken.
2. GPT ist immer noch voller Bias und Halluzinationen - wer übernimmt die Verantwortung?
Large Language Models haben im Kern nur einen Zweck:
Für eine Eingabe eine möglichst plausible Fortsetzung zu finden.
“Plausibel” heißt in diesem Falle insbesondere statistisch aus den Trainingsdaten (meist Webseiten und Wikipedia) ableitbar. Diese Fortsetzungen sind immer beeindruckend – zum Beispiel wenn ChatGPT ein ganzes Essay aus einem einfachen Prompt konstruiert – aber manchmal auch weltanschaulich fragwürdig (z.B. rassistisch) oder faktisch falsch.
Das heißt, Ausgaben von solchen Modellen müssen immer kritisch überprüft werden, bevor sie als “Wahrheit” präsentiert werden. In manchen Fällen kann man das dem Benutzer aufbürden (z.B. wenn eine Legal AI einen Vertragsentwurf für einen Anwalt erstellt), in vielen Fällen aber eben nicht, vor allem nicht im B2C Bereich.
3. Chat ist einer der langsamsten Formen der Nutzerinteraktion und GPT ist noch langsamer
Schon lange wird versucht, Chat-Interfaces als großartige Form der Nutzerinteraktion zu verkaufen. Im Gegensatz zu ChatGPT (siehe Punkt 1) lassen sich zwar viele ChatBots auch vom Betreiber so konfigurieren, dass eine echte Nutzerführung stattfindet.
Das ändert allerdings nichts daran, dass die meisten Nutzer lieber klicken als tippen, lieber schauen als lesen und möglichst wenig Zeit auf der Suche nach Informationen verbringen wollen.
Keine dieser Vorlieben wird mit einem ChatBot bedient.
Gerade, was den letzten Punkt betrifft, ist ChatGPT ein neuer Tiefpunkt: So lange habe ich schon lange nicht mehr auf einzelne Wörter gewartet.
Das zeigt sich besonders drastisch bei Bing Sydney:
Statt Suche -> Klick ist die Interaktion via ChatBot im Idealfall Tippen -> Warten -> Lesen -> Klick.
Der Weg zum ersten Suchergebnis ist deutlich länger, in vielen Fällen tröstet der von der KI erzeugte zusammenfassende Text darüber auch nicht hinweg.
4. Large Language Models sind Datenkraken
Bis vor kurzem behielt sich OpenAI das Recht vor, alle Nutzerdaten zur Verbesserung ihrer Dienste, spezifisch zum Training neuer Modelle zu verwenden. Ich denke, den meisten GPT-Enthusiasten war das nicht bewusst, während sie private und Unternehmensdaten in Interaktionen mit GPT-APIs verfüttert haben.
Diese Policy wurde nun zwar auf ein explizites Opt-In-Modell geändert, aber Copyright und Datenschutz bleiben weiterhin kritische Themen im Zusammenhang mit solchen Tools.
Schließlich werden Dall-E und ChatGPT auf im Netz verfügbaren Daten trainiert, deren Ersteller dafür keinerlei Zustimmung gegeben haben. Die erzeugten Ausgaben sind immer indirekte Derivate dieser Trainingsdaten. Copyright-Zuweisung is nur eines von vielen Problemen, die sich daraus ergeben.
5. Deep Learning ist eine Black Box ohne Zugang
In vielen Anwendungen ist es unumgänglich, Entscheidungen, die von einer Software getroffen wurden, nachvollziehbar zu machen. Das ist nur möglich, wenn Ausgaben auf relativ einfachem Wege direkt aus den Eingaben abgeleitet werden können.
Ich kann mich noch gut erinnern, wie ich versucht habe, Anwälten in Rahmen einer elektronischen Beweisaufnahme zu erklären, was eine “Support Vector Machine” ist und auf welchem Wege diese dazu kam, bestimmte Dokumente als verfahrensrelevant zu kennzeichnen und andere nicht.
Im Vergleich dazu sind mehrschichtige neuronale Netzen, wie sie eben auch für Large Language Models verwendet werden, mehrere Größenordnungen komplexer. Natürlich sind beide Technologien “Machine Learning”, im gleichen Maße wie ein Fahrrad und ein Space Shuttle beides Fortbewegungsmittel sind.
Für manche Anwendungen ist das ein absoluter “deal breaker”.
Nach der Veröffentlichung von GPT-4 bewegen sich die Beiträge auf LinkedIn und Twitter wieder auf die übliche Hype-Rezeptur zu:
- eine Tasse unkritischer Jubel
- eine Prise überlegte Kritik
- ein Teelöffel Weltuntergangsfantasien und andere Horrorszenarien
- ein Eimer Selbstvermarktung ohne wirklichen Bezug zum Thema
In kritischeren Beiträgen dreht sich die Diskussion primär um solche Dinge wie Bias und Halluzinationen, also die Tatsache, dass ich jedes Large Language Model dazu bringen kann, sowohl weltanschaulich fragwürdige als auch faktisch falsche Auskünfte zu geben.
Aber nehmen wir mal an, diese Probleme existierten nicht. Wäre ChatGPT dann die Wunderwaffe für jede Website? Sicher nicht, denn ChatGPT und ähnliche Tools sind ihrem Wesen nach kaum sinnvoll in eine aktive Nutzerführung integrierbar, erzeugen Ergebnisse, die auf jeden Fall noch durch einen menschlichen Benutzer auf Lügen und Tendenzen überprüft und freigegeben werden müssen und tun das alles ohne Transparenz oder Rücksicht auf geistiges Eigentum.