Ein LLM ohne eine einzige Gleichung

Vielleicht hat man Ihnen schon einmal die Metapher vom stochastischen Papagei erklärt. Oder die vom Prognosemotor. Das sind gute Metaphern, aber sie bleiben abstrakt. Hier erfahren Sie, wie es wirklich funktioniert – genau genug, um sinnvolle Entscheidungen zu treffen, ganz ohne eine einzige Gleichung.

Das Token: die Grundeinheit

Ein LLM liest keine Wörter. Es liest Token. Ein Token ist ein Textfragment, manchmal ein ganzes Wort, manchmal ein Teil eines Wortes, manchmal nur ein Leerzeichen oder ein Satzzeichen. Im Englischen entspricht ein Token im Durchschnitt 3/4 eines Wortes. Im Französischen etwas weniger, da die Wörter im Durchschnitt länger sind.

Warum ist das wichtig? Weil die Länge der Texte, die Sie an ein Modell senden, in Tokens gemessen wird, nicht in Wörtern. Und die Kosten für die APIs werden pro Token abgerechnet. 1.000 Tokens entsprechen etwa 750 Wörtern im Englischen oder 650 Wörtern im Französischen.

Wenn Sie „Guten Tag, können Sie diesen Vertrag analysieren?“ senden, erhält das Modell keinen ganzen Satz. Es erhält eine Folge von Tokens: [„Bon“, „jour“, „,“, „pou“, „vez“, „-vous“, „anal“, „yser“, „ce“, „contra“, „t“, „?“] (ungefähr, die genaue Aufteilung hängt vom Tokenizer des Modells ab).

Der Kontext: das Kurzzeitgedächtnis

Ein LLM verfügt über kein dauerhaftes Gedächtnis. Was es von Ihrer Unterhaltung „weiß“, ist das, was sich im Kontextfenster befindet – also die Folge von Tokens, die es bei jedem Aufruf erhält.

Das Kontextfenster hat eine maximale Größe. GPT-4 Turbo kann bis zu 128.000 Token verarbeiten. Claude 3.5 Sonnet sogar 200.000. Das ist eine Menge. Das bedeutet jedoch nicht, dass das Modell alles mit derselben Effizienz verarbeitet. Untersuchungen zeigen, dass Modelle dazu neigen, das, was am Anfang und am Ende des Fensters steht, besser zu behalten als das, was in der Mitte steht. Das ist keine absolute Regel, aber es ist eine dokumentierte Tendenz.

Die Temperatur: Der Kompromiss zwischen Kreativität und Zuverlässigkeit

Wenn das Modell das nächste Token vorhersagt, wählt es nicht immer das wahrscheinlichste aus. Es gibt einen Parameter namens „Temperatur“, der den Grad der Zufälligkeit bei der Auswahl steuert.

Niedrige Temperatur (nahe 0): Das Modell wählt fast immer das wahrscheinlichste Token aus. Deterministisches, wiederholbares und zuverlässiges Ergebnis bei faktischen Aufgaben.

Hohe Temperatur (nahe 1 oder darüber): Das Modell erweitert seine Auswahl und untersucht weniger wahrscheinliche Token. Das Ergebnis ist kreativer und abwechslungsreicher, kann aber auch eher in unerwartete Richtungen abdriften.

Für praktische Anwendungsfälle (Informationsgewinnung, Formatprüfung, Klassifizierung): niedrige Temperatur. Für kreatives Schreiben: höhere Temperatur. Die meisten Nutzer ändern diese Einstellung nicht; die Standardoberflächen verwenden eine mittlere Temperatur.

Warum das mechanisch gesehen verrückt spielt

Sie kennen nun die einzelnen Elemente: die Token-Vorhersage, den Kontext, die Temperatur. Setzen Sie diese zusammen, und die Halluzination ist vorprogrammiert.

Das Modell sagt das wahrscheinlichste nächste Token voraus. Wenn es um etwas geht, auf das es kaum trainiert wurde (ein aktuelles Ereignis, eine wenig bekannte Person, eine spezifische Vorschrift), hat es kein starkes Signal. Es gibt dennoch eine Vorhersage ab, weil es gar nicht anders kann. Und das von ihm vorhergesagte Token kann formal plausibel sein (es ist eine plausible Zahl für ein Datum, es ist ein plausibler Name für eine Person), aber faktisch falsch.

Das Modell weiß nicht, dass es etwas nicht weiß. Es verfügt über keine Metakognition hinsichtlich seiner Wissenslücken. Es erzeugt eine Wahrheit und eine Erfindung mit derselben Leichtigkeit.

Mit RLHF (Reinforcement Learning from Human Feedback) trainierte Modelle neigen möglicherweise eher dazu, flüssige und selbstbewusste Antworten zu liefern, selbst bei unsicheren Themen, da menschliche Annotatoren dazu neigen, selbstbewusste Antworten gegenüber zögerlichen Antworten zu bevorzugen.

InstructGPT, Ouyang et al. (2022) (2022-03-04)

Dieser Punkt ist entscheidend. Das Fine-Tuning durch menschliches Feedback (RLHF), das die Modelle benutzerfreundlicher macht, kann die Halluzination in Bezug auf das angezeigte Konfidenzniveau verstärken. Menschliche Annotatoren belohnen Antworten, die selbstbewusst wirken. Das Modell lernt, sicher zu wirken, auch wenn es das gar nicht ist.

Das RAG: eine nützliche Stütze, aber kein Allheilmittel

RAG steht für „Retrieval-Augmented Generation“. Die Idee dahinter: Anstatt alles in den Kontext einzubinden oder das Modell während des Trainings dazu aufzufordern, sich alles zu „merken“, werden relevante Dokumente spontan abgerufen und in den Kontext eingebunden, bevor die Frage gestellt wird.

Beispiel: Sie verfügen über eine Datenbank mit 10.000 Verträgen. Bei jeder Frage werden die fünf Verträge gesucht, die semantisch am ehesten zur Frage passen, in den Kontext gestellt, und das Modell gibt seine Antwort auf der Grundlage dieser Dokumente.

RAG reduziert Halluzinationen in dem abgedeckten Bereich. Befindet sich die Antwort in den Dokumenten, wird das Modell sie finden. Ist sie nicht vorhanden, kann es dennoch Halluzinationen erzeugen. Und wenn die Dokumente selbst Fehler enthalten, wird das Modell diese weitergeben.

Was Sie daraus für Ihre Anwendungsfälle ableiten können

Diese Mechanismen haben direkte Auswirkungen:

Für ein LLM geeignete Aufgaben: Formatkonvertierung, Zusammenfassung, Klassifizierung nach klar definierten Kategorien, Codegenerierung anhand gängiger Muster, Erstellung eines ersten Entwurfs.

Risikobehaftete Aufgaben ohne Vorsichtsmaßnahmen: Extraktion präziser Sachinformationen (Daten, Zahlen, Eigennamen), rechtliche oder medizinische Überprüfung sowie alles, was von aktuellen Erkenntnissen abhängt, die in den Trainingsdaten nicht enthalten sind.

Ungeeignete Aufgaben ohne spezifische Architektur: alles, was Langzeitgedächtnis erfordert, alles, was eine garantierte formale Schlussfolgerung erfordert, alles, was unentdeckte Fehler nicht toleriert.

Als Faustregel gilt: Je höher die Kosten eines Fehlers in Ihrem Kontext sind, desto dringender benötigen Sie einen Mechanismus zur manuellen oder automatisierten Überprüfung der Modellausgaben. Dieser Mechanismus ist mit Kosten verbunden. Diese Kosten sind Teil der Gesamtkosten Ihres KI-Projekts.

Das Token: die Grundeinheit#

Der Kontext: das Kurzzeitgedächtnis#

Die Temperatur: Der Kompromiss zwischen Kreativität und Zuverlässigkeit#

Warum das mechanisch gesehen verrückt spielt#

Das RAG: eine nützliche Stütze, aber kein Allheilmittel#

Was Sie daraus für Ihre Anwendungsfälle ableiten können#

Verwandte Artikel

Jenseits der LLMs: KI, die Sie bereits nutzen, ohne es zu wissen

Das 'Reasoning' der Modelle: was es tut, was es nicht tut

KI wurde nicht 2022 geboren: von Algorithmen zum Machine Learning