Das 'Reasoning' der Modelle: was es tut, was es nicht tut

Seit 2024 taucht das Wort überall in den Anzeigen auf: Die neuen Modelle „denken nach“. OpenAI nennt seine Modellreihe o1, o3. Anthropic spricht von „extended thinking“. Google hat seinen Gemini-Thinking-Modus. DeepSeek hat R1 veröffentlicht. Das Verkaufsargument: Modelle, die nachdenken, bevor sie antworten.

Bei bestimmten Aufgaben verbessert sich die messbare Leistung tatsächlich. Das ist der ehrliche Teil der Aussage. Der Rest verdient es, offengelegt zu werden.

Was sich technisch ändert

Die zugrunde liegende Technik wird als „Chain-of-Thought“ (Gedankenkette) bezeichnet. Sie wurde 2022 in einem Artikel von Google Brain beschrieben: Anstatt direkt nach der Antwort zu fragen, wird das Modell aufgefordert, die Zwischenschritte zu beschreiben. Die Leistung bei Aufgaben des mathematischen und logischen Denkens steigt deutlich an.

Das Einfügen von Beispielen für schrittweises Denken in die Eingabeaufforderung verbessert die Leistung bei Benchmarks für mathematisches Denken und gesunden Menschenverstand spektakulär, und zwar bei Modellen ab einer bestimmten Größe.

Chain-of-Thought Prompting, Wei et al. (2022) (2022-01-28)

Was o1, R1 und ihre Entsprechungen tun: Sie verinnerlichen diesen Gedankengang. Anstatt dass Sie ihn in Ihrer Eingabeaufforderung anfordern, generiert das Modell ihn automatisch als Zwischentoken (die dem Benutzer oft verborgen bleiben), bevor es zur endgültigen Antwort gelangt. Die „Reflexions“-Token sorgen für einen besseren Kontext und ermöglichen eine präzisere endgültige Antwort.

Die Verbesserung ist tatsächlich spürbar. Bei formalen mathematischen Problemen, Programmieraufgaben und strukturierten Logikrätseln schneiden diese Modelle besser ab als ihre Vorgänger. Das belegen die Benchmarks MATH, AIME und andere.

Was sich nicht ändert

Das Modell generiert stets nacheinander Token auf der Grundlage von Wahrscheinlichkeiten. Der Gedankengang ist eine Abfolge von vorhergesagten Token, nicht die Spur eines kognitiven Prozesses. Das Modell verfügt über keine interne Darstellung des Problems. Es hat keine Hypothesen, die es testet und verwirft. Es generiert Text, der wie eine Argumentation aussieht, weil es auf Spuren menschlicher Argumentation trainiert wurde.

Diese Unterscheidung ist in Kontexten von Bedeutung, in denen Robustheit außerhalb der Verteilung erforderlich ist. Schlussfolgerungsmodelle erzielen hervorragende Ergebnisse bei Problemtypen, die in ihren Trainingsdaten gut vertreten sind. Bei strukturell unterschiedlichen Problemen lässt die Leistung nach. Ein echtes formales Schlussfolgerungssystem (zum Beispiel ein Theorembeweiser) zeigt dieses Verhalten nicht: Es beweist oder es scheitert, ohne eine falsche Beweisführung zu generieren.

Der Fall DeepSeek-R1: Ein Riss im Mythos der Undurchsichtigkeit

Im Januar 2025 veröffentlicht DeepSeek R1, ein Open-Weights-Modell für logisches Schlussfolgern, das bei mehreren Benchmarks eine mit OpenAI’s o1 vergleichbare Leistung erzielt – und das zu einem Bruchteil der angegebenen Trainingskosten.

DeepSeek-R1 erreicht bei Benchmarks für mathematisches Denken und Programmierung eine mit OpenAI-o1 vergleichbare Leistung, wobei während der Reflexionsphase reine verstärkende Techniken (ohne intensive menschliche Überwachung) zum Einsatz kommen.

DeepSeek-R1 Technical Report (2025) (2025-01-22)

Dieser Moment ist in zweierlei Hinsicht aufschlussreich. Zum einen zeigt er, dass Argumentationstechniken nicht nur den Akteuren vorbehalten sind, die über Milliardenbudgets verfügen. Zum anderen verdeutlicht er, dass der Wettbewerb global ist und dass Behauptungen über einen dauerhaften technologischen Vorsprung auf tönernen Füßen stehen.

Was sich für Ihre Projekte ändert (und was nicht)

Wenn Sie Modelle für Analyse- oder Problemlösungsaufgaben evaluieren, sollten Sie die Schlussfolgerungsmodelle unbedingt testen. Bei strukturierten Aufgaben (Extraktion mit bedingter Logik, Regelvalidierung, Codegenerierung mit Tests) schneiden sie oft besser ab als Standardmodelle.

Die Einschränkungen bleiben bestehen. Sie sind teurer (es werden mehr Token für den Denkprozess generiert). Sie sind langsamer. Sie sind in Bezug auf die Fakten nicht zuverlässiger (das logische Denken verbessert die Struktur der Antwort, nicht die Richtigkeit der verwendeten Fakten). Und sie können mit ebenso großer Sicherheit zu einer falschen Schlussfolgerung „argumentieren“ wie zu einer richtigen.

Es gilt nach wie vor: Testen Sie mit Ihren eigenen Daten, nicht mit den von den Herstellern veröffentlichten Benchmarks.

Was sich technisch ändert#

Was sich nicht ändert#

Der Fall DeepSeek-R1: Ein Riss im Mythos der Undurchsichtigkeit#

Was sich für Ihre Projekte ändert (und was nicht)#

Verwandte Artikel

Jenseits der LLMs: KI, die Sie bereits nutzen, ohne es zu wissen

Ein LLM ohne eine einzige Gleichung

KI wurde nicht 2022 geboren: von Algorithmen zum Machine Learning

Was sich technisch ändert

Was sich nicht ändert

Der Fall DeepSeek-R1: Ein Riss im Mythos der Undurchsichtigkeit

Was sich für Ihre Projekte ändert (und was nicht)