Seit 2024 taucht das Wort überall in den Anzeigen auf: Die neuen Modelle „denken nach“. OpenAI nennt seine Modellreihe o1, o3. Anthropic spricht von „extended thinking“. Google hat seinen Gemini-Thinking-Modus. DeepSeek hat R1 veröffentlicht. Das Verkaufsargument: Modelle, die nachdenken, bevor sie antworten.
Bei bestimmten Aufgaben verbessert sich die messbare Leistung tatsächlich. Das ist der ehrliche Teil der Aussage. Der Rest verdient es, offengelegt zu werden.
Was sich technisch ändert
Die zugrunde liegende Technik wird als „Chain-of-Thought“ (Gedankenkette) bezeichnet. Sie wurde 2022 in einem Artikel von Google Brain beschrieben: Anstatt direkt nach der Antwort zu fragen, wird das Modell aufgefordert, die Zwischenschritte zu beschreiben. Die Leistung bei Aufgaben des mathematischen und logischen Denkens steigt deutlich an.
Das Einfügen von Beispielen für schrittweises Denken in die Eingabeaufforderung verbessert die Leistung bei Benchmarks für mathematisches Denken und gesunden Menschenverstand spektakulär, und zwar bei Modellen ab einer bestimmten Größe.
Was o1, R1 und ihre Entsprechungen tun: Sie verinnerlichen diesen Gedankengang. Anstatt dass Sie ihn in Ihrer Eingabeaufforderung anfordern, generiert das Modell ihn automatisch als Zwischentoken (die dem Benutzer oft verborgen bleiben), bevor es zur endgültigen Antwort gelangt. Die „Reflexions“-Token sorgen für einen besseren Kontext und ermöglichen eine präzisere endgültige Antwort.
Die Verbesserung ist tatsächlich spürbar. Bei formalen mathematischen Problemen, Programmieraufgaben und strukturierten Logikrätseln schneiden diese Modelle besser ab als ihre Vorgänger. Das belegen die Benchmarks MATH, AIME und andere.
Was sich nicht ändert
Das Modell generiert stets nacheinander Token auf der Grundlage von Wahrscheinlichkeiten. Der Gedankengang ist eine Abfolge von vorhergesagten Token, nicht die Spur eines kognitiven Prozesses. Das Modell verfügt über keine interne Darstellung des Problems. Es hat keine Hypothesen, die es testet und verwirft. Es generiert Text, der wie eine Argumentation aussieht, weil es auf Spuren menschlicher Argumentation trainiert wurde.
Diese Unterscheidung ist in Kontexten von Bedeutung, in denen Robustheit außerhalb der Verteilung erforderlich ist. Schlussfolgerungsmodelle erzielen hervorragende Ergebnisse bei Problemtypen, die in ihren Trainingsdaten gut vertreten sind. Bei strukturell unterschiedlichen Problemen lässt die Leistung nach. Ein echtes formales Schlussfolgerungssystem (zum Beispiel ein Theorembeweiser) zeigt dieses Verhalten nicht: Es beweist oder es scheitert, ohne eine falsche Beweisführung zu generieren.
Der Fall DeepSeek-R1: Ein Riss im Mythos der Undurchsichtigkeit
Im Januar 2025 veröffentlicht DeepSeek R1, ein Open-Weights-Modell für logisches Schlussfolgern, das bei mehreren Benchmarks eine mit OpenAI’s o1 vergleichbare Leistung erzielt – und das zu einem Bruchteil der angegebenen Trainingskosten.
DeepSeek-R1 erreicht bei Benchmarks für mathematisches Denken und Programmierung eine mit OpenAI-o1 vergleichbare Leistung, wobei während der Reflexionsphase reine verstärkende Techniken (ohne intensive menschliche Überwachung) zum Einsatz kommen.
Dieser Moment ist in zweierlei Hinsicht aufschlussreich. Zum einen zeigt er, dass Argumentationstechniken nicht nur den Akteuren vorbehalten sind, die über Milliardenbudgets verfügen. Zum anderen verdeutlicht er, dass der Wettbewerb global ist und dass Behauptungen über einen dauerhaften technologischen Vorsprung auf tönernen Füßen stehen.
Was sich für Ihre Projekte ändert (und was nicht)
Wenn Sie Modelle für Analyse- oder Problemlösungsaufgaben evaluieren, sollten Sie die Schlussfolgerungsmodelle unbedingt testen. Bei strukturierten Aufgaben (Extraktion mit bedingter Logik, Regelvalidierung, Codegenerierung mit Tests) schneiden sie oft besser ab als Standardmodelle.
Die Einschränkungen bleiben bestehen. Sie sind teurer (es werden mehr Token für den Denkprozess generiert). Sie sind langsamer. Sie sind in Bezug auf die Fakten nicht zuverlässiger (das logische Denken verbessert die Struktur der Antwort, nicht die Richtigkeit der verwendeten Fakten). Und sie können mit ebenso großer Sicherheit zu einer falschen Schlussfolgerung „argumentieren“ wie zu einer richtigen.
Es gilt nach wie vor: Testen Sie mit Ihren eigenen Daten, nicht mit den von den Herstellern veröffentlichten Benchmarks.