Dal 2024 questa parola è ovunque nelle pubblicità: i nuovi modelli «ragionano». OpenAI chiama la sua linea o1, o3. Anthropic parla di «extended thinking». Google ha la sua modalità Gemini Thinking. DeepSeek ha lanciato R1. L’idea promossa: modelli che riflettono prima di rispondere.

Le prestazioni misurabili migliorano davvero in alcune attività. Questa è la parte onesta della questione. Il resto merita di essere approfondito.

Cosa cambia dal punto di vista tecnico

La tecnica alla base di tutto ciò si chiama «chain-of-thought» (catena di pensiero). È stata descritta in un articolo di Google Brain nel 2022: invece di chiedere direttamente la risposta, si chiede al modello di descrivere i passaggi intermedi. Le prestazioni nei compiti di ragionamento matematico e logico aumentano in modo significativo.

Fornire esempi di ragionamento passo dopo passo nel prompt migliora le prestazioni sui benchmark di ragionamento matematico e di buon senso in modo spettacolare, per i modelli a partire da una certa dimensione.

Chain-of-Thought Prompting, Wei et al. (2022)

Ecco cosa fanno o1, R1 e i loro equivalenti: interiorizzano questa catena di pensiero. Invece di doverla specificare nel prompt, il modello la genera automaticamente sotto forma di token intermedi (spesso nascosti all’utente) prima di arrivare alla risposta finale. I token di ‘riflessione’ definiscono meglio il contesto e consentono di arrivare a una risposta finale più precisa.

Il miglioramento è evidente. Su problemi matematici formali, problemi di programmazione e rompicapi logici strutturati, questi modelli ottengono risultati migliori rispetto ai loro predecessori. Lo dimostrano i benchmark MATH, AIME e altri.

Ciò che non cambia

Il modello genera sempre token, uno dopo l’altro, sulla base delle probabilità. Il filo logico è una sequenza di token previsti, non la traccia di un processo cognitivo. Il modello non ha una rappresentazione interna del problema. Non ha ipotesi che verifica e scarta. Genera testo che sembra un ragionamento perché è stato addestrato su tracce di ragionamento umano.

Questa distinzione è importante nei contesti in cui è richiesta la robustezza fuori dalla distribuzione. I modelli di ragionamento eccellono nei tipi di problemi ben rappresentati nei loro dati di addestramento. Su problemi strutturalmente diversi, le prestazioni calano drasticamente. Un vero sistema di ragionamento formale (un dimostratore di teoremi, ad esempio) non presenta questo comportamento: dimostra o fallisce, senza produrre una dimostrazione errata.

Il caso DeepSeek-R1: una crepa nel mito dell’opacità

Nel gennaio 2025, DeepSeek ha pubblicato R1, un modello di ragionamento a pesi aperti che raggiunge prestazioni paragonabili a quelle di o1 di OpenAI su diversi benchmark, a una frazione del costo di addestramento dichiarato.

DeepSeek-R1 raggiunge prestazioni paragonabili a quelle di OpenAI-o1 nei benchmark di ragionamento matematico e di codice, utilizzando tecniche di rinforzo puro (senza supervisione umana intensiva) durante la fase di riflessione.

DeepSeek-R1 Technical Report (2025)

Questo momento è significativo sotto due aspetti. Innanzitutto, dimostra che le tecniche di ragionamento non sono appannaggio esclusivo degli attori che dispongono di budget miliardari. In secondo luogo, dimostra che la concorrenza è globale e che le affermazioni relative a un vantaggio tecnologico duraturo sono fragili.

Cosa cambia (e cosa non cambia) per i vostri progetti

Se state valutando dei modelli per compiti di analisi o di risoluzione dei problemi, vale la pena provare i modelli di ragionamento. Nei compiti strutturati (estrazione con logica condizionale, convalida delle regole, generazione di codice con test), spesso ottengono risultati migliori rispetto ai modelli standard.

I limiti permangono. Sono più costosi (richiedono più token per la catena di pensiero). Sono più lenti. Non sono più affidabili dal punto di vista dei fatti (il ragionamento migliora la struttura della risposta, non la veridicità dei fatti utilizzati). E possono «ragionare» fino a una conclusione falsa con la stessa sicurezza di una vera.

La regola rimane la stessa: effettuate i test sui vostri dati, non sui benchmark pubblicati dai produttori.