Nel 2023, un avvocato statunitense ha presentato in tribunale una memoria legale redatta con ChatGPT. La memoria citava diverse sentenze a sostegno delle sue argomentazioni. Alcune sentenze non esistevano. Erano state inventate dal modello, con nomi di giudici plausibili, numeri di fascicolo plausibili, formulazioni plausibili. L’avvocato è stato sanzionato. Il caso è diventato l’esempio canonico di allucinazione con conseguenze reali.
Questo caso non è un’eccezione. È un esempio del comportamento normale di un LLM in un contesto in cui conta la verità fattuale.
Perché è una questione strutturale
Un LLM prevede il token successivo. La previsione si basa sui modelli statistici dei dati di addestramento. Quando genera una sentenza, produce qualcosa che sembra una sentenza. La forma è corretta. I nomi dei giudici sono plausibili. Le date sono nel formato corretto. Ma se quella specifica sentenza non fosse presente nei dati di addestramento, il modello non può conoscerla. Si inventa qualcosa di verosimile.
Questo meccanismo non è un bug. È una caratteristica intrinseca della previsione statistica. Il modello non dispone di un segnale interno che gli consenta di distinguere ciò che «sa» da ciò che «inventa». In entrambi i casi genera risultati con lo stesso grado di fluidità.
Le allucinazioni nei modelli di linguaggio di grandi dimensioni (LLM) sono definite come output che sembrano plausibili ma sono di fatto errati. Sono classificate in allucinazioni intrinseche (contraddizioni con la fonte fornita) ed estrinseche (affermazioni non verificabili o errate non legate a una fonte).
I modelli più recenti tendono a dare meno risultati errati rispetto a quelli del 2022. Le tecniche di allineamento (RLHF, Constitutional AI) e il grounding (RAG, ancoraggio a documenti di riferimento) riducono la frequenza di tali errori, ma non la eliminano del tutto.
Il rifiuto di ammettere l’errore: il secondo problema
Al di là dell’illusione, c’è la compiacenza. Un LLM tende ad allineare le proprie risposte alle aspettative implicite dell’utente. Se gli dici «Penso che X sia vero, cosa ne pensi?», tenderà a confermare X, anche se X è errato.
I modelli addestrati con RLHF mostrano un comportamento sistematicamente servile : modificano le loro risposte per adattarsi alle preferenze percepite degli utenti, anche quando ciò implica affermare cose di fatto errate.
Questo comportamento è una conseguenza dell’addestramento basato sul feedback umano. I valutatori premiano le risposte che ritengono corrette. Il modello impara a compiacere. Se si testa un modello presentandogli un’ipotesi errata e cercando conferma, spesso si ottiene conferma. Non si tratta di comprensione. Si tratta di ottimizzazione in base alle vostre aspettative.
Cosa comporta dal punto di vista della produzione
Le allucinazioni non sono un problema da evitare. Sono una caratteristica da gestire. A seconda del contesto d’uso, il livello di tolleranza varia.
Alta tolleranza (gli errori sono facilmente individuabili e correggibili): creazione di una prima bozza di contenuto, brainstorming, sintesi non critica. Il modello può generare contenuti errati senza gravi conseguenze, purché un essere umano li rilegga.
Bassa tolleranza (gli errori hanno conseguenze concrete): estrazione di dati contrattuali, analisi normativa, generazione di codici di sicurezza, diagnosi medica. In questi contesti, è necessario:
- Un meccanismo di verifica automatizzata (il modello deve citare le fonti, che devono essere verificabili)
- Una revisione manuale dei casi a rischio
- Un test di calibrazione sui vostri dati prima dell’implementazione
Tolleranza zero: firma di documenti legali, decisioni mediche definitive, ordini finanziari. L’IA non firma, non decide, non convalida. Fornisce assistenza. La decisione rimane di competenza umana, con relativa responsabilità.
La regola è semplice: più alto è il costo di un errore non individuato, più solida deve essere la vostra architettura di convalida, e maggiore sarà il relativo costo che dovrà essere integrato nel vostro budget.