Nel novembre 2022, OpenAI lancia ChatGPT. In cinque giorni, un milione di utenti. In due mesi, cento milioni. La stampa generalista scopre l’IA come se fosse appena nata. Eppure aveva già 70 anni.
Comprendere questa genealogia non è un esercizio di storia per puristi. È l’unico modo per capire perché un modello di IA abbia bisogno di enormi quantità di dati per «imparare», perché non si tratti di magia ma di un lavoro di fondo massiccio, e perché le prestazioni attuali non siano affatto casuali.
Prima dell’IA: l’algoritmo, il vero pilastro
Prima di parlare di machine learning o di deep learning, è necessario menzionare ciò su cui si basa ancora il 90% dell’informatica: l’algoritmo deterministico.
Un algoritmo è una sequenza finita di istruzioni. Si inserisce un dato in ingresso, l’algoritmo segue le regole e produce un risultato in uscita. Sempre lo stesso, per lo stesso dato in ingresso. È prevedibile, verificabile, spiegabile. Ordinare un elenco, calcolare un percorso, convalidare un IBAN: sono tutti algoritmi.
L’IA non ha sostituito l’algoritmo. Coesiste con esso. E in molti casi (ne parleremo in un articolo dedicato), un semplice algoritmo svolge il lavoro meglio, a un costo inferiore e in modo più comprensibile rispetto a un modello di IA. Ma continuiamo con la genealogia.
1943-1980: i primi passi, le prime delusioni
Nel 1943, McCulloch e Pitts pubblicarono il primo modello matematico di un neurone artificiale. Nel 1950, Alan Turing pose la domanda fondamentale: «Le macchine possono pensare?» e propose il test che porta il suo nome.
Nel 1956, John McCarthy coniò il termine «intelligenza artificiale» in occasione della conferenza di Dartmouth. L’ottimismo era alle stelle. McCarthy predisse che entro una generazione sarebbe stata costruita una macchina in grado di eguagliare l’intelligenza umana. Ciò non accadrà.
Gli anni ‘60-‘70 vedono il primo “inverno dell’IA”: le promesse superano le capacità, i finanziamenti si esauriscono. Segue poi un secondo inverno negli anni ‘80-‘90. La storia dell’IA è quella di una curva di hype che si ripete, ben prima che Gartner la formalizzasse.
1986-2012: il machine learning esce dai laboratori
La svolta è arrivata con la retropropagazione del gradiente, formalizzata da Rumelhart, Hinton e Williams nel 1986. Il principio: regolare i pesi di una rete neurale misurando l’errore sugli esempi, strato per strato, a ritroso. È la tecnica di addestramento che viene ancora oggi utilizzata in tutti i modelli moderni.
Ma il machine learning degli anni ‘90-2000 rimane limitato da due fattori: i dati e la potenza di calcolo. I set di dati sono di piccole dimensioni. I computer sono troppo lenti per addestrare reti profonde.
Cosa cambia a partire dagli anni 2000: Internet genera dati su una scala senza precedenti. E le GPU, inizialmente progettate per i videogiochi, si rivelano perfettamente adatte ai calcoli matriciali del machine learning. Due condizioni per il decollo.
2012: l’era di AlexNet
Nel settembre 2012, una rete neurale profonda chiamata AlexNet ha vinto la sfida ImageNet con un margine spettacolare. Ha classificato le immagini con un tasso di errore del 15,3%, contro il 26,1% del secondo classificato. Per la prima volta, una rete neurale profonda ha superato di gran lunga tutti gli altri approcci in un compito reale su larga scala.
AlexNet utilizza due GPU NVIDIA GTX 580 con 3 GB di memoria per addestrare una rete di 60 milioni di parametri su 1,2 milioni di immagini. La durata dell’addestramento: da cinque a sei giorni.
Questo momento viene spesso indicato come l’inizio del deep learning moderno. Esso stabilisce un principio fondamentale: maggiore è la quantità di dati e la potenza di calcolo, migliori sono le prestazioni. Questo principio costituirà la base di tutto ciò che seguirà, fino agli attuali modelli di linguaggio di grandi dimensioni (LLM).
2017: Transformer, il tassello che mancava
Nel 2017, alcuni ricercatori di Google hanno pubblicato ‘Attention Is All You Need’. Hanno proposto una nuova architettura: il Transformer. Invece di elaborare il testo in modo sequenziale (parola per parola), elabora l’intera sequenza in parallelo, con un meccanismo di attenzione che pondera la relazione tra ogni token e tutti gli altri.
Due vantaggi decisivi: è molto più veloce da addestrare sulla GPU e rileva meglio le dipendenze a lunga distanza nel testo. È l’architettura alla base di tutti i principali modelli linguistici attuali: GPT, Claude, Llama, Mistral.
Perché un modello ha bisogno di una base per imparare
Ecco il punto che il discorso dominante tralascia sistematicamente.
Un modello non impara nel vuoto. Impara sulla base dei dati. Tantissimi dati. Gli attuali modelli linguistici di grandi dimensioni sono stati addestrati su centinaia di miliardi di token: libri, articoli, codice, pagine web. Questa fase di addestramento richiede milioni di ore di GPU e decine, a volte centinaia di milioni di dollari.
Il modello codifica nei propri parametri i modelli statistici di questi dati. Sa coniugare perché ha visto milioni di esempi di coniugazione corretta. Sa riassumere perché ha visto milioni di coppie testo/riassunto. Sa programmare perché GitHub ha fornito una parte enorme dei dati di addestramento.
Ciò che comunemente viene definito «intelligenza» o «capacità di apprendimento» è in realtà la capacità di generalizzare, partendo dai dati di addestramento, verso nuove situazioni simili. È utile. Ma è fondamentalmente diverso da un apprendimento continuo e adattivo come quello umano.
2022: perché ChatGPT ha cambiato la percezione, non la tecnologia
ChatGPT non rappresenta una rivoluzione tecnologica. GPT-3, il modello sottostante, esisteva già dal 2020. Ciò che cambia nel 2022 è l’interfaccia: una conversazione naturale, accessibile a tutti, senza dover scrivere codice o documentazione. E una strategia di lancio rivolta al grande pubblico.
L’effetto è enorme: per la prima volta, centinaia di milioni di persone interagiscono direttamente con un modello di linguaggio di grandi dimensioni (LLM). La percezione sta cambiando radicalmente. L’intelligenza artificiale non è più appannaggio esclusivo dei data scientist e dei ricercatori. È alla portata di tutti.
Ma dal punto di vista tecnico, ciò che ChatGPT fa nel novembre 2022, GPT-3 lo faceva già nel 2020, anche se con meno raffinatezza. Si tratta di una svolta a livello di distribuzione e di interfaccia, non di un cambiamento di paradigma tecnico.
Cosa cambia sapere questo
Comprendere la genealogia comporta tre cambiamenti concreti:
-
Le prestazioni attuali hanno un costo. Non è una cosa che si tira fuori dal cilindro. Miliardi di parametri, miliardi di token, mesi di calcoli. Questo costo si riflette sui prezzi delle vostre API e sulla vostra impronta di carbonio.
-
I limiti sono di natura strutturale. Le allucinazioni, la discontinuità temporale, la dipendenza dai dati di addestramento: non si tratta di difetti di gioventù. Sono caratteristiche dell’architettura attuale.
-
Il prossimo ciclo di hype è già in atto. La storia dell’IA è ciclica. Le basi attuali sono solide, ma le promesse superano regolarmente i risultati concreti. Questo non è un motivo per non investire. È un motivo per non comprare al culmine dell’hype.