Il dibattito «open source contro proprietario» sull’IA viene spesso affrontato come una questione ideologica. Ma non è questo il punto. Si tratta di una questione strategica: cosa si controlla e cosa no?
Cominciamo col fare chiarezza sul vocabolario.
La confusione terminologica
Open source in senso stretto (Open Source Initiative): il codice, i dati di addestramento e i pesi sono pubblici e liberamente riutilizzabili, anche a fini commerciali. Quasi nessun grande modello di IA raggiunge oggi questo livello.
Open weights: i pesi del modello sono pubblicati, ma non necessariamente il codice di addestramento né i dati. È possibile scaricare il modello, eseguirlo, modificarlo ed eventualmente distribuirlo a fini commerciali (a seconda della licenza). È il caso di Llama 3, Mistral, Mixtral, DeepSeek e Qwen.
Proprietario: il modello gira sui server del fornitore, a cui si accede tramite API. Non si ha alcun controllo sui pesi, sull’inferenza né sulle versioni future. GPT-4o, Claude 3.5 e Gemini 1.5 Pro rientrano in questa categoria.
Cosa si controlla realmente con i pesi liberi
Con un modello open weights implementato localmente:
- Avete il controllo sulla versione (non subite aggiornamenti indesiderati)
- I tuoi dati non escono dalla tua infrastruttura
- Il costo marginale dell’inferenza è dato dai costi di infrastruttura, non da una tariffa per token
- Puoi effettuare una messa a punto sui tuoi dati proprietari
- Puoi verificare il comportamento del modello sui tuoi casi di test
Ciò che non potete controllare: la qualità del modello di base (dipendete da Meta, Mistral o da chiunque abbia pubblicato i pesi). Se Meta decidesse di non pubblicare più i pesi, potreste continuare a utilizzare la versione attuale, ma non avreste più accesso a quelle successive.
Cosa si controlla realmente con un’API proprietaria
In sostanza: l’interfaccia. Sei tu a scegliere quale prompt inviare e come gestire la risposta. Tutto il resto è sotto il controllo del fornitore.
Cosa significa in pratica:
- OpenAI ha deprecato GPT-3.5 alla fine del 2024, costringendo gli sviluppatori a migrare
- Il comportamento dei modelli cambia con gli aggiornamenti (un prompt che funzionava bene potrebbe non funzionare più)
- I prezzi possono variare (nel complesso sono diminuiti, ma non vi è alcuna garanzia che la tendenza si mantenga)
- Il fornitore può decidere di limitare determinati utilizzi (filtri di contenuto in evoluzione)
Il vero compromesso
Non è che «open source = bene, proprietario = male». È piuttosto:
Per un utilizzo critico, con dati sensibili e nel lungo periodo: le soluzioni open source on-premise offrono maggiore controllo e prevedibilità, a fronte di un impiego di risorse interne e di prestazioni leggermente inferiori nelle attività generiche.
Per la prototipazione rapida, dati non sensibili e risorse tecniche limitate: un’API proprietaria è più accessibile, più veloce da implementare e spesso più efficiente nelle attività generiche.
La strategia ibrida (la più diffusa nella pratica): API proprietaria per gli utilizzi non sensibili e lo sviluppo, OpenWeights on-premise per gli utilizzi sensibili o ad alto volume.
DeepSeek e la competizione globale
Nel dicembre 2024, DeepSeek ha pubblicato V3, un modello cinese open weights che raggiunge prestazioni paragonabili a quelle di GPT-4o in diversi benchmark, con un costo di addestramento dichiarato di 6 milioni di dollari, ovvero da 10 a 30 volte inferiore rispetto a un modello statunitense di livello equivalente.
Questo articolo dimostra che la concorrenza sui modelli di fondazione è globale. Le pretese di leadership tecnologica duratura avanzate dagli attori statunitensi sono fragili. Inoltre, l’ecosistema open source può evolversi rapidamente, ampliando così le alternative disponibili.
Il rovescio della medaglia: le questioni relative alla fiducia e alla governance in un modello di società cinese sono legittime in determinati contesti (difesa, istituzioni pubbliche, dati sensibili). Questo non è un motivo per scartarlo in ogni contesto, ma è un fattore da valutare in modo esplicito.