Eseguire l'IA nella propria infrastruttura: on-premise, OSS, GPU e APU

La domanda ricorre spesso nelle discussioni con i responsabili tecnici: è possibile far funzionare un modello di IA efficiente in locale, senza inviare dati a OpenAI o Anthropic?

La risposta breve: sì, ed è più accessibile di quanto si pensi. La risposta lunga: dipende dalle dimensioni del modello, dalle prestazioni richieste e dal budget a disposizione per l’hardware.

Che cos’è un’implementazione on-premise

“On-premise” significa che il modello viene eseguito sulla vostra infrastruttura, non sui server di terzi. I vostri dati non escono dal vostro perimetro. Siete voi a gestire le versioni. Non ci sono costi marginali per ogni richiesta (solo il costo dell’infrastruttura).

Ciò non significa necessariamente prestazioni inferiori. Nel 2025, i migliori modelli open source (Llama 3 70B, Qwen 2.5 72B, Mistral Large 2) raggiungono prestazioni paragonabili a quelle dei modelli proprietari in molti compiti specializzati. Il divario rimane evidente nelle attività molto generiche e nei compiti complessi di ragionamento, ma si è notevolmente ridotto.

Le APU: la sorpresa alla portata di tutti

La rivoluzione silenziosa degli ultimi due anni riguarda le APU, processori che integrano CPU e GPU sullo stesso die, con una memoria condivisa ad alta larghezza di banda.

L’Apple M4 Max (disponibile alla fine del 2024) dispone di 128 GB di memoria unificata con una larghezza di banda di 500 GB/s. Un modello Llama 3 70B quantizzato in Q4 (che occupa circa 40 GB) funziona su questa macchina a una velocità di 15-20 token al secondo. È sufficiente per un uso interattivo, ben al di sotto della velocità di un’API cloud ma entro i limiti di un’interfaccia di chat.

Un Mac Studio M4 Ultra con 192 GB costa circa 4.000-5.000 euro. È in grado di eseguire un modello da 70 miliardi di parametri in locale, senza una GPU separata, con un consumo energetico di 80-100 W. Per una PMI o una società di consulenza che tratta dati sensibili ed effettua 50-200 richieste al giorno, il calcolo economico può reggere rispetto ai costi delle API su un periodo di 2-3 anni.

Le GPU: la strada tradizionale per i grandi volumi

Per volumi più consistenti o modelli più grandi, la GPU rimane il punto di riferimento.

Un server con 2 GPU NVIDIA RTX 4090 (24 GB di VRAM ciascuna, circa 1.500 euro l’una (prezzo 2026)) è in grado di eseguire un modello da 7-13 miliardi di parametri a una velocità soddisfacente. Per un modello da 70 miliardi di parametri, sono necessarie da 4 a 8 GPU o GPU professionali (H100: oltre 30.000 euro, A100: oltre 15.000 euro).

Anche l’infrastruttura di supporto comporta dei costi: server adeguato, sistema di raffreddamento, gruppo di continuità, gestione del sistema. Si calcoli una spesa pari al 30-50% del costo della GPU per l’infrastruttura associata.

Gli strumenti che lo rendono accessibile

Nel 2023, per eseguire un LLM in locale erano necessarie competenze specialistiche. Nel 2025, alcuni strumenti hanno semplificato radicalmente l’esperienza:

Ollama: installazione di un LLM locale con un solo comando (ollama run llama3.2). Interfaccia compatibile con l’API di OpenAI, quindi le vostre applicazioni possono collegarsi alla vostra istanza locale.

llama.cpp: motore di inferenza ottimizzato per CPU e GPU, alla base di numerosi strumenti. Supporta la quantizzazione ed è compatibile con Windows, Linux e macOS.

Open WebUI: interfaccia web locale compatibile con Ollama. Una riproduzione fedele dell’esperienza ChatGPT, ma sulla tua infrastruttura.

LM Studio: strumento desktop (Windows/Mac) per scaricare ed eseguire modelli in locale, dotato di interfaccia grafica.

Cosa non risolve

L’implementazione on-premise risolve il problema della riservatezza dei dati. Non risolve però il problema della qualità delle risposte su compiti complessi (i modelli di front-end proprietari rimangono superiori), né quello dell’aggiornamento dei modelli (siete voi a gestire il ciclo di vita), né quello della sicurezza dell’infrastruttura (siete voi a dover garantire la sicurezza del vostro server).

È un compromesso. La sovranità ha un costo in termini di risorse interne. La scelta deve essere consapevole, non per default.

Che cos’è un’implementazione on-premise#

Le APU: la sorpresa alla portata di tutti#

Le GPU: la strada tradizionale per i grandi volumi#

Gli strumenti che lo rendono accessibile#

Cosa non risolve#

Sullo stesso tema

Open source vs. proprietario: controllo, dipendenza e il vero compromesso

Che cos’è un’implementazione on-premise

Le APU: la sorpresa alla portata di tutti

Le GPU: la strada tradizionale per i grandi volumi

Gli strumenti che lo rendono accessibile

Cosa non risolve