Perché fare self-hosting di un LLM
Quando chiami un'API AI hosted, ogni prompt che invii viene elaborato sull'hardware di qualcun altro. Il provider vede il testo completo dei tuoi input e output, di solito li conserva per un certo periodo e applica la propria politica sui contenuti a ciò che il modello può o non può dire. Per qualsiasi cosa sensibile — codice proprietario, documenti riservati, dati personali, o semplicemente lavoro che preferiresti non affidare a terzi — si tratta di un'esposizione significativa.
Il self-hosting di un LLM elimina l'intermediario. Noleggi un server GPU, carichi un modello open-weight e gestisci l'inferenza tu stesso. I prompt non lasciano mai l'infrastruttura che controlli, nulla viene conservato a meno che tu non lo scelga, e il modello è quello che hai scelto tu — inclusi i modelli open senza rifiuti integrati. Abbinato a un server GPU offshore no-KYC, il self-hosting ti offre un endpoint AI privato che nessuna azienda registra, limita per policy o può essere costretta a consegnare. Questa guida copre la scelta dell'hardware e del modello, come metterlo in funzione e i costi.

Abbina la GPU al modello
Il numero unico che decide tutto è la VRAM — la memoria della GPU. Un modello deve entrare nella VRAM per funzionare bene, e la quantità necessaria dipende dal numero di parametri e dalla precisione con cui viene caricato. Come riferimento approssimativo, un modello quantizzato a 4 bit richiede poco più di mezzo gigabyte di VRAM per miliardo di parametri; caricato a piena precisione 16 bit ne richiede circa il doppio, più margine per la finestra di contesto.
In pratica questo si traduce chiaramente nelle schede disponibili:
- RTX 4090 / RTX 5090 (24-32 GB VRAM) — gestisce comodamente modelli fino a circa 30B parametri quantizzati, e modelli più piccoli a piena precisione. Il punto ottimale per la maggior parte degli utenti self-hosting: veloce, conveniente e sufficiente per i migliori modelli open di media dimensione.
- H100 SXM5 (80 GB VRAM) — gestisce modelli della classe 70B quantizzati con ampio margine, supporta finestre di contesto grandi e serve molte richieste concorrenti ad alto throughput. La scelta per i modelli open più grandi o carichi di produzione.
- Multi-GPU (2x H100, 160 GB) — per i modelli open-weight più grandi e un serving concorrente intensivo.
Parti dal modello che vuoi eseguire, calcola il suo fabbisogno di VRAM e scegli la scheda più piccola che lo contenga con margine. Pagare per più VRAM di quella usata dal modello è budget sprecato.
Scegli il tuo modello
L'ecosistema open-weight nel 2026 è abbastanza maturo da essere, per la maggior parte dei compiti, genuinamente competitivo con un'API hosted. Le principali famiglie da conoscere:
- Modelli della famiglia Llama — modelli general-purpose ben supportati, disponibili in varie dimensioni; la scelta predefinita sicura per la maggior parte dei carichi di lavoro.
- DeepSeek — ottime prestazioni di ragionamento e programmazione, con dimensioni adatte a una singola scheda ad alta VRAM.
- Qwen e Mistral — eccellente capacità per parametro, con varianti più piccole che girano comodamente su una scheda da 24-32 GB.
- Varianti uncensored o abliterate — fine-tune della community dei modelli precedenti con il comportamento di rifiuto rimosso, per chi vuole un modello che non applichi la politica sui contenuti di un provider hosted.
Scegli il modello più piccolo che svolga genuinamente bene il tuo compito. Un modello da 14B-30B ben scelto su una singola 4090 o 5090 è sufficiente per la grande maggioranza degli usi reali — assistenza al coding, bozze, riassunti, analisi — ed è molto più economico da eseguire rispetto a ricorrere a un modello da 70B per abitudine.
Passo 1 — Provisioning del server GPU
Su ServPrivacy, scegli un piano GPU con la scheda che hai selezionato e la giurisdizione che preferisci, e paga in crypto. Il server viene provisioning automaticamente — CUDA e i driver NVIDIA sono preinstallati, quindi la macchina è pronta per il lavoro di inferenza dal momento in cui si avvia; non c'è alcuna installazione di driver con cui combattere.
Collegati via SSH. Un rapido nvidia-smi conferma che la GPU è visibile e mostra la sua VRAM libera. Da qui sei a pochi comandi da un modello in esecuzione.
Passo 2 — Metti in servizio un modello
Ci sono due percorsi consolidati, a seconda che tu voglia semplicità o throughput massimo.
Il percorso veloce: Ollama. Per avere un modello che risponde ai prompt in pochi minuti, Ollama è l'opzione più semplice. Installalo con il suo installer a riga singola, poi scarica ed esegui un modello con un solo comando — ad esempio ollama run llama3.1. Ollama gestisce il download, la quantizzazione e l'offload sulla GPU, ed espone un'API locale. Per uso personale e sviluppo è tutto ciò di cui la maggior parte delle persone ha bisogno.
Il percorso ad alto throughput: vLLM. Se hai bisogno di servire molte richieste concorrenti in modo efficiente — un backend applicativo piuttosto che un assistente personale — vLLM è la scelta standard. È un server di inferenza ad alte prestazioni che estrae molti più token al secondo dalla stessa GPU, ed espone un'API compatibile con OpenAI, quindi il codice esistente scritto per un'API hosted può essere reindirizzato al tuo server con un semplice cambio di URL.
In entrambi i casi, pochi minuti dopo l'avvio del server hai un modello che accetta prompt.
Passo 3 — Usalo privatamente e proteggi l'endpoint
Per impostazione predefinita il server di inferenza ascolta localmente. Hai due modi ragionevoli per raggiungerlo, e una regola.
La regola: non esporre l'API di inferenza grezza all'internet aperto. Senza configurazioni aggiuntive non ha autenticazione, e un endpoint aperto verrà trovato e abusato. Invece, o effettua un tunnel verso di esso via SSH — così l'API rimane legata a localhost e la raggiungi attraverso la connessione SSH cifrata — oppure mettila dietro un reverse proxy che imponga autenticazione e TLS. Per un assistente personale il tunnel SSH è l'opzione più semplice e privata; per un'applicazione, il proxy autenticato.
Fatto in questo modo, i prompt viaggiano solo tra te e il tuo server. Nulla viene registrato da terzi, nulla viene conservato oltre a quanto configuri tu, e il modello risponde senza una politica sui contenuti esterna nel percorso. È, nel senso letterale del termine, la tua AI.
Quanto costa
L'economia del self-hosting dipende interamente dal pattern di utilizzo. Un'API hosted addebita per token, il che è eccellente per un uso leggero e occasionale, ma costoso per un uso intenso e continuativo. Un server GPU in affitto ha un costo mensile fisso indipendentemente da quanti token ci fai passare.
Il punto di pareggio arriva rapidamente per chiunque gestisca carichi di lavoro reali. Un singolo server RTX 4090 parte da circa $122/mese su ServPrivacy; se il tuo utilizzo di un'API hosted è già in quel range mensile — e per assistenti al coding, elaborazione batch o qualsiasi backend applicativo spesso lo è — una GPU dedicata è sia più economica che senza limiti. Guadagni anche ciò che una fattura a token non può darti: nessun rate limit, nessun rifiuto per policy, costi prevedibili e privacy completa. Per domande occasionali un'API va bene; per qualsiasi uso regolare, il self-hosting vince sia su costo che su controllo.
Quando il self-hosting è la scelta giusta
Fare self-hosting di un LLM è la scelta giusta quando una di queste tre cose conta per te: privacy — i prompt contengono qualcosa che non metteresti sui server di terzi; controllo — vuoi un modello specifico, inclusi modelli open senza rifiuti hosted; o economia — il tuo utilizzo è abbastanza intenso da rendere un costo GPU fisso più conveniente di una fattura a token.
Se fai solo domande occasionali a un modello, un'API hosted è più semplice ed economica. Ma per un uso continuativo, materiale sensibile o la necessità di un modello che risponda alle tue condizioni, un server GPU con il tuo modello è la configurazione migliore — e su un host GPU offshore no-KYC, è un endpoint AI privato che non appartiene a nessuno tranne a te.