[Home](https://servprivacy.com/it) /
[Guide di Hosting Privato](https://servprivacy.com/it/guides) /
Come fare self-hosting di un LLM su un server GPU — Guida 2026






Operaciones


# Come fare self-hosting di un LLM su un server GPU



Una guida pratica per eseguire un LLM sul proprio server GPU — perché supera un'API hosted in termini di privacy e controllo, come dimensionare la GPU al modello, il modo più rapido per mettere in servizio un modello, e i costi effettivi.


[Leer la guida](#guide-body)
[FAQ](#guide-faq)






#### En questa pagina




- [Guida](#guide-body)

- [FAQ](#guide-faq)

- [Guide relacionullas](#guide-related)

- [Paginas consigliate](#guide-cta)






Senza KYC
Solo crypto
Nessun log
DMCA ignorato
Root completo
NVMe SSD





8 min di lettura
Aggiornato May 2026

En questa pagina

[01Perché fare self-hosting di un LLM](#perché-fare-self-hosting-di-un-llm)
[02Abbina la GPU al modello](#abbina-la-gpu-al-modello)
[03Scegli il tuo modello](#scegli-il-tuo-modello)
[04Passo 1 — Provisioning del server GPU](#passo-1-provisioning-del-server-gpu)
[05Passo 2 — Metti in servizio un modello](#passo-2-metti-in-servizio-un-modello)
[06Passo 3 — Usalo privatamente e proteggi l'endpoint](#passo-3-usalo-privatamente-e-proteggi-lendpoint)
[07Quanto costa](#quanto-costa)
[08Quando il self-hosting è la scelta giusta](#quando-il-self-hosting-è-la-scelta-giusta)
[FAQDomande frequenti](#guide-faq)
[→Paginas consigliate](#guide-cta)







## Perché fare self-hosting di un LLM

Quando chiami un'API AI hosted, ogni prompt che invii viene elaborato sull'hardware di qualcun altro. Il provider vede il testo completo dei tuoi input e output, di solito li conserva per un certo periodo e applica la propria politica sui contenuti a ciò che il modello può o non può dire. Per qualsiasi cosa sensibile — codice proprietario, documenti riservati, dati personali, o semplicemente lavoro che preferiresti non affidare a terzi — si tratta di un'esposizione significativa.

Il self-hosting di un LLM elimina l'intermediario. Noleggi un server GPU, carichi un modello open-weight e gestisci l'inferenza tu stesso. I prompt non lasciano mai l'infrastruttura che controlli, nulla viene conservato a meno che tu non lo scelga, e il modello è quello che hai scelto tu — inclusi i modelli open senza rifiuti integrati. Abbinato a un server GPU offshore no-KYC, il self-hosting ti offre un endpoint AI privato che nessuna azienda registra, limita per policy o può essere costretta a consegnare. Questa guida copre la scelta dell'hardware e del modello, come metterlo in funzione e i costi.

La VRAM decide tutto: scegli la GPU più piccola in cui il modello entra con margine — pagare per VRAM inutilizzata è budget sprecato.

## Abbina la GPU al modello

Il numero unico che decide tutto è la VRAM — la memoria della GPU. Un modello deve entrare nella VRAM per funzionare bene, e la quantità necessaria dipende dal numero di parametri e dalla precisione con cui viene caricato. Come riferimento approssimativo, un modello quantizzato a 4 bit richiede poco più di mezzo gigabyte di VRAM per miliardo di parametri; caricato a piena precisione 16 bit ne richiede circa il doppio, più margine per la finestra di contesto.

In pratica questo si traduce chiaramente nelle schede disponibili:

- **RTX 4090 / RTX 5090 (24-32 GB VRAM)** — gestisce comodamente modelli fino a circa 30B parametri quantizzati, e modelli più piccoli a piena precisione. Il punto ottimale per la maggior parte degli utenti self-hosting: veloce, conveniente e sufficiente per i migliori modelli open di media dimensione.

- **H100 SXM5 (80 GB VRAM)** — gestisce modelli della classe 70B quantizzati con ampio margine, supporta finestre di contesto grandi e serve molte richieste concorrenti ad alto throughput. La scelta per i modelli open più grandi o carichi di produzione.

- **Multi-GPU (2x H100, 160 GB)** — per i modelli open-weight più grandi e un serving concorrente intensivo.

Parti dal modello che vuoi eseguire, calcola il suo fabbisogno di VRAM e scegli la scheda più piccola che lo contenga con margine. Pagare per più VRAM di quella usata dal modello è budget sprecato.

## Scegli il tuo modello

L'ecosistema open-weight nel 2026 è abbastanza maturo da essere, per la maggior parte dei compiti, genuinamente competitivo con un'API hosted. Le principali famiglie da conoscere:

- **Modelli della famiglia Llama** — modelli general-purpose ben supportati, disponibili in varie dimensioni; la scelta predefinita sicura per la maggior parte dei carichi di lavoro.

- **DeepSeek** — ottime prestazioni di ragionamento e programmazione, con dimensioni adatte a una singola scheda ad alta VRAM.

- **Qwen e Mistral** — eccellente capacità per parametro, con varianti più piccole che girano comodamente su una scheda da 24-32 GB.

- **Varianti uncensored o abliterate** — fine-tune della community dei modelli precedenti con il comportamento di rifiuto rimosso, per chi vuole un modello che non applichi la politica sui contenuti di un provider hosted.

Scegli il modello più piccolo che svolga genuinamente bene il tuo compito. Un modello da 14B-30B ben scelto su una singola 4090 o 5090 è sufficiente per la grande maggioranza degli usi reali — assistenza al coding, bozze, riassunti, analisi — ed è molto più economico da eseguire rispetto a ricorrere a un modello da 70B per abitudine.

## Passo 1 — Provisioning del server GPU

Su ServPrivacy, scegli un piano GPU con la scheda che hai selezionato e la giurisdizione che preferisci, e paga in crypto. Il server viene provisioning automaticamente — CUDA e i driver NVIDIA sono preinstallati, quindi la macchina è pronta per il lavoro di inferenza dal momento in cui si avvia; non c'è alcuna installazione di driver con cui combattere.

Collegati via SSH. Un rapido nvidia-smi conferma che la GPU è visibile e mostra la sua VRAM libera. Da qui sei a pochi comandi da un modello in esecuzione.

## Passo 2 — Metti in servizio un modello

Ci sono due percorsi consolidati, a seconda che tu voglia semplicità o throughput massimo.

**Il percorso veloce: Ollama.** Per avere un modello che risponde ai prompt in pochi minuti, Ollama è l'opzione più semplice. Installalo con il suo installer a riga singola, poi scarica ed esegui un modello con un solo comando — ad esempio ollama run llama3.1. Ollama gestisce il download, la quantizzazione e l'offload sulla GPU, ed espone un'API locale. Per uso personale e sviluppo è tutto ciò di cui la maggior parte delle persone ha bisogno.

**Il percorso ad alto throughput: vLLM.** Se hai bisogno di servire molte richieste concorrenti in modo efficiente — un backend applicativo piuttosto che un assistente personale — vLLM è la scelta standard. È un server di inferenza ad alte prestazioni che estrae molti più token al secondo dalla stessa GPU, ed espone un'API compatibile con OpenAI, quindi il codice esistente scritto per un'API hosted può essere reindirizzato al tuo server con un semplice cambio di URL.

In entrambi i casi, pochi minuti dopo l'avvio del server hai un modello che accetta prompt.

## Passo 3 — Usalo privatamente e proteggi l'endpoint

Per impostazione predefinita il server di inferenza ascolta localmente. Hai due modi ragionevoli per raggiungerlo, e una regola.

La regola: non esporre l'API di inferenza grezza all'internet aperto. Senza configurazioni aggiuntive non ha autenticazione, e un endpoint aperto verrà trovato e abusato. Invece, o effettua un tunnel verso di esso via SSH — così l'API rimane legata a localhost e la raggiungi attraverso la connessione SSH cifrata — oppure mettila dietro un reverse proxy che imponga autenticazione e TLS. Per un assistente personale il tunnel SSH è l'opzione più semplice e privata; per un'applicazione, il proxy autenticato.

Fatto in questo modo, i prompt viaggiano solo tra te e il tuo server. Nulla viene registrato da terzi, nulla viene conservato oltre a quanto configuri tu, e il modello risponde senza una politica sui contenuti esterna nel percorso. È, nel senso letterale del termine, la tua AI.

## Quanto costa

L'economia del self-hosting dipende interamente dal pattern di utilizzo. Un'API hosted addebita per token, il che è eccellente per un uso leggero e occasionale, ma costoso per un uso intenso e continuativo. Un server GPU in affitto ha un costo mensile fisso indipendentemente da quanti token ci fai passare.

Il punto di pareggio arriva rapidamente per chiunque gestisca carichi di lavoro reali. Un singolo server RTX 4090 parte da circa $122/mese su ServPrivacy; se il tuo utilizzo di un'API hosted è già in quel range mensile — e per assistenti al coding, elaborazione batch o qualsiasi backend applicativo spesso lo è — una GPU dedicata è sia più economica che senza limiti. Guadagni anche ciò che una fattura a token non può darti: nessun rate limit, nessun rifiuto per policy, costi prevedibili e privacy completa. Per domande occasionali un'API va bene; per qualsiasi uso regolare, il self-hosting vince sia su costo che su controllo.

## Quando il self-hosting è la scelta giusta

Fare self-hosting di un LLM è la scelta giusta quando una di queste tre cose conta per te: privacy — i prompt contengono qualcosa che non metteresti sui server di terzi; controllo — vuoi un modello specifico, inclusi modelli open senza rifiuti hosted; o economia — il tuo utilizzo è abbastanza intenso da rendere un costo GPU fisso più conveniente di una fattura a token.

Se fai solo domande occasionali a un modello, un'API hosted è più semplice ed economica. Ma per un uso continuativo, materiale sensibile o la necessità di un modello che risponda alle tue condizioni, un server GPU con il tuo modello è la configurazione migliore — e su un host GPU offshore no-KYC, è un endpoint AI privato che non appartiene a nessuno tranne a te.




FAQ

## Self-hosting di un LLM — domande frequenti





### 01
Perché fare self-hosting di un LLM invece di usare un'API?



Privacy, controllo e costo. Con un'API hosted il provider vede ogni prompt, di solito lo conserva e applica la propria politica sui contenuti. Il self-hosting mantiene i prompt sull'infrastruttura che controlli, non conserva nulla a meno che tu non lo scelga, ed esegue qualsiasi modello open tu scelga. Per un utilizzo sensibile o intensivo costa anche meno di una fattura a token.





### 02
Quanta VRAM mi serve per eseguire un LLM?



Dipende dalla dimensione del modello e dalla precisione. Come riferimento approssimativo, un modello quantizzato a 4 bit richiede poco più di mezzo gigabyte di VRAM per miliardo di parametri, più margine per il contesto. Una scheda da 24-32 GB (RTX 4090 o 5090) gestisce modelli fino a circa 30B quantizzati; un H100 da 80 GB gestisce modelli della classe 70B.





### 03
Qual è il modo più veloce per avviare un modello?



Ollama. Su un server GPU con CUDA preinstallato, installa Ollama con il suo installer a riga singola ed esegui un modello con un solo comando. Gestisce download, quantizzazione e offload sulla GPU, ed espone un'API locale. Per il serving ad alto throughput con molte richieste concorrenti, vLLM è la scelta migliore.





### 04
Posso eseguire un modello uncensored?



Sì. Poiché controlli il server, scegli tu il modello — inclusi fine-tune uncensored o abliterati della community con il comportamento di rifiuto rimosso. Questo è uno dei motivi principali per cui le persone fanno self-hosting: il modello risponde senza la politica sui contenuti di un provider hosted nel percorso.





### 05
Devo installare io i driver NVIDIA e CUDA?



No. I server GPU di ServPrivacy vengono forniti con i driver NVIDIA e CUDA preinstallati, quindi la macchina è pronta per l'inferenza dal momento in cui si avvia. Un rapido nvidia-smi conferma che la GPU è visibile; da lì sei a pochi comandi da un modello in esecuzione.





### 06
Il self-hosting di un LLM è più economico di un'API?



Per un uso continuativo, sì. Un'API addebita per token; un server GPU ha un costo mensile fisso — a partire da circa $122/mese per un RTX 4090 — indipendentemente dal volume. Se la tua spesa mensile per API è già in quel range, una GPU dedicata è più economica, senza limiti e libera da rate limit e rifiuti per policy. Per un uso occasionale, un'API va bene.




Guide relacionullas

## Seguir leyendo


[### Come Scegliere una Giurisdizione di Hosting Offshore in 2026

Compra


Un quadro práctico di decisione per scegliere una giurisdizione offshore: legislación di conservazione di dati, esposizione al MLAT, postura ante DMCA, velocità giudiziario e applicazione reale — paese per paese.


FAQ di 6 domande](https://servprivacy.com/it/guides/choosing-an-offshore-jurisdiction)
[### VPS vs Server Dedicato per Cargas di Trabajo Críticas di Privacy

Compra


Quando un VPS è suficiente, cuándo la tenencia condivisa è un rischio e cuándo il bare metal è la unica risposta honesta. Aislamiento di hardware, rischio di hipervisor e costo rispetto a modello di minacce.


FAQ di 6 domande](https://servprivacy.com/it/guides/vps-vs-dedicated-for-privacy)
[### VPN Autogestionulla in un VPS Senza KYC: WireGuard vs OpenVPN

Operaciones


Perché una VPN self-hosted supera ai provider commerciali, e come WireGuard e OpenVPN se compern davvero in privacy, prestazioni e rischio operativo in 2026.


FAQ di 6 domande](https://servprivacy.com/it/guides/self-hosted-vpn-wireguard-vs-openvpn)
[### RTX 4090 vs H100 SXM5 per inferenza IA (e dove rientra la RTX 5090)

Compra


Guida di decisione di acquisto: quale GPU NVIDIA scegliere per LLM, immagine, video, voz e carichi di lavoro di fine-tuning autoospitate in 2026. RTX 4090 vs RTX 5090 vs H100 SXM5 vs dual H100 — VRAM, prestazioni, $/token, cuándo vince ogni una.


FAQ di 6 domande](https://servprivacy.com/it/guides/rtx-4090-vs-h100-for-ai-inference)
[### RDP Windows Offshore per Trading Forex con MT4 / MT5 / cTrader

Operaciones


Guida completa: per quale usare un RDP Windows per trading forex, come scegliere una giurisdizione offshore di bassa latenza, configurazione di MT4 / MT5 / cTrader / Expert Advisor, latenza a server di broker, e il processo di checkout senza KYC.


FAQ di 6 domande](https://servprivacy.com/it/guides/offshore-windows-rdp-for-forex-trading)
[### Hosting con DMCA Ignorato: Cosa Significa Davvero nel 2026

Compra


Cosa acquista davvero un hosting "DMCA ignored", quali giurisdizioni lo supportano concretamente, i carichi di lavoro che ne hanno bisogno e le insidie sul copyright che il termine non copre.


FAQ di 6 domande](https://servprivacy.com/it/guides/dmca-ignored-hosting-explained)
[### Registrazione Anonima di Domini con Crypto: Privacy WHOIS nel 2026

Privacy


Una guida pratica 2026 per registrare domini senza rivelare la propria identità: regimi WHOIS per TLD, scelta del registrar, opzioni di pagamento crypto e gli errori operativi che vi espongono comunque.


FAQ di 6 domande](https://servprivacy.com/it/guides/anonymous-domain-registration-with-crypto)
[### Pagamenti Crypto per Hosting: Monero vs Bitcoin vs USDT

Privacy


Come la scelta della moneda influisce su lo che sul provider aprende tuo ti. Privacy, commissioni, finalidad e esposizione al analisi di chain per XMR, BTC e USDT — con una recomendación clara.


FAQ di 6 domande](https://servprivacy.com/it/guides/crypto-payments-monero-vs-bitcoin-vs-usdt)
[### Cos'è l'Hosting No-KYC? Definizione, Legalità e Come Funziona

Privacy


L'hosting No-KYC ti permette di noleggiare un server senza alcuna verifica d'identità — nessun nome, nessuna email, nessun documento. Ecco cosa significa esattamente, come funziona tecnicamente, se è legale e come scegliere un provider affidabile.


FAQ di 6 domande](https://servprivacy.com/it/guides/what-is-no-kyc-hosting)
[### L'Hosting Offshore è Legale? La Risposta Onesta per il 2026

Compra


L'hosting offshore è legale — per te e per il provider. Ecco cosa significa davvero il termine, dove si trova il confine giuridico, i miti da sfatare e come usarlo in modo responsabile.


FAQ di 6 domande](https://servprivacy.com/it/guides/is-offshore-hosting-legal)
[### Come pagare l'hosting con Monero (XMR) — Guida passo dopo passo

Privacy


Una guida passo dopo passo per pagare un VPS o un server dedicato con Monero (XMR): perché XMR è l'opzione più privata, come ottenerlo e come funziona il checkout — dalla fattura al server operativo in pochi minuti.


FAQ di 6 domande](https://servprivacy.com/it/guides/how-to-pay-for-hosting-with-monero)
[### Come ospitare un sito web in modo anonimo — Guida pratica 2026

Privacy


Una guida pratica e stratificata per ospitare un sito web senza alcuna identità associata: l'account, il pagamento, il dominio, la giurisdizione, la connessione e il contenuto — ogni livello spiegato nel dettaglio.


FAQ di 6 domande](https://servprivacy.com/it/guides/how-to-host-a-website-anonymously)
[### Come Configurare una VPN WireGuard su un VPS — Guida Passo dopo Passo

Operaciones


Costruisci la tua VPN privata su un VPS con WireGuard: perché una VPN self-hosted supera quella commerciale, la configurazione completa dall'installazione a un client connesso, e come rafforzarne la sicurezza.


FAQ di 6 domande](https://servprivacy.com/it/guides/how-to-set-up-wireguard-vpn-on-a-vps)
[### Hosting Bulletproof vs Hosting Offshore — Qual è la Differenza?

Compra


Hosting bulletproof e hosting offshore vengono continuamente confusi — ma non sono la stessa cosa. Ecco la vera differenza, perché conta e quale dei due fa davvero al caso tuo.


FAQ di 6 domande](https://servprivacy.com/it/guides/bulletproof-vs-offshore-hosting)
[### Come acquistare un VPS con Bitcoin — Guida passo dopo passo (2026)

Compra


Una guida accessibile anche ai principianti per acquistare un VPS con Bitcoin: come ottenere BTC, scegliere un piano, pagare la fattura e cosa si ottiene — un server attivo senza carta e senza nome associato.


FAQ di 6 domande](https://servprivacy.com/it/guides/how-to-buy-a-vps-with-bitcoin)
[### I migliori paesi per l'hosting ignorato dal DMCA nel 2026

Compra


Dove ospitare i tuoi server quando vuoi essere al riparo dai takedown in stile statunitense: le giurisdizioni che funzionano davvero, cosa significa concretamente "ignorato dal DMCA" e come scegliere.


FAQ di 6 domande](https://servprivacy.com/it/guides/best-countries-for-dmca-ignored-hosting)
[### Come ospitare un servizio nascosto Tor (sito .onion) — Guida 2026

Operaciones


Configura un servizio onion Tor su un VPS: cos'è un servizio nascosto, perché rappresenta la forma più solida di hosting anonimo, la procedura completa e come mantenerlo davvero anonimo.


FAQ di 6 domande](https://servprivacy.com/it/guides/how-to-host-a-tor-hidden-service)
[### Configurazione di un Server Mail Offshore — Self-Hosting di Email Private nel 2026

Operaciones


Gestisci il tuo server email privato su un VPS offshore: perché ospitare la posta in autonomia, cosa ti serve, come configurare uno stack mail all-in-one e come garantire la consegna dei messaggi.


FAQ di 6 domande](https://servprivacy.com/it/guides/offshore-mail-server-setup)
[### Guida all'Hosting di Nodi Crypto — Esegui un Nodo Blockchain su un VPS

Operaciones


Come ospitare un nodo blockchain su un server: perché gestire il proprio nodo, come dimensionare il server per Bitcoin, Ethereum, Monero e non solo, la configurazione e come mantenerlo privato.


FAQ di 6 domande](https://servprivacy.com/it/guides/crypto-node-hosting-guide)
[### GPU Hosting per Stable Diffusion — Esegui il Tuo Server di Immagini

Operaciones


Esegui Stable Diffusion sul tuo server GPU dedicato: perché fare self-hosting della generazione di immagini, quale GPU scegliere, la configurazione con una web UI e il confronto dei costi rispetto a un servizio in hosting.


FAQ di 6 domande](https://servprivacy.com/it/guides/gpu-hosting-for-stable-diffusion)
[### Server OpSec — Restare Anonimi Quando Gestisci un Server

Privacy


Sicurezza operativa per chi gestisce un server anonimo: gli errori che espongono l'identità, le abitudini che li prevengono e come tenere davvero separate le identità.


FAQ di 6 domande](https://servprivacy.com/it/guides/server-opsec-staying-anonymous)
[### Guida alla configurazione di una seedbox — Costruisci la tua seedbox privata nel 2026

Operaciones


Come costruire la propria seedbox su un server: cos'è una seedbox, come dimensionarla, come installare un client torrent con interfaccia web e come mantenerla privata e sicura.


FAQ di 6 domande](https://servprivacy.com/it/guides/seedbox-setup-guide)




## Esegui il tuo modello su un server GPU privato



Server GPU ServPrivacy — RTX 4090, RTX 5090 e H100, CUDA preinstallato, no-KYC e offshore, a partire da $122/mese. Il tuo modello, il tuo hardware, i tuoi prompt.


[Self-Host LLM](https://servprivacy.com/it/uncensored-ai-hosting)
[Vedi i piani GPU](https://servprivacy.com/it/gpu)
[No-KYC GPU](https://servprivacy.com/it/no-kyc-gpu)
