Accueil / GPU AI Hosting

RTX 4090 · RTX 5090 · H100 SXM5 · CUDA 12

Hébergement GPU AI Offshore

Name: Offshore GPU AI Hosting
Brand: ServPrivacy
Availability: InStock

Serveurs GPU NVIDIA RTX 4090, RTX 5090 et H100 SXM5 pour l'entraînement IA, l'inférence, la génération d'images et de vidéos. CUDA 12 et cuDNN préinstallés, ainsi que des préréglages d'image PyTorch / ComfyUI / Ollama prêts à utiliser en SSH. Hôtes Threadripper Pro sur les niveaux H100 pour un nombre complet de voies PCIe Gen 5. Disponible dans 4 juridictions offshore, sans KYC, paiement crypto uniquement en 14 chaînes dont Monero.

Voir les offres GPU Serveurs Dédiés

Inclus sur chaque serveur GPU

Matériel NVIDIA, passthrough complet
CUDA 12 + cuDNN préinstallés
Hôtes Threadripper / Ryzen 9
NVMe SSD & DDR5
Déploiement en 60 secondes
14 cryptos acceptées, dont Monero

Sans KYC

Crypto uniquement

CUDA 12

NVMe SSD

Accès root complet

Monero accepted

Toutes les offres GPU

Offres GPU par emplacement

Même matériel NVIDIA dans toutes les juridictions, avec bande passante illimitée sur toutes les offres. Les prix varient selon la juridiction — Iceland est l'option la moins carbonée, Moldova la moins chère.

Islande Havre de liberté d'expression

Offre	GPU	VRAM	CPU	RAM	NVMe	Bande passante	Prix
IS-S	1× NVIDIA RTX 4090	24 GB GDDR6X	12 vCPU	64 GB DDR5	1 TB NVMe	Illimité	$299/mo	Commander
IS-M Populaire	1× NVIDIA RTX 5090	32 GB GDDR7	16 vCPU	96 GB DDR5	1.5 TB NVMe	Illimité	$479/mo	Commander
IS-L	1× NVIDIA H100 SXM5	80 GB HBM3	24 vCPU	192 GB DDR5	2 TB NVMe	Illimité	$1849/mo	Commander
IS-XL	2× NVIDIA H100 SXM5	160 GB HBM3	32 vCPU	384 GB DDR5	4 TB NVMe	Illimité	$3499/mo	Commander

Moldavie Offshore économique

Offre	GPU	VRAM	CPU	RAM	NVMe	Bande passante	Prix
MD-S	1× NVIDIA RTX 4090	24 GB GDDR6X	12 vCPU	64 GB DDR5	1 TB NVMe	Illimité	$249/mo	Commander
MD-M Populaire	1× NVIDIA RTX 5090	32 GB GDDR7	16 vCPU	96 GB DDR5	1.5 TB NVMe	Illimité	$399/mo	Commander
MD-L	1× NVIDIA H100 SXM5	80 GB HBM3	24 vCPU	192 GB DDR5	2 TB NVMe	Illimité	$1699/mo	Commander
MD-XL	2× NVIDIA H100 SXM5	160 GB HBM3	32 vCPU	384 GB DDR5	4 TB NVMe	Illimité	$3199/mo	Commander

Roumanie Anti-rétention

Offre	GPU	VRAM	CPU	RAM	NVMe	Bande passante	Prix
RO-S	1× NVIDIA RTX 4090	24 GB GDDR6X	12 vCPU	64 GB DDR5	1 TB NVMe	Illimité	$269/mo	Commander
RO-M Populaire	1× NVIDIA RTX 5090	32 GB GDDR7	16 vCPU	96 GB DDR5	1.5 TB NVMe	Illimité	$429/mo	Commander
RO-L	1× NVIDIA H100 SXM5	80 GB HBM3	24 vCPU	192 GB DDR5	2 TB NVMe	Illimité	$1749/mo	Commander
RO-XL	2× NVIDIA H100 SXM5	160 GB HBM3	32 vCPU	384 GB DDR5	4 TB NVMe	Illimité	$3299/mo	Commander

Pays-Bas Meilleur peering

Offre	GPU	VRAM	CPU	RAM	NVMe	Bande passante	Prix
NL-S	1× NVIDIA RTX 4090	24 GB GDDR6X	12 vCPU	64 GB DDR5	1 TB NVMe	Illimité	$279/mo	Commander
NL-M Populaire	1× NVIDIA RTX 5090	32 GB GDDR7	16 vCPU	96 GB DDR5	1.5 TB NVMe	Illimité	$449/mo	Commander
NL-L	1× NVIDIA H100 SXM5	80 GB HBM3	24 vCPU	192 GB DDR5	2 TB NVMe	Illimité	$1799/mo	Commander
NL-XL	2× NVIDIA H100 SXM5	160 GB HBM3	32 vCPU	384 GB DDR5	4 TB NVMe	Illimité	$3399/mo	Commander

L'hébergement GPU est disponible dans 4 juridictions au lancement (Iceland, Netherlands, Romania, Moldova). Russia est exclue en raison des sanctions d'exportation NVIDIA ; Switzerland et Panama restent Linux uniquement pour l'instant.

Inclus sur chaque serveur GPU

CUDA 12

CUDA 12.4/12.6 + cuDNN préinstallés. Démarrez, connectez-vous en SSH, exécutez nvidia-smi.

Déploiement en 60 secondes

De la commande payée à la sortie nvidia-smi en moins de 60 secondes.

NVMe SSD

Jusqu'à 4 TB NVMe SSD, associé à la DDR5 RAM pour des I/O de jeux de données rapides.

SSH + Jupyter

SSH root complet, plus JupyterLab pré-lié sur le port 8888 avec authentification par token.

Cas d'utilisation

What GPU AI Hosting is Used For

Finetuning et inférence LLM

Finetuning Llama, Mistral, Qwen, DeepSeek avec LoRA / QLoRA / FT complet sur H100. Ou inférence auto-hébergée avec vLLM / TGI / Ollama pour la mise en production de modèles.

Génération d'images

Stable Diffusion, FLUX.1, SDXL avec ComfyUI ou Forge. Entraînez votre propre LoRA, générez en lot à grande échelle ou auto-hébergez un endpoint d'inférence.

Génération de vidéos IA

OpenSora, CogVideoX, Wan-2.1, AnimateDiff. La génération vidéo nécessite une VRAM conséquente — commencez avec RTX 5090 (32 GB) ou H100 (80 GB).

Inférence en production

Déployez des modèles affinés derrière votre propre API. Coûts prévisibles, pas de frais par token, données restant dans votre juridiction. JupyterLab + FastAPI inclus.

Déploiement en 1 clic

Templates IA pré-installés

Cochez les options souhaitées à la commande et votre serveur GPU démarre avec la stack déjà installée, configurée et lancée via systemd. Ajoutez des modèles pré-téléchargés ci-dessous pour éviter également le téléchargement HuggingFace de 30-60 min.

Inférence LLM

vLLM (OpenAI-compatible)

Production-grade LLM serving with continuous batching and paged attention. Exposes an /v1/completions endpoint compatible with the OpenAI SDK.

LLMOpenAI APIproduction +

Inférence LLM

Ollama + Open WebUI

Self-hosted ChatGPT-style web UI. Pulls Ollama-native quantized weights; easiest path to "talk to my LLM in a browser".

LLMchat UIbeginner +

Inférence LLM

text-generation-webui (Oobabooga)

Gradio UI with broad backend support — Transformers, ExLlamaV2, llama.cpp, AWQ, GPTQ. Power-user choice for benchmarking quantizations.

LLMmulti-backendpower user +

Inférence LLM

HuggingFace TGI

HuggingFace Text Generation Inference — production server with token streaming, tensor parallelism, paged attention.

LLMproductionHuggingFace +

Finetuning

Axolotl (LLM finetuning)

YAML-config driven finetuning. Supports LoRA, QLoRA, full FT, DPO, ORPO. Pre-cloned to /opt/axolotl with starter configs for Llama / Qwen / Mistral.

finetuneLoRAQLoRA +

Finetuning

Unsloth (2× faster finetune)

2× faster + 70% less VRAM finetuning via custom Triton kernels. Ideal for budget runs on RTX 4090. Pre-installed in /opt/unsloth.

finetunefastlow VRAM +

Finetuning

LLaMA-Factory

WebUI-driven finetuning platform. SFT / RLHF / DPO / KTO. Good entry point for non-coders who want to finetune on a UI.

finetuneGUI +

Génération d'images

ComfyUI + FLUX.1

Node-graph image-gen interface, ships with FLUX.1-schnell + Kontext workflows. Power-user image generation pipeline.

imageFLUXworkflow +

Génération d'images

Automatic1111 + SD 3.5

The mainstream Stable Diffusion WebUI. Stable Diffusion 3.5 + extensions ecosystem. Familiar UI for users coming from civitai.

imageSD 3.5 +

Génération d'images

Forge (faster A1111)

A1111 fork optimized for FLUX, faster sampling, lower VRAM. Drop-in replacement for users coming from Auto1111.

imageFLUXfast +

Génération d'images

Kohya SS (LoRA training)

GUI for training Stable Diffusion / FLUX LoRA, DreamBooth, textual inversion. Trains a custom-style LoRA on RTX 4090 in 30-90 min.

LoRA trainingimageGUI +

Vidéo IA

ComfyUI + Wan 2.2 / HunyuanVideo

ComfyUI with video-gen workflows preloaded — Wan 2.2 T2V, HunyuanVideo, LTX-Video. Needs 40+ GB VRAM for usable speed at 720p.

videoWan 2.2HunyuanVideo +

Vidéo IA

ComfyUI Video Lite (CogVideoX / LTX)

Lightweight video workflows — CogVideoX-5B, Wan 2.1 1.3B, LTX-Video. Runs on a single RTX 4090.

videoCogVideoXlow VRAM +

Audio

Whisper Large v3 Turbo server

OpenAI Whisper Large v3 Turbo with faster-whisper backend behind a /transcribe HTTP API. 8× faster than v3, 99 langs, real-time on any GPU.

audiospeech-to-textAPI +

Audio

TTS server (Kokoro + CSM-1B)

Multi-model TTS endpoint serving Kokoro 82M (54 voices, 8 langs) and Sesame CSM-1B (conversational with context). REST + WebSocket streaming.

audiotext-to-speechAPI +

Notebooks & Dev

JupyterLab + PyTorch baseline

Always installed. PyTorch 2.5 + CUDA 12.4 + Transformers + diffusers + accelerate + bitsandbytes + xformers + flash-attn. The universal AI dev baseline.

notebookbaselinealways-on +

Notebooks & Dev

code-server (VSCode in browser)

VSCode running in your browser, full Python/IPython/extensions. For users who prefer IDE workflow over notebooks.

IDEVSCodedev +

Combinez plusieurs stacks sur le même GPU — le script de déploiement résout les conflits de dépendances et assigne des ports non-conflictuels.

Évitez le téléchargement

Modèles open-weight pré-téléchargés

Cochez les modèles nécessaires à la commande et ils sont mis en cache dans /root/.cache/huggingface avant votre connexion. 🔒 Les modèles Gated (Llama, Mistral, Gemma, FLUX-dev, SD 3.5) nécessitent votre token HuggingFace (également demandé à la commande).

Modèle	HuggingFace	Taille	VRAM min	Niveau GPU min	Type
Llama 3.3 70B Instruct 🔒 Restreint	`meta-llama/Llama-3.3-70B-Instruct`	140 GB	160 GB	GPU-L	LLM
Qwen3 32B	`Qwen/Qwen3-32B`	64 GB	80 GB	GPU-L	LLM
Qwen3 14B	`Qwen/Qwen3-14B`	28 GB	32 GB	GPU-S	LLM
Qwen3 8B	`Qwen/Qwen3-8B`	16 GB	20 GB	GPU-S	LLM
DeepSeek-R1 Distill Qwen 32B	`deepseek-ai/DeepSeek-R1-Distill-Qwen-32B`	64 GB	80 GB	GPU-S	LLM
DeepSeek-R1 Distill Llama 70B	`deepseek-ai/DeepSeek-R1-Distill-Llama-70B`	140 GB	160 GB	GPU-S	LLM
Mistral Small 3.2 24B (multimodal)	`mistralai/Mistral-Small-3.2-24B-Instruct-2506`	48 GB	60 GB	GPU-S	LLM
Gemma 3 27B (multimodal) 🔒 Restreint	`google/gemma-3-27b-it`	54 GB	64 GB	GPU-L	LLM
Gemma 3 12B (multimodal) 🔒 Restreint	`google/gemma-3-12b-it`	24 GB	28 GB	GPU-S	LLM
Phi-4 (14B)	`microsoft/phi-4`	28 GB	32 GB	GPU-S	LLM
Phi-4 Mini Instruct (3.8B)	`microsoft/Phi-4-mini-instruct`	8 GB	10 GB	GPU-S	LLM
FLUX.1 [dev] 🔒 Restreint	`black-forest-labs/FLUX.1-dev`	24 GB	24 GB	GPU-S	Image
FLUX.1 [schnell]	`black-forest-labs/FLUX.1-schnell`	24 GB	24 GB	GPU-S	Image
FLUX.1 Kontext [dev] (image editing) 🔒 Restreint	`black-forest-labs/FLUX.1-Kontext-dev`	24 GB	24 GB	GPU-S	Image
Stable Diffusion 3.5 Large 🔒 Restreint	`stabilityai/stable-diffusion-3.5-large`	16 GB	18 GB	GPU-S	Image
Stable Diffusion 3.5 Medium 🔒 Restreint	`stabilityai/stable-diffusion-3.5-medium`	5 GB	10 GB	GPU-S	Image
HiDream-I1 Full	`HiDream-ai/HiDream-I1-Full`	34 GB	40 GB	GPU-S	Image
Wan 2.2 T2V A14B	`Wan-AI/Wan2.2-T2V-A14B`	28 GB	40 GB	GPU-S	Vidéo
Wan 2.1 T2V 1.3B (low VRAM)	`Wan-AI/Wan2.1-T2V-1.3B`	3 GB	8 GB	GPU-S	Vidéo
HunyuanVideo 1.5 (8.3B)	`tencent/HunyuanVideo-1.5`	17 GB	24 GB	GPU-S	Vidéo
LTX-Video 0.9.8 13B	`Lightricks/LTX-Video`	26 GB	24 GB	GPU-S	Vidéo
CogVideoX-5B	`zai-org/CogVideoX-5b`	10 GB	16 GB	GPU-S	Vidéo
Whisper Large v3 Turbo	`openai/whisper-large-v3-turbo`	2 GB	4 GB	GPU-S	Audio
Whisper Large v3	`openai/whisper-large-v3`	3 GB	6 GB	GPU-S	Audio
Kokoro 82M (TTS)	`hexgrad/Kokoro-82M`	1 GB	2 GB	GPU-S	Audio
Sesame CSM-1B (conversational TTS)	`sesame/csm-1b`	2 GB	6 GB	GPU-S	Audio
Stable Audio Open 1.0 🔒 Restreint	`stabilityai/stable-audio-open-1.0`	3 GB	8 GB	GPU-S	Audio

Les tailles sont des poids FP16. Pour RTX 4090 (24 Go VRAM) avec les modèles 70B, la variante quantifiée AWQ est téléchargée automatiquement en parallèle.

Comparaison

ServPrivacy vs Vast.ai · RunPod · Paperspace · Lambda Labs · TensorDock

Paiement crypto uniquement, Monero natif, inscription par token uniquement, stacks IA pré-installées, modèles HuggingFace pré-téléchargés, tokens HF chiffrés, endpoints Let's Encrypt automatiques, bande passante illimitée et 100 % d'énergie renouvelable en Islande — lisez la ligne « ServPrivacy » et jugez par vous-même.

Fonctionnalité	ServPrivacy	Vast.ai	RunPod	Paperspace	Lambda	TensorDock
Paiement crypto uniquement	✅ 14 chains	⚠️ BTC	⚠️ Gateway	❌	❌	⚠️ BTC/ETH/USDT
Monero (XMR) natif	✅	❌	❌	❌	❌	❌
Sans KYC, sans email	✅ Token-only	⚠️ Email + ID for trust	⚠️ Email + payment	❌ Full KYC	❌ Enterprise KYC	⚠️ Email + light KYC
Stacks IA pré-installées	✅ 17 templates	⚠️ Docker BYO	✅ 100+	⚠️ Notebooks only	⚠️ Lambda Stack only	⚠️ Docker BYO
Modèles pré-téléchargés à la commande	✅ 27 models	❌	❌	❌	❌	❌
Token HuggingFace à la commande	✅ Encrypted, used once	❌	❌	❌	❌	❌
Clé SSH à la commande	✅	✅	✅	⚠️	✅	⚠️
Minuterie d'arrêt automatique	✅ 6h-7d	✅	⚠️ Spot only	❌	❌	❌
Endpoint HTTPS public (Let's Encrypt)	✅ Auto	⚠️ Manual	✅ Pods	✅	❌	⚠️ Manual
Bande passante illimitée	✅	⚠️ Per host	⚠️ Capped	⚠️ Capped	⚠️ Capped	⚠️ Per host
Datacenter énergie renouvelable	✅ Iceland 100% geo+hydro	❌ Variable	⚠️ US grid	⚠️ US grid	⚠️ US grid	⚠️ Variable
Juridiction offshore	✅ IS / NL / RO / MD	❌ Distributed P2P	❌ US-centric	❌ US	❌ US-only	⚠️ Multi-region
Mode simulation sandbox	✅ ?dry_run=1	⚠️ Trial credit	⚠️ Limited	⚠️ Free GPU tier	❌	❌
Agent IA / MCP natif	✅ MCP + REST + x402	⚠️ REST	⚠️ REST	⚠️ REST	⚠️ REST	⚠️ REST
RTX 4090 entrée / mois	$249	~$216 spot	~$396 on-demand	n/a	n/a	~$252 spot

Données de comparaison issues des pages de tarification publiques 2026-05 et des flux d'inscription des concurrents. L'offre d'entrée ServPrivacy RTX 4090 = 249 $/mois en Moldavie ; les prix « spot » des concurrents sont des tarifs moyens pour du matériel équivalent.

FAQ

FAQ Hébergement GPU AI

01 Le GPU est-il passé en accès matériel complet, ou est-il partagé / découpé en vGPU ?

Passthrough matériel complet. Vous obtenez la carte NVIDIA physique entière avec accès direct à la VRAM — pas une tranche vGPU, pas une partition MIG partagée dans le temps. nvidia-smi dans votre VM affiche les mêmes chiffres que l'hôte bare-metal. Accès pilote complet, CUDA complet, pile PyTorch / TensorFlow complète — sans réservations SR-IOV.

02 Quelles versions CUDA / pilote sont préinstallées ?

Image par défaut : Ubuntu 22.04 + CUDA 12.4 + cuDNN 9 + pilote NVIDIA 550. Autres images prêtes à l'emploi : Ubuntu 24.04 + CUDA 12.6, Ubuntu 22 + PyTorch 2.5, Ubuntu 22 + ComfyUI + Flux, Ubuntu 22 + Ollama + Open WebUI. Ubuntu / Debian / AlmaLinux / Rocky vanilla également proposés si vous souhaitez installer votre propre pile. Vous pouvez changer les versions de pilotes à tout moment en tant que root complet.

03 Puis-je faire tourner l'inférence de production de ma startup IA sur ces GPU ?

Oui. Beaucoup de nos clients GPU font tourner des API d'inférence publiques sur vLLM / TGI / FastAPI. Les serveurs GPU sont livrés avec root complet, une facturation mensuelle prévisible (sans surprises par token) et une IP juridictionnelle fixe. La bande passante est illimitée sur toutes les offres GPU, vous pouvez donc servir des endpoints publics à fort trafic sans surveiller de compteurs ni payer de frais de dépassement.

04 Pourquoi Russia est-elle exclue des emplacements GPU ?

Les cartes NVIDIA H100, A100 et RTX haut de gamme (4090 et au-dessus) sont soumises aux contrôles à l'exportation du Département du Commerce américain (15 CFR Part 744) et aux réglementations dual-use de l'UE qui interdisent leur expédition vers des datacenters russes. Nous ne les provisionnons pas en Russia afin de rester conformes aux contrôles applicables à notre chaîne d'approvisionnement. Si vous avez besoin de Linux VPS ou Dédié offshore en Russia, ces gammes de produits ne sont pas affectées.

05 Pourquoi Iceland est-il positionné comme l'emplacement GPU premium ?

Les datacenters d'Iceland fonctionnent à 100 % à l'énergie renouvelable géothermique et hydroélectrique, et la température ambiante froide réduit significativement la charge de refroidissement des boîtiers H100 qui consomment 700 W chacun sous charge soutenue. Le résultat : le calcul GPU offshore le moins carboné du marché. Le prix premium couvre le coût plus élevé des datacenters en Iceland et le sourcing d'énergie plus propre — pour les équipes IA soucieuses de l'ESG, c'est la seule réponse offshore crédible.

06 Puis-je utiliser plusieurs GPU pour l'entraînement distribué (DDP / FSDP) ?

Oui — le niveau GPU-XL est 2× H100 SXM5 avec interconnexion NVLink dans un seul boîtier, idéal pour FSDP / DeepSpeed Zero-3 / DDP sur la même machine. Pour l'entraînement multi-nœuds, vous pouvez louer plusieurs serveurs GPU-XL dans le même datacenter et les connecter via la liaison montante 10 Gbps. Nous n'expédions pas encore de nœuds cluster 8× H100 — contactez-nous si votre cycle d'entraînement nécessite davantage de capacité.

Déployez votre serveur GPU offshore

Choisissez votre juridiction, votre GPU NVIDIA, payez avec l'une des 14 cryptos. JupyterLab en direct en moins de 60 secondes. Sans KYC, sans email, sans téléphone — juste un token.

Voir les offres GPU

Bon retour

Hébergement GPU AI Offshore

Inclus sur chaque serveur GPU

Offres GPU par emplacement

Islande Havre de liberté d'expression

Moldavie Offshore économique

Roumanie Anti-rétention

Pays-Bas Meilleur peering

Inclus sur chaque serveur GPU

CUDA 12

Déploiement en 60 secondes

NVMe SSD

SSH + Jupyter

What GPU AI Hosting is Used For

Finetuning et inférence LLM

Génération d'images

Génération de vidéos IA

Inférence en production

Templates IA pré-installés

vLLM (OpenAI-compatible)

Ollama + Open WebUI

text-generation-webui (Oobabooga)

HuggingFace TGI

Axolotl (LLM finetuning)

Unsloth (2× faster finetune)

LLaMA-Factory

ComfyUI + FLUX.1

Automatic1111 + SD 3.5

Forge (faster A1111)

Kohya SS (LoRA training)

ComfyUI + Wan 2.2 / HunyuanVideo

ComfyUI Video Lite (CogVideoX / LTX)

Whisper Large v3 Turbo server

TTS server (Kokoro + CSM-1B)

JupyterLab + PyTorch baseline

code-server (VSCode in browser)

Modèles open-weight pré-téléchargés

ServPrivacy vs Vast.ai · RunPod · Paperspace · Lambda Labs · TensorDock

FAQ Hébergement GPU AI

Déployez votre serveur GPU offshore