Accueil / GPU AI Hosting
RTX 4090 · RTX 5090 · H100 SXM5 · CUDA 12

Hébergement GPU AI Offshore

Serveurs GPU NVIDIA RTX 4090, RTX 5090 et H100 SXM5 pour l'entraînement IA, l'inférence, la génération d'images et de vidéos. CUDA 12 et cuDNN préinstallés, ainsi que des préréglages d'image PyTorch / ComfyUI / Ollama prêts à utiliser en SSH. Hôtes Threadripper Pro sur les niveaux H100 pour un nombre complet de voies PCIe Gen 5. Disponible dans 4 juridictions offshore, sans KYC, paiement crypto uniquement en 14 chaînes dont Monero.

Sans KYC
Crypto uniquement
CUDA 12
NVMe SSD
Accès root complet
Monero accepted
Toutes les offres GPU

Offres GPU par emplacement

Même matériel NVIDIA dans toutes les juridictions, avec bande passante illimitée sur toutes les offres. Les prix varient selon la juridiction — Iceland est l'option la moins carbonée, Moldova la moins chère.

Islande Havre de liberté d'expression

OffreGPUVRAMCPURAMNVMeBande passantePrix
IS-S 1× NVIDIA RTX 4090 24 GB GDDR6X 12 vCPU 64 GB DDR5 1 TB NVMe Illimité $299/mo Commander
IS-M Populaire 1× NVIDIA RTX 5090 32 GB GDDR7 16 vCPU 96 GB DDR5 1.5 TB NVMe Illimité $479/mo Commander
IS-L 1× NVIDIA H100 SXM5 80 GB HBM3 24 vCPU 192 GB DDR5 2 TB NVMe Illimité $1849/mo Commander
IS-XL 2× NVIDIA H100 SXM5 160 GB HBM3 32 vCPU 384 GB DDR5 4 TB NVMe Illimité $3499/mo Commander

Moldavie Offshore économique

OffreGPUVRAMCPURAMNVMeBande passantePrix
MD-S 1× NVIDIA RTX 4090 24 GB GDDR6X 12 vCPU 64 GB DDR5 1 TB NVMe Illimité $249/mo Commander
MD-M Populaire 1× NVIDIA RTX 5090 32 GB GDDR7 16 vCPU 96 GB DDR5 1.5 TB NVMe Illimité $399/mo Commander
MD-L 1× NVIDIA H100 SXM5 80 GB HBM3 24 vCPU 192 GB DDR5 2 TB NVMe Illimité $1699/mo Commander
MD-XL 2× NVIDIA H100 SXM5 160 GB HBM3 32 vCPU 384 GB DDR5 4 TB NVMe Illimité $3199/mo Commander

Roumanie Anti-rétention

OffreGPUVRAMCPURAMNVMeBande passantePrix
RO-S 1× NVIDIA RTX 4090 24 GB GDDR6X 12 vCPU 64 GB DDR5 1 TB NVMe Illimité $269/mo Commander
RO-M Populaire 1× NVIDIA RTX 5090 32 GB GDDR7 16 vCPU 96 GB DDR5 1.5 TB NVMe Illimité $429/mo Commander
RO-L 1× NVIDIA H100 SXM5 80 GB HBM3 24 vCPU 192 GB DDR5 2 TB NVMe Illimité $1749/mo Commander
RO-XL 2× NVIDIA H100 SXM5 160 GB HBM3 32 vCPU 384 GB DDR5 4 TB NVMe Illimité $3299/mo Commander

Pays-Bas Meilleur peering

OffreGPUVRAMCPURAMNVMeBande passantePrix
NL-S 1× NVIDIA RTX 4090 24 GB GDDR6X 12 vCPU 64 GB DDR5 1 TB NVMe Illimité $279/mo Commander
NL-M Populaire 1× NVIDIA RTX 5090 32 GB GDDR7 16 vCPU 96 GB DDR5 1.5 TB NVMe Illimité $449/mo Commander
NL-L 1× NVIDIA H100 SXM5 80 GB HBM3 24 vCPU 192 GB DDR5 2 TB NVMe Illimité $1799/mo Commander
NL-XL 2× NVIDIA H100 SXM5 160 GB HBM3 32 vCPU 384 GB DDR5 4 TB NVMe Illimité $3399/mo Commander

L'hébergement GPU est disponible dans 4 juridictions au lancement (Iceland, Netherlands, Romania, Moldova). Russia est exclue en raison des sanctions d'exportation NVIDIA ; Switzerland et Panama restent Linux uniquement pour l'instant.

Inclus sur chaque serveur GPU

CUDA 12

CUDA 12.4/12.6 + cuDNN préinstallés. Démarrez, connectez-vous en SSH, exécutez nvidia-smi.

Déploiement en 60 secondes

De la commande payée à la sortie nvidia-smi en moins de 60 secondes.

NVMe SSD

Jusqu'à 4 TB NVMe SSD, associé à la DDR5 RAM pour des I/O de jeux de données rapides.

SSH + Jupyter

SSH root complet, plus JupyterLab pré-lié sur le port 8888 avec authentification par token.

Cas d'utilisation

What GPU AI Hosting is Used For

Finetuning et inférence LLM

Finetuning Llama, Mistral, Qwen, DeepSeek avec LoRA / QLoRA / FT complet sur H100. Ou inférence auto-hébergée avec vLLM / TGI / Ollama pour la mise en production de modèles.

Génération d'images

Stable Diffusion, FLUX.1, SDXL avec ComfyUI ou Forge. Entraînez votre propre LoRA, générez en lot à grande échelle ou auto-hébergez un endpoint d'inférence.

Génération de vidéos IA

OpenSora, CogVideoX, Wan-2.1, AnimateDiff. La génération vidéo nécessite une VRAM conséquente — commencez avec RTX 5090 (32 GB) ou H100 (80 GB).

Inférence en production

Déployez des modèles affinés derrière votre propre API. Coûts prévisibles, pas de frais par token, données restant dans votre juridiction. JupyterLab + FastAPI inclus.

Déploiement en 1 clic

Templates IA pré-installés

Cochez les options souhaitées à la commande et votre serveur GPU démarre avec la stack déjà installée, configurée et lancée via systemd. Ajoutez des modèles pré-téléchargés ci-dessous pour éviter également le téléchargement HuggingFace de 30-60 min.

Inférence LLM

vLLM (OpenAI-compatible)

Production-grade LLM serving with continuous batching and paged attention. Exposes an /v1/completions endpoint compatible with the OpenAI SDK.

LLMOpenAI APIproduction +
Inférence LLM

Ollama + Open WebUI

Self-hosted ChatGPT-style web UI. Pulls Ollama-native quantized weights; easiest path to "talk to my LLM in a browser".

LLMchat UIbeginner +
Inférence LLM

text-generation-webui (Oobabooga)

Gradio UI with broad backend support — Transformers, ExLlamaV2, llama.cpp, AWQ, GPTQ. Power-user choice for benchmarking quantizations.

LLMmulti-backendpower user +
Inférence LLM

HuggingFace TGI

HuggingFace Text Generation Inference — production server with token streaming, tensor parallelism, paged attention.

LLMproductionHuggingFace +
Finetuning

Axolotl (LLM finetuning)

YAML-config driven finetuning. Supports LoRA, QLoRA, full FT, DPO, ORPO. Pre-cloned to /opt/axolotl with starter configs for Llama / Qwen / Mistral.

finetuneLoRAQLoRA +
Finetuning

Unsloth (2× faster finetune)

2× faster + 70% less VRAM finetuning via custom Triton kernels. Ideal for budget runs on RTX 4090. Pre-installed in /opt/unsloth.

finetunefastlow VRAM +
Finetuning

LLaMA-Factory

WebUI-driven finetuning platform. SFT / RLHF / DPO / KTO. Good entry point for non-coders who want to finetune on a UI.

finetuneGUI +
Génération d'images

ComfyUI + FLUX.1

Node-graph image-gen interface, ships with FLUX.1-schnell + Kontext workflows. Power-user image generation pipeline.

imageFLUXworkflow +
Génération d'images

Automatic1111 + SD 3.5

The mainstream Stable Diffusion WebUI. Stable Diffusion 3.5 + extensions ecosystem. Familiar UI for users coming from civitai.

imageSD 3.5 +
Génération d'images

Forge (faster A1111)

A1111 fork optimized for FLUX, faster sampling, lower VRAM. Drop-in replacement for users coming from Auto1111.

imageFLUXfast +
Génération d'images

Kohya SS (LoRA training)

GUI for training Stable Diffusion / FLUX LoRA, DreamBooth, textual inversion. Trains a custom-style LoRA on RTX 4090 in 30-90 min.

LoRA trainingimageGUI +
Vidéo IA

ComfyUI + Wan 2.2 / HunyuanVideo

ComfyUI with video-gen workflows preloaded — Wan 2.2 T2V, HunyuanVideo, LTX-Video. Needs 40+ GB VRAM for usable speed at 720p.

videoWan 2.2HunyuanVideo +
Vidéo IA

ComfyUI Video Lite (CogVideoX / LTX)

Lightweight video workflows — CogVideoX-5B, Wan 2.1 1.3B, LTX-Video. Runs on a single RTX 4090.

videoCogVideoXlow VRAM +
Audio

Whisper Large v3 Turbo server

OpenAI Whisper Large v3 Turbo with faster-whisper backend behind a /transcribe HTTP API. 8× faster than v3, 99 langs, real-time on any GPU.

audiospeech-to-textAPI +
Audio

TTS server (Kokoro + CSM-1B)

Multi-model TTS endpoint serving Kokoro 82M (54 voices, 8 langs) and Sesame CSM-1B (conversational with context). REST + WebSocket streaming.

audiotext-to-speechAPI +
Notebooks & Dev

JupyterLab + PyTorch baseline

Always installed. PyTorch 2.5 + CUDA 12.4 + Transformers + diffusers + accelerate + bitsandbytes + xformers + flash-attn. The universal AI dev baseline.

notebookbaselinealways-on +
Notebooks & Dev

code-server (VSCode in browser)

VSCode running in your browser, full Python/IPython/extensions. For users who prefer IDE workflow over notebooks.

IDEVSCodedev +

Combinez plusieurs stacks sur le même GPU — le script de déploiement résout les conflits de dépendances et assigne des ports non-conflictuels.

Évitez le téléchargement

Modèles open-weight pré-téléchargés

Cochez les modèles nécessaires à la commande et ils sont mis en cache dans /root/.cache/huggingface avant votre connexion. 🔒 Les modèles Gated (Llama, Mistral, Gemma, FLUX-dev, SD 3.5) nécessitent votre token HuggingFace (également demandé à la commande).

Modèle HuggingFace Taille VRAM min Niveau GPU min Type
Llama 3.3 70B Instruct 🔒 Restreint meta-llama/Llama-3.3-70B-Instruct 140 GB 160 GB GPU-L LLM
Qwen3 32B Qwen/Qwen3-32B 64 GB 80 GB GPU-L LLM
Qwen3 14B Qwen/Qwen3-14B 28 GB 32 GB GPU-S LLM
Qwen3 8B Qwen/Qwen3-8B 16 GB 20 GB GPU-S LLM
DeepSeek-R1 Distill Qwen 32B deepseek-ai/DeepSeek-R1-Distill-Qwen-32B 64 GB 80 GB GPU-S LLM
DeepSeek-R1 Distill Llama 70B deepseek-ai/DeepSeek-R1-Distill-Llama-70B 140 GB 160 GB GPU-S LLM
Mistral Small 3.2 24B (multimodal) mistralai/Mistral-Small-3.2-24B-Instruct-2506 48 GB 60 GB GPU-S LLM
Gemma 3 27B (multimodal) 🔒 Restreint google/gemma-3-27b-it 54 GB 64 GB GPU-L LLM
Gemma 3 12B (multimodal) 🔒 Restreint google/gemma-3-12b-it 24 GB 28 GB GPU-S LLM
Phi-4 (14B) microsoft/phi-4 28 GB 32 GB GPU-S LLM
Phi-4 Mini Instruct (3.8B) microsoft/Phi-4-mini-instruct 8 GB 10 GB GPU-S LLM
FLUX.1 [dev] 🔒 Restreint black-forest-labs/FLUX.1-dev 24 GB 24 GB GPU-S Image
FLUX.1 [schnell] black-forest-labs/FLUX.1-schnell 24 GB 24 GB GPU-S Image
FLUX.1 Kontext [dev] (image editing) 🔒 Restreint black-forest-labs/FLUX.1-Kontext-dev 24 GB 24 GB GPU-S Image
Stable Diffusion 3.5 Large 🔒 Restreint stabilityai/stable-diffusion-3.5-large 16 GB 18 GB GPU-S Image
Stable Diffusion 3.5 Medium 🔒 Restreint stabilityai/stable-diffusion-3.5-medium 5 GB 10 GB GPU-S Image
HiDream-I1 Full HiDream-ai/HiDream-I1-Full 34 GB 40 GB GPU-S Image
Wan 2.2 T2V A14B Wan-AI/Wan2.2-T2V-A14B 28 GB 40 GB GPU-S Vidéo
Wan 2.1 T2V 1.3B (low VRAM) Wan-AI/Wan2.1-T2V-1.3B 3 GB 8 GB GPU-S Vidéo
HunyuanVideo 1.5 (8.3B) tencent/HunyuanVideo-1.5 17 GB 24 GB GPU-S Vidéo
LTX-Video 0.9.8 13B Lightricks/LTX-Video 26 GB 24 GB GPU-S Vidéo
CogVideoX-5B zai-org/CogVideoX-5b 10 GB 16 GB GPU-S Vidéo
Whisper Large v3 Turbo openai/whisper-large-v3-turbo 2 GB 4 GB GPU-S Audio
Whisper Large v3 openai/whisper-large-v3 3 GB 6 GB GPU-S Audio
Kokoro 82M (TTS) hexgrad/Kokoro-82M 1 GB 2 GB GPU-S Audio
Sesame CSM-1B (conversational TTS) sesame/csm-1b 2 GB 6 GB GPU-S Audio
Stable Audio Open 1.0 🔒 Restreint stabilityai/stable-audio-open-1.0 3 GB 8 GB GPU-S Audio

Les tailles sont des poids FP16. Pour RTX 4090 (24 Go VRAM) avec les modèles 70B, la variante quantifiée AWQ est téléchargée automatiquement en parallèle.

Comparaison

ServPrivacy vs Vast.ai · RunPod · Paperspace · Lambda Labs · TensorDock

Paiement crypto uniquement, Monero natif, inscription par token uniquement, stacks IA pré-installées, modèles HuggingFace pré-téléchargés, tokens HF chiffrés, endpoints Let's Encrypt automatiques, bande passante illimitée et 100 % d'énergie renouvelable en Islande — lisez la ligne « ServPrivacy » et jugez par vous-même.

Fonctionnalité ServPrivacy Vast.ai RunPod Paperspace Lambda TensorDock
Paiement crypto uniquement ✅ 14 chains⚠️ BTC⚠️ Gateway⚠️ BTC/ETH/USDT
Monero (XMR) natif
Sans KYC, sans email ✅ Token-only⚠️ Email + ID for trust⚠️ Email + payment❌ Full KYC❌ Enterprise KYC⚠️ Email + light KYC
Stacks IA pré-installées ✅ 17 templates⚠️ Docker BYO✅ 100+⚠️ Notebooks only⚠️ Lambda Stack only⚠️ Docker BYO
Modèles pré-téléchargés à la commande ✅ 27 models
Token HuggingFace à la commande ✅ Encrypted, used once
Clé SSH à la commande ⚠️⚠️
Minuterie d'arrêt automatique ✅ 6h-7d⚠️ Spot only
Endpoint HTTPS public (Let's Encrypt) ✅ Auto⚠️ Manual✅ Pods⚠️ Manual
Bande passante illimitée ⚠️ Per host⚠️ Capped⚠️ Capped⚠️ Capped⚠️ Per host
Datacenter énergie renouvelable ✅ Iceland 100% geo+hydro❌ Variable⚠️ US grid⚠️ US grid⚠️ US grid⚠️ Variable
Juridiction offshore ✅ IS / NL / RO / MD❌ Distributed P2P❌ US-centric❌ US❌ US-only⚠️ Multi-region
Mode simulation sandbox ✅ ?dry_run=1⚠️ Trial credit⚠️ Limited⚠️ Free GPU tier
Agent IA / MCP natif ✅ MCP + REST + x402⚠️ REST⚠️ REST⚠️ REST⚠️ REST⚠️ REST
RTX 4090 entrée / mois $249~$216 spot~$396 on-demandn/an/a~$252 spot

Données de comparaison issues des pages de tarification publiques 2026-05 et des flux d'inscription des concurrents. L'offre d'entrée ServPrivacy RTX 4090 = 249 $/mois en Moldavie ; les prix « spot » des concurrents sont des tarifs moyens pour du matériel équivalent.

FAQ

FAQ Hébergement GPU AI

01 Le GPU est-il passé en accès matériel complet, ou est-il partagé / découpé en vGPU ?

Passthrough matériel complet. Vous obtenez la carte NVIDIA physique entière avec accès direct à la VRAM — pas une tranche vGPU, pas une partition MIG partagée dans le temps. nvidia-smi dans votre VM affiche les mêmes chiffres que l'hôte bare-metal. Accès pilote complet, CUDA complet, pile PyTorch / TensorFlow complète — sans réservations SR-IOV.

02 Quelles versions CUDA / pilote sont préinstallées ?

Image par défaut : Ubuntu 22.04 + CUDA 12.4 + cuDNN 9 + pilote NVIDIA 550. Autres images prêtes à l'emploi : Ubuntu 24.04 + CUDA 12.6, Ubuntu 22 + PyTorch 2.5, Ubuntu 22 + ComfyUI + Flux, Ubuntu 22 + Ollama + Open WebUI. Ubuntu / Debian / AlmaLinux / Rocky vanilla également proposés si vous souhaitez installer votre propre pile. Vous pouvez changer les versions de pilotes à tout moment en tant que root complet.

03 Puis-je faire tourner l'inférence de production de ma startup IA sur ces GPU ?

Oui. Beaucoup de nos clients GPU font tourner des API d'inférence publiques sur vLLM / TGI / FastAPI. Les serveurs GPU sont livrés avec root complet, une facturation mensuelle prévisible (sans surprises par token) et une IP juridictionnelle fixe. La bande passante est illimitée sur toutes les offres GPU, vous pouvez donc servir des endpoints publics à fort trafic sans surveiller de compteurs ni payer de frais de dépassement.

04 Pourquoi Russia est-elle exclue des emplacements GPU ?

Les cartes NVIDIA H100, A100 et RTX haut de gamme (4090 et au-dessus) sont soumises aux contrôles à l'exportation du Département du Commerce américain (15 CFR Part 744) et aux réglementations dual-use de l'UE qui interdisent leur expédition vers des datacenters russes. Nous ne les provisionnons pas en Russia afin de rester conformes aux contrôles applicables à notre chaîne d'approvisionnement. Si vous avez besoin de Linux VPS ou Dédié offshore en Russia, ces gammes de produits ne sont pas affectées.

05 Pourquoi Iceland est-il positionné comme l'emplacement GPU premium ?

Les datacenters d'Iceland fonctionnent à 100 % à l'énergie renouvelable géothermique et hydroélectrique, et la température ambiante froide réduit significativement la charge de refroidissement des boîtiers H100 qui consomment 700 W chacun sous charge soutenue. Le résultat : le calcul GPU offshore le moins carboné du marché. Le prix premium couvre le coût plus élevé des datacenters en Iceland et le sourcing d'énergie plus propre — pour les équipes IA soucieuses de l'ESG, c'est la seule réponse offshore crédible.

06 Puis-je utiliser plusieurs GPU pour l'entraînement distribué (DDP / FSDP) ?

Oui — le niveau GPU-XL est 2× H100 SXM5 avec interconnexion NVLink dans un seul boîtier, idéal pour FSDP / DeepSpeed Zero-3 / DDP sur la même machine. Pour l'entraînement multi-nœuds, vous pouvez louer plusieurs serveurs GPU-XL dans le même datacenter et les connecter via la liaison montante 10 Gbps. Nous n'expédions pas encore de nœuds cluster 8× H100 — contactez-nous si votre cycle d'entraînement nécessite davantage de capacité.

Déployez votre serveur GPU offshore

Choisissez votre juridiction, votre GPU NVIDIA, payez avec l'une des 14 cryptos. JupyterLab en direct en moins de 60 secondes. Sans KYC, sans email, sans téléphone — juste un token.

Voir les offres GPU