CUDA 12
CUDA 12.4/12.6 + cuDNN préinstallés. Démarrez, connectez-vous en SSH, exécutez nvidia-smi.
Serveurs GPU NVIDIA RTX 4090, RTX 5090 et H100 SXM5 pour l'entraînement IA, l'inférence, la génération d'images et de vidéos. CUDA 12 et cuDNN préinstallés, ainsi que des préréglages d'image PyTorch / ComfyUI / Ollama prêts à utiliser en SSH. Hôtes Threadripper Pro sur les niveaux H100 pour un nombre complet de voies PCIe Gen 5. Disponible dans 4 juridictions offshore, sans KYC, paiement crypto uniquement en 14 chaînes dont Monero.
Même matériel NVIDIA dans toutes les juridictions, avec bande passante illimitée sur toutes les offres. Les prix varient selon la juridiction — Iceland est l'option la moins carbonée, Moldova la moins chère.
| Offre | GPU | VRAM | CPU | RAM | NVMe | Bande passante | Prix | |
|---|---|---|---|---|---|---|---|---|
| IS-S | 1× NVIDIA RTX 4090 | 24 GB GDDR6X | 12 vCPU | 64 GB DDR5 | 1 TB NVMe | Illimité | $299/mo | Commander |
| IS-M Populaire | 1× NVIDIA RTX 5090 | 32 GB GDDR7 | 16 vCPU | 96 GB DDR5 | 1.5 TB NVMe | Illimité | $479/mo | Commander |
| IS-L | 1× NVIDIA H100 SXM5 | 80 GB HBM3 | 24 vCPU | 192 GB DDR5 | 2 TB NVMe | Illimité | $1849/mo | Commander |
| IS-XL | 2× NVIDIA H100 SXM5 | 160 GB HBM3 | 32 vCPU | 384 GB DDR5 | 4 TB NVMe | Illimité | $3499/mo | Commander |
| Offre | GPU | VRAM | CPU | RAM | NVMe | Bande passante | Prix | |
|---|---|---|---|---|---|---|---|---|
| MD-S | 1× NVIDIA RTX 4090 | 24 GB GDDR6X | 12 vCPU | 64 GB DDR5 | 1 TB NVMe | Illimité | $249/mo | Commander |
| MD-M Populaire | 1× NVIDIA RTX 5090 | 32 GB GDDR7 | 16 vCPU | 96 GB DDR5 | 1.5 TB NVMe | Illimité | $399/mo | Commander |
| MD-L | 1× NVIDIA H100 SXM5 | 80 GB HBM3 | 24 vCPU | 192 GB DDR5 | 2 TB NVMe | Illimité | $1699/mo | Commander |
| MD-XL | 2× NVIDIA H100 SXM5 | 160 GB HBM3 | 32 vCPU | 384 GB DDR5 | 4 TB NVMe | Illimité | $3199/mo | Commander |
| Offre | GPU | VRAM | CPU | RAM | NVMe | Bande passante | Prix | |
|---|---|---|---|---|---|---|---|---|
| RO-S | 1× NVIDIA RTX 4090 | 24 GB GDDR6X | 12 vCPU | 64 GB DDR5 | 1 TB NVMe | Illimité | $269/mo | Commander |
| RO-M Populaire | 1× NVIDIA RTX 5090 | 32 GB GDDR7 | 16 vCPU | 96 GB DDR5 | 1.5 TB NVMe | Illimité | $429/mo | Commander |
| RO-L | 1× NVIDIA H100 SXM5 | 80 GB HBM3 | 24 vCPU | 192 GB DDR5 | 2 TB NVMe | Illimité | $1749/mo | Commander |
| RO-XL | 2× NVIDIA H100 SXM5 | 160 GB HBM3 | 32 vCPU | 384 GB DDR5 | 4 TB NVMe | Illimité | $3299/mo | Commander |
| Offre | GPU | VRAM | CPU | RAM | NVMe | Bande passante | Prix | |
|---|---|---|---|---|---|---|---|---|
| NL-S | 1× NVIDIA RTX 4090 | 24 GB GDDR6X | 12 vCPU | 64 GB DDR5 | 1 TB NVMe | Illimité | $279/mo | Commander |
| NL-M Populaire | 1× NVIDIA RTX 5090 | 32 GB GDDR7 | 16 vCPU | 96 GB DDR5 | 1.5 TB NVMe | Illimité | $449/mo | Commander |
| NL-L | 1× NVIDIA H100 SXM5 | 80 GB HBM3 | 24 vCPU | 192 GB DDR5 | 2 TB NVMe | Illimité | $1799/mo | Commander |
| NL-XL | 2× NVIDIA H100 SXM5 | 160 GB HBM3 | 32 vCPU | 384 GB DDR5 | 4 TB NVMe | Illimité | $3399/mo | Commander |
L'hébergement GPU est disponible dans 4 juridictions au lancement (Iceland, Netherlands, Romania, Moldova). Russia est exclue en raison des sanctions d'exportation NVIDIA ; Switzerland et Panama restent Linux uniquement pour l'instant.
CUDA 12.4/12.6 + cuDNN préinstallés. Démarrez, connectez-vous en SSH, exécutez nvidia-smi.
De la commande payée à la sortie nvidia-smi en moins de 60 secondes.
Jusqu'à 4 TB NVMe SSD, associé à la DDR5 RAM pour des I/O de jeux de données rapides.
SSH root complet, plus JupyterLab pré-lié sur le port 8888 avec authentification par token.
Finetuning Llama, Mistral, Qwen, DeepSeek avec LoRA / QLoRA / FT complet sur H100. Ou inférence auto-hébergée avec vLLM / TGI / Ollama pour la mise en production de modèles.
Stable Diffusion, FLUX.1, SDXL avec ComfyUI ou Forge. Entraînez votre propre LoRA, générez en lot à grande échelle ou auto-hébergez un endpoint d'inférence.
OpenSora, CogVideoX, Wan-2.1, AnimateDiff. La génération vidéo nécessite une VRAM conséquente — commencez avec RTX 5090 (32 GB) ou H100 (80 GB).
Déployez des modèles affinés derrière votre propre API. Coûts prévisibles, pas de frais par token, données restant dans votre juridiction. JupyterLab + FastAPI inclus.
Cochez les options souhaitées à la commande et votre serveur GPU démarre avec la stack déjà installée, configurée et lancée via systemd. Ajoutez des modèles pré-téléchargés ci-dessous pour éviter également le téléchargement HuggingFace de 30-60 min.
Production-grade LLM serving with continuous batching and paged attention. Exposes an /v1/completions endpoint compatible with the OpenAI SDK.
Self-hosted ChatGPT-style web UI. Pulls Ollama-native quantized weights; easiest path to "talk to my LLM in a browser".
Gradio UI with broad backend support — Transformers, ExLlamaV2, llama.cpp, AWQ, GPTQ. Power-user choice for benchmarking quantizations.
HuggingFace Text Generation Inference — production server with token streaming, tensor parallelism, paged attention.
YAML-config driven finetuning. Supports LoRA, QLoRA, full FT, DPO, ORPO. Pre-cloned to /opt/axolotl with starter configs for Llama / Qwen / Mistral.
2× faster + 70% less VRAM finetuning via custom Triton kernels. Ideal for budget runs on RTX 4090. Pre-installed in /opt/unsloth.
WebUI-driven finetuning platform. SFT / RLHF / DPO / KTO. Good entry point for non-coders who want to finetune on a UI.
Node-graph image-gen interface, ships with FLUX.1-schnell + Kontext workflows. Power-user image generation pipeline.
The mainstream Stable Diffusion WebUI. Stable Diffusion 3.5 + extensions ecosystem. Familiar UI for users coming from civitai.
A1111 fork optimized for FLUX, faster sampling, lower VRAM. Drop-in replacement for users coming from Auto1111.
GUI for training Stable Diffusion / FLUX LoRA, DreamBooth, textual inversion. Trains a custom-style LoRA on RTX 4090 in 30-90 min.
ComfyUI with video-gen workflows preloaded — Wan 2.2 T2V, HunyuanVideo, LTX-Video. Needs 40+ GB VRAM for usable speed at 720p.
Lightweight video workflows — CogVideoX-5B, Wan 2.1 1.3B, LTX-Video. Runs on a single RTX 4090.
OpenAI Whisper Large v3 Turbo with faster-whisper backend behind a /transcribe HTTP API. 8× faster than v3, 99 langs, real-time on any GPU.
Multi-model TTS endpoint serving Kokoro 82M (54 voices, 8 langs) and Sesame CSM-1B (conversational with context). REST + WebSocket streaming.
Always installed. PyTorch 2.5 + CUDA 12.4 + Transformers + diffusers + accelerate + bitsandbytes + xformers + flash-attn. The universal AI dev baseline.
VSCode running in your browser, full Python/IPython/extensions. For users who prefer IDE workflow over notebooks.
Combinez plusieurs stacks sur le même GPU — le script de déploiement résout les conflits de dépendances et assigne des ports non-conflictuels.
Cochez les modèles nécessaires à la commande et ils sont mis en cache dans /root/.cache/huggingface avant votre connexion. 🔒 Les modèles Gated (Llama, Mistral, Gemma, FLUX-dev, SD 3.5) nécessitent votre token HuggingFace (également demandé à la commande).
| Modèle | HuggingFace | Taille | VRAM min | Niveau GPU min | Type |
|---|---|---|---|---|---|
| Llama 3.3 70B Instruct 🔒 Restreint | meta-llama/Llama-3.3-70B-Instruct |
140 GB | 160 GB | GPU-L | LLM |
| Qwen3 32B | Qwen/Qwen3-32B |
64 GB | 80 GB | GPU-L | LLM |
| Qwen3 14B | Qwen/Qwen3-14B |
28 GB | 32 GB | GPU-S | LLM |
| Qwen3 8B | Qwen/Qwen3-8B |
16 GB | 20 GB | GPU-S | LLM |
| DeepSeek-R1 Distill Qwen 32B | deepseek-ai/DeepSeek-R1-Distill-Qwen-32B |
64 GB | 80 GB | GPU-S | LLM |
| DeepSeek-R1 Distill Llama 70B | deepseek-ai/DeepSeek-R1-Distill-Llama-70B |
140 GB | 160 GB | GPU-S | LLM |
| Mistral Small 3.2 24B (multimodal) | mistralai/Mistral-Small-3.2-24B-Instruct-2506 |
48 GB | 60 GB | GPU-S | LLM |
| Gemma 3 27B (multimodal) 🔒 Restreint | google/gemma-3-27b-it |
54 GB | 64 GB | GPU-L | LLM |
| Gemma 3 12B (multimodal) 🔒 Restreint | google/gemma-3-12b-it |
24 GB | 28 GB | GPU-S | LLM |
| Phi-4 (14B) | microsoft/phi-4 |
28 GB | 32 GB | GPU-S | LLM |
| Phi-4 Mini Instruct (3.8B) | microsoft/Phi-4-mini-instruct |
8 GB | 10 GB | GPU-S | LLM |
| FLUX.1 [dev] 🔒 Restreint | black-forest-labs/FLUX.1-dev |
24 GB | 24 GB | GPU-S | Image |
| FLUX.1 [schnell] | black-forest-labs/FLUX.1-schnell |
24 GB | 24 GB | GPU-S | Image |
| FLUX.1 Kontext [dev] (image editing) 🔒 Restreint | black-forest-labs/FLUX.1-Kontext-dev |
24 GB | 24 GB | GPU-S | Image |
| Stable Diffusion 3.5 Large 🔒 Restreint | stabilityai/stable-diffusion-3.5-large |
16 GB | 18 GB | GPU-S | Image |
| Stable Diffusion 3.5 Medium 🔒 Restreint | stabilityai/stable-diffusion-3.5-medium |
5 GB | 10 GB | GPU-S | Image |
| HiDream-I1 Full | HiDream-ai/HiDream-I1-Full |
34 GB | 40 GB | GPU-S | Image |
| Wan 2.2 T2V A14B | Wan-AI/Wan2.2-T2V-A14B |
28 GB | 40 GB | GPU-S | Vidéo |
| Wan 2.1 T2V 1.3B (low VRAM) | Wan-AI/Wan2.1-T2V-1.3B |
3 GB | 8 GB | GPU-S | Vidéo |
| HunyuanVideo 1.5 (8.3B) | tencent/HunyuanVideo-1.5 |
17 GB | 24 GB | GPU-S | Vidéo |
| LTX-Video 0.9.8 13B | Lightricks/LTX-Video |
26 GB | 24 GB | GPU-S | Vidéo |
| CogVideoX-5B | zai-org/CogVideoX-5b |
10 GB | 16 GB | GPU-S | Vidéo |
| Whisper Large v3 Turbo | openai/whisper-large-v3-turbo |
2 GB | 4 GB | GPU-S | Audio |
| Whisper Large v3 | openai/whisper-large-v3 |
3 GB | 6 GB | GPU-S | Audio |
| Kokoro 82M (TTS) | hexgrad/Kokoro-82M |
1 GB | 2 GB | GPU-S | Audio |
| Sesame CSM-1B (conversational TTS) | sesame/csm-1b |
2 GB | 6 GB | GPU-S | Audio |
| Stable Audio Open 1.0 🔒 Restreint | stabilityai/stable-audio-open-1.0 |
3 GB | 8 GB | GPU-S | Audio |
Les tailles sont des poids FP16. Pour RTX 4090 (24 Go VRAM) avec les modèles 70B, la variante quantifiée AWQ est téléchargée automatiquement en parallèle.
Paiement crypto uniquement, Monero natif, inscription par token uniquement, stacks IA pré-installées, modèles HuggingFace pré-téléchargés, tokens HF chiffrés, endpoints Let's Encrypt automatiques, bande passante illimitée et 100 % d'énergie renouvelable en Islande — lisez la ligne « ServPrivacy » et jugez par vous-même.
| Fonctionnalité | ServPrivacy | Vast.ai | RunPod | Paperspace | Lambda | TensorDock |
|---|---|---|---|---|---|---|
| Paiement crypto uniquement | ✅ 14 chains | ⚠️ BTC | ⚠️ Gateway | ❌ | ❌ | ⚠️ BTC/ETH/USDT |
| Monero (XMR) natif | ✅ | ❌ | ❌ | ❌ | ❌ | ❌ |
| Sans KYC, sans email | ✅ Token-only | ⚠️ Email + ID for trust | ⚠️ Email + payment | ❌ Full KYC | ❌ Enterprise KYC | ⚠️ Email + light KYC |
| Stacks IA pré-installées | ✅ 17 templates | ⚠️ Docker BYO | ✅ 100+ | ⚠️ Notebooks only | ⚠️ Lambda Stack only | ⚠️ Docker BYO |
| Modèles pré-téléchargés à la commande | ✅ 27 models | ❌ | ❌ | ❌ | ❌ | ❌ |
| Token HuggingFace à la commande | ✅ Encrypted, used once | ❌ | ❌ | ❌ | ❌ | ❌ |
| Clé SSH à la commande | ✅ | ✅ | ✅ | ⚠️ | ✅ | ⚠️ |
| Minuterie d'arrêt automatique | ✅ 6h-7d | ✅ | ⚠️ Spot only | ❌ | ❌ | ❌ |
| Endpoint HTTPS public (Let's Encrypt) | ✅ Auto | ⚠️ Manual | ✅ Pods | ✅ | ❌ | ⚠️ Manual |
| Bande passante illimitée | ✅ | ⚠️ Per host | ⚠️ Capped | ⚠️ Capped | ⚠️ Capped | ⚠️ Per host |
| Datacenter énergie renouvelable | ✅ Iceland 100% geo+hydro | ❌ Variable | ⚠️ US grid | ⚠️ US grid | ⚠️ US grid | ⚠️ Variable |
| Juridiction offshore | ✅ IS / NL / RO / MD | ❌ Distributed P2P | ❌ US-centric | ❌ US | ❌ US-only | ⚠️ Multi-region |
| Mode simulation sandbox | ✅ ?dry_run=1 | ⚠️ Trial credit | ⚠️ Limited | ⚠️ Free GPU tier | ❌ | ❌ |
| Agent IA / MCP natif | ✅ MCP + REST + x402 | ⚠️ REST | ⚠️ REST | ⚠️ REST | ⚠️ REST | ⚠️ REST |
| RTX 4090 entrée / mois | $249 | ~$216 spot | ~$396 on-demand | n/a | n/a | ~$252 spot |
Données de comparaison issues des pages de tarification publiques 2026-05 et des flux d'inscription des concurrents. L'offre d'entrée ServPrivacy RTX 4090 = 249 $/mois en Moldavie ; les prix « spot » des concurrents sont des tarifs moyens pour du matériel équivalent.
Passthrough matériel complet. Vous obtenez la carte NVIDIA physique entière avec accès direct à la VRAM — pas une tranche vGPU, pas une partition MIG partagée dans le temps. nvidia-smi dans votre VM affiche les mêmes chiffres que l'hôte bare-metal. Accès pilote complet, CUDA complet, pile PyTorch / TensorFlow complète — sans réservations SR-IOV.
Image par défaut : Ubuntu 22.04 + CUDA 12.4 + cuDNN 9 + pilote NVIDIA 550. Autres images prêtes à l'emploi : Ubuntu 24.04 + CUDA 12.6, Ubuntu 22 + PyTorch 2.5, Ubuntu 22 + ComfyUI + Flux, Ubuntu 22 + Ollama + Open WebUI. Ubuntu / Debian / AlmaLinux / Rocky vanilla également proposés si vous souhaitez installer votre propre pile. Vous pouvez changer les versions de pilotes à tout moment en tant que root complet.
Oui. Beaucoup de nos clients GPU font tourner des API d'inférence publiques sur vLLM / TGI / FastAPI. Les serveurs GPU sont livrés avec root complet, une facturation mensuelle prévisible (sans surprises par token) et une IP juridictionnelle fixe. La bande passante est illimitée sur toutes les offres GPU, vous pouvez donc servir des endpoints publics à fort trafic sans surveiller de compteurs ni payer de frais de dépassement.
Les cartes NVIDIA H100, A100 et RTX haut de gamme (4090 et au-dessus) sont soumises aux contrôles à l'exportation du Département du Commerce américain (15 CFR Part 744) et aux réglementations dual-use de l'UE qui interdisent leur expédition vers des datacenters russes. Nous ne les provisionnons pas en Russia afin de rester conformes aux contrôles applicables à notre chaîne d'approvisionnement. Si vous avez besoin de Linux VPS ou Dédié offshore en Russia, ces gammes de produits ne sont pas affectées.
Les datacenters d'Iceland fonctionnent à 100 % à l'énergie renouvelable géothermique et hydroélectrique, et la température ambiante froide réduit significativement la charge de refroidissement des boîtiers H100 qui consomment 700 W chacun sous charge soutenue. Le résultat : le calcul GPU offshore le moins carboné du marché. Le prix premium couvre le coût plus élevé des datacenters en Iceland et le sourcing d'énergie plus propre — pour les équipes IA soucieuses de l'ESG, c'est la seule réponse offshore crédible.
Oui — le niveau GPU-XL est 2× H100 SXM5 avec interconnexion NVLink dans un seul boîtier, idéal pour FSDP / DeepSpeed Zero-3 / DDP sur la même machine. Pour l'entraînement multi-nœuds, vous pouvez louer plusieurs serveurs GPU-XL dans le même datacenter et les connecter via la liaison montante 10 Gbps. Nous n'expédions pas encore de nœuds cluster 8× H100 — contactez-nous si votre cycle d'entraînement nécessite davantage de capacité.
Choisissez votre juridiction, votre GPU NVIDIA, payez avec l'une des 14 cryptos. JupyterLab en direct en moins de 60 secondes. Sans KYC, sans email, sans téléphone — juste un token.
Voir les offres GPU