CUDA 12
CUDA 12.4/12.6 + cuDNN vorinstalliert. Booten, SSH einloggen, nvidia-smi ausführen.
NVIDIA RTX 4090, RTX 5090 und H100 SXM5 GPU-Server für KI-Training, Inferenz, Bild- und Videogenerierung. CUDA 12 und cuDNN vorinstalliert, plus PyTorch / ComfyUI / Ollama Image-Presets, die per SSH sofort einsatzbereit sind. Threadripper Pro Hosts auf H100-Tiers für volle PCIe Gen 5 Lane-Anzahl. Verfügbar in 4 Offshore-Jurisdiktionen, kein KYC, Krypto-only-Zahlung in 14 Chains inklusive Monero.
Gleiche NVIDIA-Hardware in allen Jurisdiktionen mit unbegrenzter Bandbreite bei jedem Plan. Preise variieren je nach Jurisdiktion — Iceland ist die kohlenstoffärmste Option, Moldova die günstigste.
| Tarif | GPU | VRAM | CPU | RAM | NVMe | Bandbreite | Preis | |
|---|---|---|---|---|---|---|---|---|
| IS-S | 1× NVIDIA RTX 4090 | 24 GB GDDR6X | 12 vCPU | 64 GB DDR5 | 1 TB NVMe | Unbegrenzt | $299/mo | Bestellen |
| IS-M Beliebt | 1× NVIDIA RTX 5090 | 32 GB GDDR7 | 16 vCPU | 96 GB DDR5 | 1.5 TB NVMe | Unbegrenzt | $479/mo | Bestellen |
| IS-L | 1× NVIDIA H100 SXM5 | 80 GB HBM3 | 24 vCPU | 192 GB DDR5 | 2 TB NVMe | Unbegrenzt | $1849/mo | Bestellen |
| IS-XL | 2× NVIDIA H100 SXM5 | 160 GB HBM3 | 32 vCPU | 384 GB DDR5 | 4 TB NVMe | Unbegrenzt | $3499/mo | Bestellen |
| Tarif | GPU | VRAM | CPU | RAM | NVMe | Bandbreite | Preis | |
|---|---|---|---|---|---|---|---|---|
| MD-S | 1× NVIDIA RTX 4090 | 24 GB GDDR6X | 12 vCPU | 64 GB DDR5 | 1 TB NVMe | Unbegrenzt | $249/mo | Bestellen |
| MD-M Beliebt | 1× NVIDIA RTX 5090 | 32 GB GDDR7 | 16 vCPU | 96 GB DDR5 | 1.5 TB NVMe | Unbegrenzt | $399/mo | Bestellen |
| MD-L | 1× NVIDIA H100 SXM5 | 80 GB HBM3 | 24 vCPU | 192 GB DDR5 | 2 TB NVMe | Unbegrenzt | $1699/mo | Bestellen |
| MD-XL | 2× NVIDIA H100 SXM5 | 160 GB HBM3 | 32 vCPU | 384 GB DDR5 | 4 TB NVMe | Unbegrenzt | $3199/mo | Bestellen |
| Tarif | GPU | VRAM | CPU | RAM | NVMe | Bandbreite | Preis | |
|---|---|---|---|---|---|---|---|---|
| RO-S | 1× NVIDIA RTX 4090 | 24 GB GDDR6X | 12 vCPU | 64 GB DDR5 | 1 TB NVMe | Unbegrenzt | $269/mo | Bestellen |
| RO-M Beliebt | 1× NVIDIA RTX 5090 | 32 GB GDDR7 | 16 vCPU | 96 GB DDR5 | 1.5 TB NVMe | Unbegrenzt | $429/mo | Bestellen |
| RO-L | 1× NVIDIA H100 SXM5 | 80 GB HBM3 | 24 vCPU | 192 GB DDR5 | 2 TB NVMe | Unbegrenzt | $1749/mo | Bestellen |
| RO-XL | 2× NVIDIA H100 SXM5 | 160 GB HBM3 | 32 vCPU | 384 GB DDR5 | 4 TB NVMe | Unbegrenzt | $3299/mo | Bestellen |
| Tarif | GPU | VRAM | CPU | RAM | NVMe | Bandbreite | Preis | |
|---|---|---|---|---|---|---|---|---|
| NL-S | 1× NVIDIA RTX 4090 | 24 GB GDDR6X | 12 vCPU | 64 GB DDR5 | 1 TB NVMe | Unbegrenzt | $279/mo | Bestellen |
| NL-M Beliebt | 1× NVIDIA RTX 5090 | 32 GB GDDR7 | 16 vCPU | 96 GB DDR5 | 1.5 TB NVMe | Unbegrenzt | $449/mo | Bestellen |
| NL-L | 1× NVIDIA H100 SXM5 | 80 GB HBM3 | 24 vCPU | 192 GB DDR5 | 2 TB NVMe | Unbegrenzt | $1799/mo | Bestellen |
| NL-XL | 2× NVIDIA H100 SXM5 | 160 GB HBM3 | 32 vCPU | 384 GB DDR5 | 4 TB NVMe | Unbegrenzt | $3399/mo | Bestellen |
GPU-Hosting ist zum Launch in 4 Jurisdiktionen verfügbar (Iceland, Netherlands, Romania, Moldova). Russia ist aufgrund der NVIDIA-Exportsanktionen ausgeschlossen; Switzerland und Panama sind vorerst auf Linux beschränkt.
CUDA 12.4/12.6 + cuDNN vorinstalliert. Booten, SSH einloggen, nvidia-smi ausführen.
Vom bezahlten Auftrag bis zur nvidia-smi-Ausgabe in unter 60 Sekunden.
Bis zu 4 TB NVMe SSD, kombiniert mit DDR5 RAM für schnellen Datensatz-I/O.
Vollständiges Root-SSH, plus vorgebundenes JupyterLab auf Port 8888 mit Token-Authentifizierung.
Llama, Mistral, Qwen, DeepSeek Finetuning mit LoRA / QLoRA / Full FT auf H100. Oder selbst gehostete Inferenz mit vLLM / TGI / Ollama für produktives Modell-Serving.
Stable Diffusion, FLUX.1, SDXL mit ComfyUI oder Forge. Eigenes LoRA trainieren, im Batch-Betrieb skaliert generieren oder einen Inferenz-Endpunkt selbst hosten.
OpenSora, CogVideoX, Wan-2.1, AnimateDiff. Videogenerierung erfordert ernsthaften VRAM — ab RTX 5090 (32 GB) oder H100 (80 GB) einsteigen.
Feinabgestimmte Modelle hinter der eigenen API deployen. Kalkulierbare Kosten, keine Per-Token-Gebühren, keine Daten, die Ihre Jurisdiktion verlassen. JupyterLab + FastAPI inklusive.
Beim Bestellen beliebige Templates auswählen — der GPU-Server startet mit bereits installiertem, konfiguriertem und per systemd gestartetem Stack. Vorgeladene Modelle unten aktivieren, um den 30–60-minütigen HuggingFace-Download zu überspringen.
Production-grade LLM serving with continuous batching and paged attention. Exposes an /v1/completions endpoint compatible with the OpenAI SDK.
Self-hosted ChatGPT-style web UI. Pulls Ollama-native quantized weights; easiest path to "talk to my LLM in a browser".
Gradio UI with broad backend support — Transformers, ExLlamaV2, llama.cpp, AWQ, GPTQ. Power-user choice for benchmarking quantizations.
HuggingFace Text Generation Inference — production server with token streaming, tensor parallelism, paged attention.
YAML-config driven finetuning. Supports LoRA, QLoRA, full FT, DPO, ORPO. Pre-cloned to /opt/axolotl with starter configs for Llama / Qwen / Mistral.
2× faster + 70% less VRAM finetuning via custom Triton kernels. Ideal for budget runs on RTX 4090. Pre-installed in /opt/unsloth.
WebUI-driven finetuning platform. SFT / RLHF / DPO / KTO. Good entry point for non-coders who want to finetune on a UI.
Node-graph image-gen interface, ships with FLUX.1-schnell + Kontext workflows. Power-user image generation pipeline.
The mainstream Stable Diffusion WebUI. Stable Diffusion 3.5 + extensions ecosystem. Familiar UI for users coming from civitai.
A1111 fork optimized for FLUX, faster sampling, lower VRAM. Drop-in replacement for users coming from Auto1111.
GUI for training Stable Diffusion / FLUX LoRA, DreamBooth, textual inversion. Trains a custom-style LoRA on RTX 4090 in 30-90 min.
ComfyUI with video-gen workflows preloaded — Wan 2.2 T2V, HunyuanVideo, LTX-Video. Needs 40+ GB VRAM for usable speed at 720p.
Lightweight video workflows — CogVideoX-5B, Wan 2.1 1.3B, LTX-Video. Runs on a single RTX 4090.
OpenAI Whisper Large v3 Turbo with faster-whisper backend behind a /transcribe HTTP API. 8× faster than v3, 99 langs, real-time on any GPU.
Multi-model TTS endpoint serving Kokoro 82M (54 voices, 8 langs) and Sesame CSM-1B (conversational with context). REST + WebSocket streaming.
Always installed. PyTorch 2.5 + CUDA 12.4 + Transformers + diffusers + accelerate + bitsandbytes + xformers + flash-attn. The universal AI dev baseline.
VSCode running in your browser, full Python/IPython/extensions. For users who prefer IDE workflow over notebooks.
Mehrere Stacks auf demselben GPU kombinieren — das Deploy-Skript löst Abhängigkeitskonflikte und vergibt kollisionsfreie Ports.
Gewünschte Modelle beim Bestellen auswählen — sie werden in /root/.cache/huggingface gecacht, bevor Sie sich einloggen. 🔒 Zugangsbeschränkte Modelle (Llama, Mistral, Gemma, FLUX-dev, SD 3.5) erfordern Ihren HuggingFace-Token (ebenfalls bei der Bestellung abgefragt).
| Modell | HuggingFace | Größe | Min. VRAM | Min. GPU-Klasse | Typ |
|---|---|---|---|---|---|
| Llama 3.3 70B Instruct 🔒 Zugangsbeschränkt | meta-llama/Llama-3.3-70B-Instruct |
140 GB | 160 GB | GPU-L | LLM |
| Qwen3 32B | Qwen/Qwen3-32B |
64 GB | 80 GB | GPU-L | LLM |
| Qwen3 14B | Qwen/Qwen3-14B |
28 GB | 32 GB | GPU-S | LLM |
| Qwen3 8B | Qwen/Qwen3-8B |
16 GB | 20 GB | GPU-S | LLM |
| DeepSeek-R1 Distill Qwen 32B | deepseek-ai/DeepSeek-R1-Distill-Qwen-32B |
64 GB | 80 GB | GPU-S | LLM |
| DeepSeek-R1 Distill Llama 70B | deepseek-ai/DeepSeek-R1-Distill-Llama-70B |
140 GB | 160 GB | GPU-S | LLM |
| Mistral Small 3.2 24B (multimodal) | mistralai/Mistral-Small-3.2-24B-Instruct-2506 |
48 GB | 60 GB | GPU-S | LLM |
| Gemma 3 27B (multimodal) 🔒 Zugangsbeschränkt | google/gemma-3-27b-it |
54 GB | 64 GB | GPU-L | LLM |
| Gemma 3 12B (multimodal) 🔒 Zugangsbeschränkt | google/gemma-3-12b-it |
24 GB | 28 GB | GPU-S | LLM |
| Phi-4 (14B) | microsoft/phi-4 |
28 GB | 32 GB | GPU-S | LLM |
| Phi-4 Mini Instruct (3.8B) | microsoft/Phi-4-mini-instruct |
8 GB | 10 GB | GPU-S | LLM |
| FLUX.1 [dev] 🔒 Zugangsbeschränkt | black-forest-labs/FLUX.1-dev |
24 GB | 24 GB | GPU-S | Bild |
| FLUX.1 [schnell] | black-forest-labs/FLUX.1-schnell |
24 GB | 24 GB | GPU-S | Bild |
| FLUX.1 Kontext [dev] (image editing) 🔒 Zugangsbeschränkt | black-forest-labs/FLUX.1-Kontext-dev |
24 GB | 24 GB | GPU-S | Bild |
| Stable Diffusion 3.5 Large 🔒 Zugangsbeschränkt | stabilityai/stable-diffusion-3.5-large |
16 GB | 18 GB | GPU-S | Bild |
| Stable Diffusion 3.5 Medium 🔒 Zugangsbeschränkt | stabilityai/stable-diffusion-3.5-medium |
5 GB | 10 GB | GPU-S | Bild |
| HiDream-I1 Full | HiDream-ai/HiDream-I1-Full |
34 GB | 40 GB | GPU-S | Bild |
| Wan 2.2 T2V A14B | Wan-AI/Wan2.2-T2V-A14B |
28 GB | 40 GB | GPU-S | Video |
| Wan 2.1 T2V 1.3B (low VRAM) | Wan-AI/Wan2.1-T2V-1.3B |
3 GB | 8 GB | GPU-S | Video |
| HunyuanVideo 1.5 (8.3B) | tencent/HunyuanVideo-1.5 |
17 GB | 24 GB | GPU-S | Video |
| LTX-Video 0.9.8 13B | Lightricks/LTX-Video |
26 GB | 24 GB | GPU-S | Video |
| CogVideoX-5B | zai-org/CogVideoX-5b |
10 GB | 16 GB | GPU-S | Video |
| Whisper Large v3 Turbo | openai/whisper-large-v3-turbo |
2 GB | 4 GB | GPU-S | Audio |
| Whisper Large v3 | openai/whisper-large-v3 |
3 GB | 6 GB | GPU-S | Audio |
| Kokoro 82M (TTS) | hexgrad/Kokoro-82M |
1 GB | 2 GB | GPU-S | Audio |
| Sesame CSM-1B (conversational TTS) | sesame/csm-1b |
2 GB | 6 GB | GPU-S | Audio |
| Stable Audio Open 1.0 🔒 Zugangsbeschränkt | stabilityai/stable-audio-open-1.0 |
3 GB | 8 GB | GPU-S | Audio |
Größen beziehen sich auf FP16-Gewichte. Für RTX 4090 (24 GB VRAM) bei 70B-Modellen wird die AWQ-quantisierte Variante parallel heruntergeladen.
Nur Krypto-Zahlung, natives Monero, tokenbasierte Anmeldung, vorinstallierte AI-Stacks, vorgeladene HuggingFace-Modelle, verschlüsselte HF-Tokens, automatische Let's Encrypt-Endpunkte, unbegrenzte Bandbreite und 100 % Erneuerbare Energie in Island — lesen Sie die Zeile „ServPrivacy" und urteilen Sie selbst.
| Merkmal | ServPrivacy | Vast.ai | RunPod | Paperspace | Lambda | TensorDock |
|---|---|---|---|---|---|---|
| Nur Krypto-Zahlung | ✅ 14 chains | ⚠️ BTC | ⚠️ Gateway | ❌ | ❌ | ⚠️ BTC/ETH/USDT |
| Natives Monero (XMR) | ✅ | ❌ | ❌ | ❌ | ❌ | ❌ |
| Kein KYC, keine E-Mail-Registrierung | ✅ Token-only | ⚠️ Email + ID for trust | ⚠️ Email + payment | ❌ Full KYC | ❌ Enterprise KYC | ⚠️ Email + light KYC |
| Vorinstallierte AI-Stacks | ✅ 17 templates | ⚠️ Docker BYO | ✅ 100+ | ⚠️ Notebooks only | ⚠️ Lambda Stack only | ⚠️ Docker BYO |
| Vorgeladene Modelle bei Bestellung | ✅ 27 models | ❌ | ❌ | ❌ | ❌ | ❌ |
| HuggingFace-Token bei Bestellung | ✅ Encrypted, used once | ❌ | ❌ | ❌ | ❌ | ❌ |
| SSH-Schlüssel bei Bestellung | ✅ | ✅ | ✅ | ⚠️ | ✅ | ⚠️ |
| Auto-Shutdown-Timer | ✅ 6h-7d | ✅ | ⚠️ Spot only | ❌ | ❌ | ❌ |
| Öffentlicher HTTPS-Endpunkt (Let's Encrypt) | ✅ Auto | ⚠️ Manual | ✅ Pods | ✅ | ❌ | ⚠️ Manual |
| Unbegrenzte Bandbreite | ✅ | ⚠️ Per host | ⚠️ Capped | ⚠️ Capped | ⚠️ Capped | ⚠️ Per host |
| Rechenzentrum mit erneuerbarer Energie | ✅ Iceland 100% geo+hydro | ❌ Variable | ⚠️ US grid | ⚠️ US grid | ⚠️ US grid | ⚠️ Variable |
| Offshore-Jurisdiktion | ✅ IS / NL / RO / MD | ❌ Distributed P2P | ❌ US-centric | ❌ US | ❌ US-only | ⚠️ Multi-region |
| Sandbox-Testmodus | ✅ ?dry_run=1 | ⚠️ Trial credit | ⚠️ Limited | ⚠️ Free GPU tier | ❌ | ❌ |
| AI-Agent / MCP-First | ✅ MCP + REST + x402 | ⚠️ REST | ⚠️ REST | ⚠️ REST | ⚠️ REST | ⚠️ REST |
| Einstieg RTX 4090 / Monat | $249 | ~$216 spot | ~$396 on-demand | n/a | n/a | ~$252 spot |
Vergleichsdaten aus den öffentlichen Preisseiten und Anmeldeabläufen der Mitbewerber (Stand 2026-05). ServPrivacy Einstieg RTX 4090 = 249 $/Monat Moldawien; „Spot"-Preise der Mitbewerber sind Durchschnittspreise für gleichwertige Hardware.
Vollständiger Hardware-Passthrough. Sie erhalten die gesamte physische NVIDIA-Karte mit direktem VRAM-Zugriff — keine vGPU-Scheibe, keine zeitgeteilte MIG-Partition. nvidia-smi innerhalb Ihrer VM zeigt dieselben Werte wie der Bare-Metal-Host. Vollständiger Treiber-Zugriff, volles CUDA, vollständiger PyTorch / TensorFlow Stack — keine SR-IOV-Reservierungen.
Standard-Image: Ubuntu 22.04 + CUDA 12.4 + cuDNN 9 + NVIDIA Treiber 550. Weitere sofort einsatzbereite Images: Ubuntu 24.04 + CUDA 12.6, Ubuntu 22 + PyTorch 2.5, Ubuntu 22 + ComfyUI + Flux, Ubuntu 22 + Ollama + Open WebUI. Vanilla Ubuntu / Debian / AlmaLinux / Rocky ebenfalls verfügbar, wenn Sie Ihren eigenen Stack installieren möchten. Treiber-Versionen können jederzeit als vollständiger Root gewechselt werden.
Ja. Viele unserer GPU-Kunden betreiben öffentliche Inferenz-APIs auf vLLM / TGI / FastAPI. Die GPU-Server kommen mit vollem Root, kalkulierbarer monatlicher Abrechnung (keine Per-Token-Überraschungen) und einer festen jurisdiktionellen IP. Die Bandbreite ist bei jedem GPU-Plan unbegrenzt, sodass Sie hochfrequente öffentliche Endpunkte ohne Zählerüberwachung oder Überschreitungsgebühren bedienen können.
NVIDIA H100, A100 und High-End RTX-Karten (4090 und höher) unterliegen den US-Exportkontrollen des Department of Commerce (15 CFR Part 744) und den EU-Dual-Use-Vorschriften, die den Versand an russische Rechenzentren untersagen. Wir stellen sie in Russia nicht bereit, um die für unsere Lieferkette geltenden Vorschriften einzuhalten. Wenn Sie Offshore Linux VPS oder Dedicated in Russia benötigen, sind diese Produktlinien davon nicht betroffen.
Iceland Rechenzentren laufen mit 100 % erneuerbarer geothermaler und hydroelektrischer Energie, und die kühle Umgebungstemperatur reduziert den Kühlaufwand bei H100-Boxen, die unter Dauerlast je 700 W ziehen, erheblich. Das Ergebnis ist die kohlenstoffärmste Offshore-GPU-Compute-Leistung auf dem Markt. Der Premium-Preis deckt die höheren Rechenzentrumskosten in Iceland und die sauberere Energiebeschaffung ab — für ESG-bewusste KI-Teams die einzig glaubwürdige Offshore-Antwort.
Ja — der GPU-XL-Tier ist 2× H100 SXM5 mit NVLink Interconnect in einer Box, ideal für FSDP / DeepSpeed Zero-3 / DDP auf derselben Maschine. Für Multi-Node-Training können Sie mehrere GPU-XL-Server im selben Rechenzentrum mieten und über den 10 Gbps Uplink verbinden. 8× H100 Cluster-Knoten werden noch nicht angeboten — kontaktieren Sie uns, wenn Ihr Training mehr Skalierung erfordert.
Jurisdiktion wählen, NVIDIA GPU wählen, in einer von 14 Kryptowährungen bezahlen. JupyterLab live in unter 60 Sekunden. Kein KYC, keine E-Mail, kein Telefon — nur ein Token.
GPU-Pläne ansehen