Startseite / GPU AI Hosting
RTX 4090 · RTX 5090 · H100 SXM5 · CUDA 12

Offshore GPU AI Hosting

NVIDIA RTX 4090, RTX 5090 und H100 SXM5 GPU-Server für KI-Training, Inferenz, Bild- und Videogenerierung. CUDA 12 und cuDNN vorinstalliert, plus PyTorch / ComfyUI / Ollama Image-Presets, die per SSH sofort einsatzbereit sind. Threadripper Pro Hosts auf H100-Tiers für volle PCIe Gen 5 Lane-Anzahl. Verfügbar in 4 Offshore-Jurisdiktionen, kein KYC, Krypto-only-Zahlung in 14 Chains inklusive Monero.

Kein KYC
Nur Krypto
CUDA 12
NVMe SSD
Voller Root-Zugriff
Monero accepted
Alle GPU-Pläne

GPU-Pläne nach Standort

Gleiche NVIDIA-Hardware in allen Jurisdiktionen mit unbegrenzter Bandbreite bei jedem Plan. Preise variieren je nach Jurisdiktion — Iceland ist die kohlenstoffärmste Option, Moldova die günstigste.

Island Hafen der Meinungsfreiheit

TarifGPUVRAMCPURAMNVMeBandbreitePreis
IS-S 1× NVIDIA RTX 4090 24 GB GDDR6X 12 vCPU 64 GB DDR5 1 TB NVMe Unbegrenzt $299/mo Bestellen
IS-M Beliebt 1× NVIDIA RTX 5090 32 GB GDDR7 16 vCPU 96 GB DDR5 1.5 TB NVMe Unbegrenzt $479/mo Bestellen
IS-L 1× NVIDIA H100 SXM5 80 GB HBM3 24 vCPU 192 GB DDR5 2 TB NVMe Unbegrenzt $1849/mo Bestellen
IS-XL 2× NVIDIA H100 SXM5 160 GB HBM3 32 vCPU 384 GB DDR5 4 TB NVMe Unbegrenzt $3499/mo Bestellen

Moldau Budget-Offshore

TarifGPUVRAMCPURAMNVMeBandbreitePreis
MD-S 1× NVIDIA RTX 4090 24 GB GDDR6X 12 vCPU 64 GB DDR5 1 TB NVMe Unbegrenzt $249/mo Bestellen
MD-M Beliebt 1× NVIDIA RTX 5090 32 GB GDDR7 16 vCPU 96 GB DDR5 1.5 TB NVMe Unbegrenzt $399/mo Bestellen
MD-L 1× NVIDIA H100 SXM5 80 GB HBM3 24 vCPU 192 GB DDR5 2 TB NVMe Unbegrenzt $1699/mo Bestellen
MD-XL 2× NVIDIA H100 SXM5 160 GB HBM3 32 vCPU 384 GB DDR5 4 TB NVMe Unbegrenzt $3199/mo Bestellen

Rumänien Anti-Vorratsdatenspeicherung

TarifGPUVRAMCPURAMNVMeBandbreitePreis
RO-S 1× NVIDIA RTX 4090 24 GB GDDR6X 12 vCPU 64 GB DDR5 1 TB NVMe Unbegrenzt $269/mo Bestellen
RO-M Beliebt 1× NVIDIA RTX 5090 32 GB GDDR7 16 vCPU 96 GB DDR5 1.5 TB NVMe Unbegrenzt $429/mo Bestellen
RO-L 1× NVIDIA H100 SXM5 80 GB HBM3 24 vCPU 192 GB DDR5 2 TB NVMe Unbegrenzt $1749/mo Bestellen
RO-XL 2× NVIDIA H100 SXM5 160 GB HBM3 32 vCPU 384 GB DDR5 4 TB NVMe Unbegrenzt $3299/mo Bestellen

Niederlande Bestes Peering

TarifGPUVRAMCPURAMNVMeBandbreitePreis
NL-S 1× NVIDIA RTX 4090 24 GB GDDR6X 12 vCPU 64 GB DDR5 1 TB NVMe Unbegrenzt $279/mo Bestellen
NL-M Beliebt 1× NVIDIA RTX 5090 32 GB GDDR7 16 vCPU 96 GB DDR5 1.5 TB NVMe Unbegrenzt $449/mo Bestellen
NL-L 1× NVIDIA H100 SXM5 80 GB HBM3 24 vCPU 192 GB DDR5 2 TB NVMe Unbegrenzt $1799/mo Bestellen
NL-XL 2× NVIDIA H100 SXM5 160 GB HBM3 32 vCPU 384 GB DDR5 4 TB NVMe Unbegrenzt $3399/mo Bestellen

GPU-Hosting ist zum Launch in 4 Jurisdiktionen verfügbar (Iceland, Netherlands, Romania, Moldova). Russia ist aufgrund der NVIDIA-Exportsanktionen ausgeschlossen; Switzerland und Panama sind vorerst auf Linux beschränkt.

In jedem GPU-Server enthalten

CUDA 12

CUDA 12.4/12.6 + cuDNN vorinstalliert. Booten, SSH einloggen, nvidia-smi ausführen.

Bereitstellung in 60 Sekunden

Vom bezahlten Auftrag bis zur nvidia-smi-Ausgabe in unter 60 Sekunden.

NVMe SSD

Bis zu 4 TB NVMe SSD, kombiniert mit DDR5 RAM für schnellen Datensatz-I/O.

SSH + Jupyter

Vollständiges Root-SSH, plus vorgebundenes JupyterLab auf Port 8888 mit Token-Authentifizierung.

Anwendungsfälle

What GPU AI Hosting is Used For

LLM-Finetuning & Inferenz

Llama, Mistral, Qwen, DeepSeek Finetuning mit LoRA / QLoRA / Full FT auf H100. Oder selbst gehostete Inferenz mit vLLM / TGI / Ollama für produktives Modell-Serving.

Bildgenerierung

Stable Diffusion, FLUX.1, SDXL mit ComfyUI oder Forge. Eigenes LoRA trainieren, im Batch-Betrieb skaliert generieren oder einen Inferenz-Endpunkt selbst hosten.

KI-Videogenerierung

OpenSora, CogVideoX, Wan-2.1, AnimateDiff. Videogenerierung erfordert ernsthaften VRAM — ab RTX 5090 (32 GB) oder H100 (80 GB) einsteigen.

Produktions-Inferenz

Feinabgestimmte Modelle hinter der eigenen API deployen. Kalkulierbare Kosten, keine Per-Token-Gebühren, keine Daten, die Ihre Jurisdiktion verlassen. JupyterLab + FastAPI inklusive.

1-Klick-Deployment

Vorinstallierte AI-Templates

Beim Bestellen beliebige Templates auswählen — der GPU-Server startet mit bereits installiertem, konfiguriertem und per systemd gestartetem Stack. Vorgeladene Modelle unten aktivieren, um den 30–60-minütigen HuggingFace-Download zu überspringen.

LLM-Inferenz

vLLM (OpenAI-compatible)

Production-grade LLM serving with continuous batching and paged attention. Exposes an /v1/completions endpoint compatible with the OpenAI SDK.

LLMOpenAI APIproduction +
LLM-Inferenz

Ollama + Open WebUI

Self-hosted ChatGPT-style web UI. Pulls Ollama-native quantized weights; easiest path to "talk to my LLM in a browser".

LLMchat UIbeginner +
LLM-Inferenz

text-generation-webui (Oobabooga)

Gradio UI with broad backend support — Transformers, ExLlamaV2, llama.cpp, AWQ, GPTQ. Power-user choice for benchmarking quantizations.

LLMmulti-backendpower user +
LLM-Inferenz

HuggingFace TGI

HuggingFace Text Generation Inference — production server with token streaming, tensor parallelism, paged attention.

LLMproductionHuggingFace +
Finetuning

Axolotl (LLM finetuning)

YAML-config driven finetuning. Supports LoRA, QLoRA, full FT, DPO, ORPO. Pre-cloned to /opt/axolotl with starter configs for Llama / Qwen / Mistral.

finetuneLoRAQLoRA +
Finetuning

Unsloth (2× faster finetune)

2× faster + 70% less VRAM finetuning via custom Triton kernels. Ideal for budget runs on RTX 4090. Pre-installed in /opt/unsloth.

finetunefastlow VRAM +
Finetuning

LLaMA-Factory

WebUI-driven finetuning platform. SFT / RLHF / DPO / KTO. Good entry point for non-coders who want to finetune on a UI.

finetuneGUI +
Bildgenerierung

ComfyUI + FLUX.1

Node-graph image-gen interface, ships with FLUX.1-schnell + Kontext workflows. Power-user image generation pipeline.

imageFLUXworkflow +
Bildgenerierung

Automatic1111 + SD 3.5

The mainstream Stable Diffusion WebUI. Stable Diffusion 3.5 + extensions ecosystem. Familiar UI for users coming from civitai.

imageSD 3.5 +
Bildgenerierung

Forge (faster A1111)

A1111 fork optimized for FLUX, faster sampling, lower VRAM. Drop-in replacement for users coming from Auto1111.

imageFLUXfast +
Bildgenerierung

Kohya SS (LoRA training)

GUI for training Stable Diffusion / FLUX LoRA, DreamBooth, textual inversion. Trains a custom-style LoRA on RTX 4090 in 30-90 min.

LoRA trainingimageGUI +
AI-Video

ComfyUI + Wan 2.2 / HunyuanVideo

ComfyUI with video-gen workflows preloaded — Wan 2.2 T2V, HunyuanVideo, LTX-Video. Needs 40+ GB VRAM for usable speed at 720p.

videoWan 2.2HunyuanVideo +
AI-Video

ComfyUI Video Lite (CogVideoX / LTX)

Lightweight video workflows — CogVideoX-5B, Wan 2.1 1.3B, LTX-Video. Runs on a single RTX 4090.

videoCogVideoXlow VRAM +
Audio

Whisper Large v3 Turbo server

OpenAI Whisper Large v3 Turbo with faster-whisper backend behind a /transcribe HTTP API. 8× faster than v3, 99 langs, real-time on any GPU.

audiospeech-to-textAPI +
Audio

TTS server (Kokoro + CSM-1B)

Multi-model TTS endpoint serving Kokoro 82M (54 voices, 8 langs) and Sesame CSM-1B (conversational with context). REST + WebSocket streaming.

audiotext-to-speechAPI +
Notebooks & Dev

JupyterLab + PyTorch baseline

Always installed. PyTorch 2.5 + CUDA 12.4 + Transformers + diffusers + accelerate + bitsandbytes + xformers + flash-attn. The universal AI dev baseline.

notebookbaselinealways-on +
Notebooks & Dev

code-server (VSCode in browser)

VSCode running in your browser, full Python/IPython/extensions. For users who prefer IDE workflow over notebooks.

IDEVSCodedev +

Mehrere Stacks auf demselben GPU kombinieren — das Deploy-Skript löst Abhängigkeitskonflikte und vergibt kollisionsfreie Ports.

Download überspringen

Vorgeladene Open-Weight-Modelle

Gewünschte Modelle beim Bestellen auswählen — sie werden in /root/.cache/huggingface gecacht, bevor Sie sich einloggen. 🔒 Zugangsbeschränkte Modelle (Llama, Mistral, Gemma, FLUX-dev, SD 3.5) erfordern Ihren HuggingFace-Token (ebenfalls bei der Bestellung abgefragt).

Modell HuggingFace Größe Min. VRAM Min. GPU-Klasse Typ
Llama 3.3 70B Instruct 🔒 Zugangsbeschränkt meta-llama/Llama-3.3-70B-Instruct 140 GB 160 GB GPU-L LLM
Qwen3 32B Qwen/Qwen3-32B 64 GB 80 GB GPU-L LLM
Qwen3 14B Qwen/Qwen3-14B 28 GB 32 GB GPU-S LLM
Qwen3 8B Qwen/Qwen3-8B 16 GB 20 GB GPU-S LLM
DeepSeek-R1 Distill Qwen 32B deepseek-ai/DeepSeek-R1-Distill-Qwen-32B 64 GB 80 GB GPU-S LLM
DeepSeek-R1 Distill Llama 70B deepseek-ai/DeepSeek-R1-Distill-Llama-70B 140 GB 160 GB GPU-S LLM
Mistral Small 3.2 24B (multimodal) mistralai/Mistral-Small-3.2-24B-Instruct-2506 48 GB 60 GB GPU-S LLM
Gemma 3 27B (multimodal) 🔒 Zugangsbeschränkt google/gemma-3-27b-it 54 GB 64 GB GPU-L LLM
Gemma 3 12B (multimodal) 🔒 Zugangsbeschränkt google/gemma-3-12b-it 24 GB 28 GB GPU-S LLM
Phi-4 (14B) microsoft/phi-4 28 GB 32 GB GPU-S LLM
Phi-4 Mini Instruct (3.8B) microsoft/Phi-4-mini-instruct 8 GB 10 GB GPU-S LLM
FLUX.1 [dev] 🔒 Zugangsbeschränkt black-forest-labs/FLUX.1-dev 24 GB 24 GB GPU-S Bild
FLUX.1 [schnell] black-forest-labs/FLUX.1-schnell 24 GB 24 GB GPU-S Bild
FLUX.1 Kontext [dev] (image editing) 🔒 Zugangsbeschränkt black-forest-labs/FLUX.1-Kontext-dev 24 GB 24 GB GPU-S Bild
Stable Diffusion 3.5 Large 🔒 Zugangsbeschränkt stabilityai/stable-diffusion-3.5-large 16 GB 18 GB GPU-S Bild
Stable Diffusion 3.5 Medium 🔒 Zugangsbeschränkt stabilityai/stable-diffusion-3.5-medium 5 GB 10 GB GPU-S Bild
HiDream-I1 Full HiDream-ai/HiDream-I1-Full 34 GB 40 GB GPU-S Bild
Wan 2.2 T2V A14B Wan-AI/Wan2.2-T2V-A14B 28 GB 40 GB GPU-S Video
Wan 2.1 T2V 1.3B (low VRAM) Wan-AI/Wan2.1-T2V-1.3B 3 GB 8 GB GPU-S Video
HunyuanVideo 1.5 (8.3B) tencent/HunyuanVideo-1.5 17 GB 24 GB GPU-S Video
LTX-Video 0.9.8 13B Lightricks/LTX-Video 26 GB 24 GB GPU-S Video
CogVideoX-5B zai-org/CogVideoX-5b 10 GB 16 GB GPU-S Video
Whisper Large v3 Turbo openai/whisper-large-v3-turbo 2 GB 4 GB GPU-S Audio
Whisper Large v3 openai/whisper-large-v3 3 GB 6 GB GPU-S Audio
Kokoro 82M (TTS) hexgrad/Kokoro-82M 1 GB 2 GB GPU-S Audio
Sesame CSM-1B (conversational TTS) sesame/csm-1b 2 GB 6 GB GPU-S Audio
Stable Audio Open 1.0 🔒 Zugangsbeschränkt stabilityai/stable-audio-open-1.0 3 GB 8 GB GPU-S Audio

Größen beziehen sich auf FP16-Gewichte. Für RTX 4090 (24 GB VRAM) bei 70B-Modellen wird die AWQ-quantisierte Variante parallel heruntergeladen.

Vergleich

ServPrivacy vs Vast.ai · RunPod · Paperspace · Lambda Labs · TensorDock

Nur Krypto-Zahlung, natives Monero, tokenbasierte Anmeldung, vorinstallierte AI-Stacks, vorgeladene HuggingFace-Modelle, verschlüsselte HF-Tokens, automatische Let's Encrypt-Endpunkte, unbegrenzte Bandbreite und 100 % Erneuerbare Energie in Island — lesen Sie die Zeile „ServPrivacy" und urteilen Sie selbst.

Merkmal ServPrivacy Vast.ai RunPod Paperspace Lambda TensorDock
Nur Krypto-Zahlung ✅ 14 chains⚠️ BTC⚠️ Gateway⚠️ BTC/ETH/USDT
Natives Monero (XMR)
Kein KYC, keine E-Mail-Registrierung ✅ Token-only⚠️ Email + ID for trust⚠️ Email + payment❌ Full KYC❌ Enterprise KYC⚠️ Email + light KYC
Vorinstallierte AI-Stacks ✅ 17 templates⚠️ Docker BYO✅ 100+⚠️ Notebooks only⚠️ Lambda Stack only⚠️ Docker BYO
Vorgeladene Modelle bei Bestellung ✅ 27 models
HuggingFace-Token bei Bestellung ✅ Encrypted, used once
SSH-Schlüssel bei Bestellung ⚠️⚠️
Auto-Shutdown-Timer ✅ 6h-7d⚠️ Spot only
Öffentlicher HTTPS-Endpunkt (Let's Encrypt) ✅ Auto⚠️ Manual✅ Pods⚠️ Manual
Unbegrenzte Bandbreite ⚠️ Per host⚠️ Capped⚠️ Capped⚠️ Capped⚠️ Per host
Rechenzentrum mit erneuerbarer Energie ✅ Iceland 100% geo+hydro❌ Variable⚠️ US grid⚠️ US grid⚠️ US grid⚠️ Variable
Offshore-Jurisdiktion ✅ IS / NL / RO / MD❌ Distributed P2P❌ US-centric❌ US❌ US-only⚠️ Multi-region
Sandbox-Testmodus ✅ ?dry_run=1⚠️ Trial credit⚠️ Limited⚠️ Free GPU tier
AI-Agent / MCP-First ✅ MCP + REST + x402⚠️ REST⚠️ REST⚠️ REST⚠️ REST⚠️ REST
Einstieg RTX 4090 / Monat $249~$216 spot~$396 on-demandn/an/a~$252 spot

Vergleichsdaten aus den öffentlichen Preisseiten und Anmeldeabläufen der Mitbewerber (Stand 2026-05). ServPrivacy Einstieg RTX 4090 = 249 $/Monat Moldawien; „Spot"-Preise der Mitbewerber sind Durchschnittspreise für gleichwertige Hardware.

FAQ

GPU AI Hosting FAQ

01 Wird die GPU mit vollem Hardware-Zugriff durchgereicht oder ist sie geteilt / per vGPU aufgeteilt?

Vollständiger Hardware-Passthrough. Sie erhalten die gesamte physische NVIDIA-Karte mit direktem VRAM-Zugriff — keine vGPU-Scheibe, keine zeitgeteilte MIG-Partition. nvidia-smi innerhalb Ihrer VM zeigt dieselben Werte wie der Bare-Metal-Host. Vollständiger Treiber-Zugriff, volles CUDA, vollständiger PyTorch / TensorFlow Stack — keine SR-IOV-Reservierungen.

02 Welche CUDA / Treiber-Versionen sind vorinstalliert?

Standard-Image: Ubuntu 22.04 + CUDA 12.4 + cuDNN 9 + NVIDIA Treiber 550. Weitere sofort einsatzbereite Images: Ubuntu 24.04 + CUDA 12.6, Ubuntu 22 + PyTorch 2.5, Ubuntu 22 + ComfyUI + Flux, Ubuntu 22 + Ollama + Open WebUI. Vanilla Ubuntu / Debian / AlmaLinux / Rocky ebenfalls verfügbar, wenn Sie Ihren eigenen Stack installieren möchten. Treiber-Versionen können jederzeit als vollständiger Root gewechselt werden.

03 Kann ich die Produktions-Inferenz meines eigenen KI-Startups auf diesen GPUs betreiben?

Ja. Viele unserer GPU-Kunden betreiben öffentliche Inferenz-APIs auf vLLM / TGI / FastAPI. Die GPU-Server kommen mit vollem Root, kalkulierbarer monatlicher Abrechnung (keine Per-Token-Überraschungen) und einer festen jurisdiktionellen IP. Die Bandbreite ist bei jedem GPU-Plan unbegrenzt, sodass Sie hochfrequente öffentliche Endpunkte ohne Zählerüberwachung oder Überschreitungsgebühren bedienen können.

04 Warum ist Russia von den GPU-Standorten ausgeschlossen?

NVIDIA H100, A100 und High-End RTX-Karten (4090 und höher) unterliegen den US-Exportkontrollen des Department of Commerce (15 CFR Part 744) und den EU-Dual-Use-Vorschriften, die den Versand an russische Rechenzentren untersagen. Wir stellen sie in Russia nicht bereit, um die für unsere Lieferkette geltenden Vorschriften einzuhalten. Wenn Sie Offshore Linux VPS oder Dedicated in Russia benötigen, sind diese Produktlinien davon nicht betroffen.

05 Warum ist Iceland als Premium-GPU-Standort positioniert?

Iceland Rechenzentren laufen mit 100 % erneuerbarer geothermaler und hydroelektrischer Energie, und die kühle Umgebungstemperatur reduziert den Kühlaufwand bei H100-Boxen, die unter Dauerlast je 700 W ziehen, erheblich. Das Ergebnis ist die kohlenstoffärmste Offshore-GPU-Compute-Leistung auf dem Markt. Der Premium-Preis deckt die höheren Rechenzentrumskosten in Iceland und die sauberere Energiebeschaffung ab — für ESG-bewusste KI-Teams die einzig glaubwürdige Offshore-Antwort.

06 Kann ich mehrere GPUs im verteilten Training (DDP / FSDP) verwenden?

Ja — der GPU-XL-Tier ist 2× H100 SXM5 mit NVLink Interconnect in einer Box, ideal für FSDP / DeepSpeed Zero-3 / DDP auf derselben Maschine. Für Multi-Node-Training können Sie mehrere GPU-XL-Server im selben Rechenzentrum mieten und über den 10 Gbps Uplink verbinden. 8× H100 Cluster-Knoten werden noch nicht angeboten — kontaktieren Sie uns, wenn Ihr Training mehr Skalierung erfordert.

Offshore GPU-Server deployen

Jurisdiktion wählen, NVIDIA GPU wählen, in einer von 14 Kryptowährungen bezahlen. JupyterLab live in unter 60 Sekunden. Kein KYC, keine E-Mail, kein Telefon — nur ein Token.

GPU-Pläne ansehen