Startseite / GPU AI Hosting

RTX 4090 · RTX 5090 · H100 SXM5 · CUDA 12

Offshore GPU AI Hosting

Name: Offshore GPU AI Hosting
Brand: ServPrivacy
Availability: InStock

NVIDIA RTX 4090, RTX 5090 und H100 SXM5 GPU-Server für KI-Training, Inferenz, Bild- und Videogenerierung. CUDA 12 und cuDNN vorinstalliert, plus PyTorch / ComfyUI / Ollama Image-Presets, die per SSH sofort einsatzbereit sind. Threadripper Pro Hosts auf H100-Tiers für volle PCIe Gen 5 Lane-Anzahl. Verfügbar in 4 Offshore-Jurisdiktionen, kein KYC, Krypto-only-Zahlung in 14 Chains inklusive Monero.

GPU-Pläne ansehen Dedizierte Server

Jeder GPU-Server enthält

NVIDIA-Hardware, vollständiger Passthrough
CUDA 12 + cuDNN vorinstalliert
Threadripper / Ryzen 9 Hosts
NVMe SSD & DDR5
Bereitstellung in 60 Sekunden
14 Kryptowährungen akzeptiert, inkl. Monero

Kein KYC

Nur Krypto

CUDA 12

NVMe SSD

Voller Root-Zugriff

Monero accepted

Alle GPU-Pläne

GPU-Pläne nach Standort

Gleiche NVIDIA-Hardware in allen Jurisdiktionen mit unbegrenzter Bandbreite bei jedem Plan. Preise variieren je nach Jurisdiktion — Iceland ist die kohlenstoffärmste Option, Moldova die günstigste.

Island Hafen der Meinungsfreiheit

Tarif	GPU	VRAM	CPU	RAM	NVMe	Bandbreite	Preis
IS-S	1× NVIDIA RTX 4090	24 GB GDDR6X	12 vCPU	64 GB DDR5	1 TB NVMe	Unbegrenzt	$299/mo	Bestellen
IS-M Beliebt	1× NVIDIA RTX 5090	32 GB GDDR7	16 vCPU	96 GB DDR5	1.5 TB NVMe	Unbegrenzt	$479/mo	Bestellen
IS-L	1× NVIDIA H100 SXM5	80 GB HBM3	24 vCPU	192 GB DDR5	2 TB NVMe	Unbegrenzt	$1849/mo	Bestellen
IS-XL	2× NVIDIA H100 SXM5	160 GB HBM3	32 vCPU	384 GB DDR5	4 TB NVMe	Unbegrenzt	$3499/mo	Bestellen

Moldau Budget-Offshore

Tarif	GPU	VRAM	CPU	RAM	NVMe	Bandbreite	Preis
MD-S	1× NVIDIA RTX 4090	24 GB GDDR6X	12 vCPU	64 GB DDR5	1 TB NVMe	Unbegrenzt	$249/mo	Bestellen
MD-M Beliebt	1× NVIDIA RTX 5090	32 GB GDDR7	16 vCPU	96 GB DDR5	1.5 TB NVMe	Unbegrenzt	$399/mo	Bestellen
MD-L	1× NVIDIA H100 SXM5	80 GB HBM3	24 vCPU	192 GB DDR5	2 TB NVMe	Unbegrenzt	$1699/mo	Bestellen
MD-XL	2× NVIDIA H100 SXM5	160 GB HBM3	32 vCPU	384 GB DDR5	4 TB NVMe	Unbegrenzt	$3199/mo	Bestellen

Rumänien Anti-Vorratsdatenspeicherung

Tarif	GPU	VRAM	CPU	RAM	NVMe	Bandbreite	Preis
RO-S	1× NVIDIA RTX 4090	24 GB GDDR6X	12 vCPU	64 GB DDR5	1 TB NVMe	Unbegrenzt	$269/mo	Bestellen
RO-M Beliebt	1× NVIDIA RTX 5090	32 GB GDDR7	16 vCPU	96 GB DDR5	1.5 TB NVMe	Unbegrenzt	$429/mo	Bestellen
RO-L	1× NVIDIA H100 SXM5	80 GB HBM3	24 vCPU	192 GB DDR5	2 TB NVMe	Unbegrenzt	$1749/mo	Bestellen
RO-XL	2× NVIDIA H100 SXM5	160 GB HBM3	32 vCPU	384 GB DDR5	4 TB NVMe	Unbegrenzt	$3299/mo	Bestellen

Niederlande Bestes Peering

Tarif	GPU	VRAM	CPU	RAM	NVMe	Bandbreite	Preis
NL-S	1× NVIDIA RTX 4090	24 GB GDDR6X	12 vCPU	64 GB DDR5	1 TB NVMe	Unbegrenzt	$279/mo	Bestellen
NL-M Beliebt	1× NVIDIA RTX 5090	32 GB GDDR7	16 vCPU	96 GB DDR5	1.5 TB NVMe	Unbegrenzt	$449/mo	Bestellen
NL-L	1× NVIDIA H100 SXM5	80 GB HBM3	24 vCPU	192 GB DDR5	2 TB NVMe	Unbegrenzt	$1799/mo	Bestellen
NL-XL	2× NVIDIA H100 SXM5	160 GB HBM3	32 vCPU	384 GB DDR5	4 TB NVMe	Unbegrenzt	$3399/mo	Bestellen

GPU-Hosting ist zum Launch in 4 Jurisdiktionen verfügbar (Iceland, Netherlands, Romania, Moldova). Russia ist aufgrund der NVIDIA-Exportsanktionen ausgeschlossen; Switzerland und Panama sind vorerst auf Linux beschränkt.

In jedem GPU-Server enthalten

CUDA 12

CUDA 12.4/12.6 + cuDNN vorinstalliert. Booten, SSH einloggen, nvidia-smi ausführen.

Bereitstellung in 60 Sekunden

Vom bezahlten Auftrag bis zur nvidia-smi-Ausgabe in unter 60 Sekunden.

NVMe SSD

Bis zu 4 TB NVMe SSD, kombiniert mit DDR5 RAM für schnellen Datensatz-I/O.

SSH + Jupyter

Vollständiges Root-SSH, plus vorgebundenes JupyterLab auf Port 8888 mit Token-Authentifizierung.

Anwendungsfälle

What GPU AI Hosting is Used For

LLM-Finetuning & Inferenz

Llama, Mistral, Qwen, DeepSeek Finetuning mit LoRA / QLoRA / Full FT auf H100. Oder selbst gehostete Inferenz mit vLLM / TGI / Ollama für produktives Modell-Serving.

Bildgenerierung

Stable Diffusion, FLUX.1, SDXL mit ComfyUI oder Forge. Eigenes LoRA trainieren, im Batch-Betrieb skaliert generieren oder einen Inferenz-Endpunkt selbst hosten.

KI-Videogenerierung

OpenSora, CogVideoX, Wan-2.1, AnimateDiff. Videogenerierung erfordert ernsthaften VRAM — ab RTX 5090 (32 GB) oder H100 (80 GB) einsteigen.

Produktions-Inferenz

Feinabgestimmte Modelle hinter der eigenen API deployen. Kalkulierbare Kosten, keine Per-Token-Gebühren, keine Daten, die Ihre Jurisdiktion verlassen. JupyterLab + FastAPI inklusive.

1-Klick-Deployment

Vorinstallierte AI-Templates

Beim Bestellen beliebige Templates auswählen — der GPU-Server startet mit bereits installiertem, konfiguriertem und per systemd gestartetem Stack. Vorgeladene Modelle unten aktivieren, um den 30–60-minütigen HuggingFace-Download zu überspringen.

LLM-Inferenz

vLLM (OpenAI-compatible)

Production-grade LLM serving with continuous batching and paged attention. Exposes an /v1/completions endpoint compatible with the OpenAI SDK.

LLMOpenAI APIproduction +

LLM-Inferenz

Ollama + Open WebUI

Self-hosted ChatGPT-style web UI. Pulls Ollama-native quantized weights; easiest path to "talk to my LLM in a browser".

LLMchat UIbeginner +

LLM-Inferenz

text-generation-webui (Oobabooga)

Gradio UI with broad backend support — Transformers, ExLlamaV2, llama.cpp, AWQ, GPTQ. Power-user choice for benchmarking quantizations.

LLMmulti-backendpower user +

LLM-Inferenz

HuggingFace TGI

HuggingFace Text Generation Inference — production server with token streaming, tensor parallelism, paged attention.

LLMproductionHuggingFace +

Finetuning

Axolotl (LLM finetuning)

YAML-config driven finetuning. Supports LoRA, QLoRA, full FT, DPO, ORPO. Pre-cloned to /opt/axolotl with starter configs for Llama / Qwen / Mistral.

finetuneLoRAQLoRA +

Finetuning

Unsloth (2× faster finetune)

2× faster + 70% less VRAM finetuning via custom Triton kernels. Ideal for budget runs on RTX 4090. Pre-installed in /opt/unsloth.

finetunefastlow VRAM +

Finetuning

LLaMA-Factory

WebUI-driven finetuning platform. SFT / RLHF / DPO / KTO. Good entry point for non-coders who want to finetune on a UI.

finetuneGUI +

Bildgenerierung

ComfyUI + FLUX.1

Node-graph image-gen interface, ships with FLUX.1-schnell + Kontext workflows. Power-user image generation pipeline.

imageFLUXworkflow +

Bildgenerierung

Automatic1111 + SD 3.5

The mainstream Stable Diffusion WebUI. Stable Diffusion 3.5 + extensions ecosystem. Familiar UI for users coming from civitai.

imageSD 3.5 +

Bildgenerierung

Forge (faster A1111)

A1111 fork optimized for FLUX, faster sampling, lower VRAM. Drop-in replacement for users coming from Auto1111.

imageFLUXfast +

Bildgenerierung

Kohya SS (LoRA training)

GUI for training Stable Diffusion / FLUX LoRA, DreamBooth, textual inversion. Trains a custom-style LoRA on RTX 4090 in 30-90 min.

LoRA trainingimageGUI +

AI-Video

ComfyUI + Wan 2.2 / HunyuanVideo

ComfyUI with video-gen workflows preloaded — Wan 2.2 T2V, HunyuanVideo, LTX-Video. Needs 40+ GB VRAM for usable speed at 720p.

videoWan 2.2HunyuanVideo +

AI-Video

ComfyUI Video Lite (CogVideoX / LTX)

Lightweight video workflows — CogVideoX-5B, Wan 2.1 1.3B, LTX-Video. Runs on a single RTX 4090.

videoCogVideoXlow VRAM +

Audio

Whisper Large v3 Turbo server

OpenAI Whisper Large v3 Turbo with faster-whisper backend behind a /transcribe HTTP API. 8× faster than v3, 99 langs, real-time on any GPU.

audiospeech-to-textAPI +

Audio

TTS server (Kokoro + CSM-1B)

Multi-model TTS endpoint serving Kokoro 82M (54 voices, 8 langs) and Sesame CSM-1B (conversational with context). REST + WebSocket streaming.

audiotext-to-speechAPI +

Notebooks & Dev

JupyterLab + PyTorch baseline

Always installed. PyTorch 2.5 + CUDA 12.4 + Transformers + diffusers + accelerate + bitsandbytes + xformers + flash-attn. The universal AI dev baseline.

notebookbaselinealways-on +

Notebooks & Dev

code-server (VSCode in browser)

VSCode running in your browser, full Python/IPython/extensions. For users who prefer IDE workflow over notebooks.

IDEVSCodedev +

Mehrere Stacks auf demselben GPU kombinieren — das Deploy-Skript löst Abhängigkeitskonflikte und vergibt kollisionsfreie Ports.

Download überspringen

Vorgeladene Open-Weight-Modelle

Gewünschte Modelle beim Bestellen auswählen — sie werden in /root/.cache/huggingface gecacht, bevor Sie sich einloggen. 🔒 Zugangsbeschränkte Modelle (Llama, Mistral, Gemma, FLUX-dev, SD 3.5) erfordern Ihren HuggingFace-Token (ebenfalls bei der Bestellung abgefragt).

Modell	HuggingFace	Größe	Min. VRAM	Min. GPU-Klasse	Typ
Llama 3.3 70B Instruct 🔒 Zugangsbeschränkt	`meta-llama/Llama-3.3-70B-Instruct`	140 GB	160 GB	GPU-L	LLM
Qwen3 32B	`Qwen/Qwen3-32B`	64 GB	80 GB	GPU-L	LLM
Qwen3 14B	`Qwen/Qwen3-14B`	28 GB	32 GB	GPU-S	LLM
Qwen3 8B	`Qwen/Qwen3-8B`	16 GB	20 GB	GPU-S	LLM
DeepSeek-R1 Distill Qwen 32B	`deepseek-ai/DeepSeek-R1-Distill-Qwen-32B`	64 GB	80 GB	GPU-S	LLM
DeepSeek-R1 Distill Llama 70B	`deepseek-ai/DeepSeek-R1-Distill-Llama-70B`	140 GB	160 GB	GPU-S	LLM
Mistral Small 3.2 24B (multimodal)	`mistralai/Mistral-Small-3.2-24B-Instruct-2506`	48 GB	60 GB	GPU-S	LLM
Gemma 3 27B (multimodal) 🔒 Zugangsbeschränkt	`google/gemma-3-27b-it`	54 GB	64 GB	GPU-L	LLM
Gemma 3 12B (multimodal) 🔒 Zugangsbeschränkt	`google/gemma-3-12b-it`	24 GB	28 GB	GPU-S	LLM
Phi-4 (14B)	`microsoft/phi-4`	28 GB	32 GB	GPU-S	LLM
Phi-4 Mini Instruct (3.8B)	`microsoft/Phi-4-mini-instruct`	8 GB	10 GB	GPU-S	LLM
FLUX.1 [dev] 🔒 Zugangsbeschränkt	`black-forest-labs/FLUX.1-dev`	24 GB	24 GB	GPU-S	Bild
FLUX.1 [schnell]	`black-forest-labs/FLUX.1-schnell`	24 GB	24 GB	GPU-S	Bild
FLUX.1 Kontext [dev] (image editing) 🔒 Zugangsbeschränkt	`black-forest-labs/FLUX.1-Kontext-dev`	24 GB	24 GB	GPU-S	Bild
Stable Diffusion 3.5 Large 🔒 Zugangsbeschränkt	`stabilityai/stable-diffusion-3.5-large`	16 GB	18 GB	GPU-S	Bild
Stable Diffusion 3.5 Medium 🔒 Zugangsbeschränkt	`stabilityai/stable-diffusion-3.5-medium`	5 GB	10 GB	GPU-S	Bild
HiDream-I1 Full	`HiDream-ai/HiDream-I1-Full`	34 GB	40 GB	GPU-S	Bild
Wan 2.2 T2V A14B	`Wan-AI/Wan2.2-T2V-A14B`	28 GB	40 GB	GPU-S	Video
Wan 2.1 T2V 1.3B (low VRAM)	`Wan-AI/Wan2.1-T2V-1.3B`	3 GB	8 GB	GPU-S	Video
HunyuanVideo 1.5 (8.3B)	`tencent/HunyuanVideo-1.5`	17 GB	24 GB	GPU-S	Video
LTX-Video 0.9.8 13B	`Lightricks/LTX-Video`	26 GB	24 GB	GPU-S	Video
CogVideoX-5B	`zai-org/CogVideoX-5b`	10 GB	16 GB	GPU-S	Video
Whisper Large v3 Turbo	`openai/whisper-large-v3-turbo`	2 GB	4 GB	GPU-S	Audio
Whisper Large v3	`openai/whisper-large-v3`	3 GB	6 GB	GPU-S	Audio
Kokoro 82M (TTS)	`hexgrad/Kokoro-82M`	1 GB	2 GB	GPU-S	Audio
Sesame CSM-1B (conversational TTS)	`sesame/csm-1b`	2 GB	6 GB	GPU-S	Audio
Stable Audio Open 1.0 🔒 Zugangsbeschränkt	`stabilityai/stable-audio-open-1.0`	3 GB	8 GB	GPU-S	Audio

Größen beziehen sich auf FP16-Gewichte. Für RTX 4090 (24 GB VRAM) bei 70B-Modellen wird die AWQ-quantisierte Variante parallel heruntergeladen.

Vergleich

ServPrivacy vs Vast.ai · RunPod · Paperspace · Lambda Labs · TensorDock

Nur Krypto-Zahlung, natives Monero, tokenbasierte Anmeldung, vorinstallierte AI-Stacks, vorgeladene HuggingFace-Modelle, verschlüsselte HF-Tokens, automatische Let's Encrypt-Endpunkte, unbegrenzte Bandbreite und 100 % Erneuerbare Energie in Island — lesen Sie die Zeile „ServPrivacy" und urteilen Sie selbst.

Merkmal	ServPrivacy	Vast.ai	RunPod	Paperspace	Lambda	TensorDock
Nur Krypto-Zahlung	✅ 14 chains	⚠️ BTC	⚠️ Gateway	❌	❌	⚠️ BTC/ETH/USDT
Natives Monero (XMR)	✅	❌	❌	❌	❌	❌
Kein KYC, keine E-Mail-Registrierung	✅ Token-only	⚠️ Email + ID for trust	⚠️ Email + payment	❌ Full KYC	❌ Enterprise KYC	⚠️ Email + light KYC
Vorinstallierte AI-Stacks	✅ 17 templates	⚠️ Docker BYO	✅ 100+	⚠️ Notebooks only	⚠️ Lambda Stack only	⚠️ Docker BYO
Vorgeladene Modelle bei Bestellung	✅ 27 models	❌	❌	❌	❌	❌
HuggingFace-Token bei Bestellung	✅ Encrypted, used once	❌	❌	❌	❌	❌
SSH-Schlüssel bei Bestellung	✅	✅	✅	⚠️	✅	⚠️
Auto-Shutdown-Timer	✅ 6h-7d	✅	⚠️ Spot only	❌	❌	❌
Öffentlicher HTTPS-Endpunkt (Let's Encrypt)	✅ Auto	⚠️ Manual	✅ Pods	✅	❌	⚠️ Manual
Unbegrenzte Bandbreite	✅	⚠️ Per host	⚠️ Capped	⚠️ Capped	⚠️ Capped	⚠️ Per host
Rechenzentrum mit erneuerbarer Energie	✅ Iceland 100% geo+hydro	❌ Variable	⚠️ US grid	⚠️ US grid	⚠️ US grid	⚠️ Variable
Offshore-Jurisdiktion	✅ IS / NL / RO / MD	❌ Distributed P2P	❌ US-centric	❌ US	❌ US-only	⚠️ Multi-region
Sandbox-Testmodus	✅ ?dry_run=1	⚠️ Trial credit	⚠️ Limited	⚠️ Free GPU tier	❌	❌
AI-Agent / MCP-First	✅ MCP + REST + x402	⚠️ REST	⚠️ REST	⚠️ REST	⚠️ REST	⚠️ REST
Einstieg RTX 4090 / Monat	$249	~$216 spot	~$396 on-demand	n/a	n/a	~$252 spot

Vergleichsdaten aus den öffentlichen Preisseiten und Anmeldeabläufen der Mitbewerber (Stand 2026-05). ServPrivacy Einstieg RTX 4090 = 249 $/Monat Moldawien; „Spot"-Preise der Mitbewerber sind Durchschnittspreise für gleichwertige Hardware.

FAQ

GPU AI Hosting FAQ

01 Wird die GPU mit vollem Hardware-Zugriff durchgereicht oder ist sie geteilt / per vGPU aufgeteilt?

Vollständiger Hardware-Passthrough. Sie erhalten die gesamte physische NVIDIA-Karte mit direktem VRAM-Zugriff — keine vGPU-Scheibe, keine zeitgeteilte MIG-Partition. nvidia-smi innerhalb Ihrer VM zeigt dieselben Werte wie der Bare-Metal-Host. Vollständiger Treiber-Zugriff, volles CUDA, vollständiger PyTorch / TensorFlow Stack — keine SR-IOV-Reservierungen.

02 Welche CUDA / Treiber-Versionen sind vorinstalliert?

Standard-Image: Ubuntu 22.04 + CUDA 12.4 + cuDNN 9 + NVIDIA Treiber 550. Weitere sofort einsatzbereite Images: Ubuntu 24.04 + CUDA 12.6, Ubuntu 22 + PyTorch 2.5, Ubuntu 22 + ComfyUI + Flux, Ubuntu 22 + Ollama + Open WebUI. Vanilla Ubuntu / Debian / AlmaLinux / Rocky ebenfalls verfügbar, wenn Sie Ihren eigenen Stack installieren möchten. Treiber-Versionen können jederzeit als vollständiger Root gewechselt werden.

03 Kann ich die Produktions-Inferenz meines eigenen KI-Startups auf diesen GPUs betreiben?

Ja. Viele unserer GPU-Kunden betreiben öffentliche Inferenz-APIs auf vLLM / TGI / FastAPI. Die GPU-Server kommen mit vollem Root, kalkulierbarer monatlicher Abrechnung (keine Per-Token-Überraschungen) und einer festen jurisdiktionellen IP. Die Bandbreite ist bei jedem GPU-Plan unbegrenzt, sodass Sie hochfrequente öffentliche Endpunkte ohne Zählerüberwachung oder Überschreitungsgebühren bedienen können.

04 Warum ist Russia von den GPU-Standorten ausgeschlossen?

NVIDIA H100, A100 und High-End RTX-Karten (4090 und höher) unterliegen den US-Exportkontrollen des Department of Commerce (15 CFR Part 744) und den EU-Dual-Use-Vorschriften, die den Versand an russische Rechenzentren untersagen. Wir stellen sie in Russia nicht bereit, um die für unsere Lieferkette geltenden Vorschriften einzuhalten. Wenn Sie Offshore Linux VPS oder Dedicated in Russia benötigen, sind diese Produktlinien davon nicht betroffen.

05 Warum ist Iceland als Premium-GPU-Standort positioniert?

Iceland Rechenzentren laufen mit 100 % erneuerbarer geothermaler und hydroelektrischer Energie, und die kühle Umgebungstemperatur reduziert den Kühlaufwand bei H100-Boxen, die unter Dauerlast je 700 W ziehen, erheblich. Das Ergebnis ist die kohlenstoffärmste Offshore-GPU-Compute-Leistung auf dem Markt. Der Premium-Preis deckt die höheren Rechenzentrumskosten in Iceland und die sauberere Energiebeschaffung ab — für ESG-bewusste KI-Teams die einzig glaubwürdige Offshore-Antwort.

06 Kann ich mehrere GPUs im verteilten Training (DDP / FSDP) verwenden?

Ja — der GPU-XL-Tier ist 2× H100 SXM5 mit NVLink Interconnect in einer Box, ideal für FSDP / DeepSpeed Zero-3 / DDP auf derselben Maschine. Für Multi-Node-Training können Sie mehrere GPU-XL-Server im selben Rechenzentrum mieten und über den 10 Gbps Uplink verbinden. 8× H100 Cluster-Knoten werden noch nicht angeboten — kontaktieren Sie uns, wenn Ihr Training mehr Skalierung erfordert.

Offshore GPU-Server deployen

Jurisdiktion wählen, NVIDIA GPU wählen, in einer von 14 Kryptowährungen bezahlen. JupyterLab live in unter 60 Sekunden. Kein KYC, keine E-Mail, kein Telefon — nur ein Token.

GPU-Pläne ansehen

Willkommen zurück

Offshore GPU AI Hosting

Jeder GPU-Server enthält

GPU-Pläne nach Standort

Island Hafen der Meinungsfreiheit

Moldau Budget-Offshore

Rumänien Anti-Vorratsdatenspeicherung

Niederlande Bestes Peering

In jedem GPU-Server enthalten

CUDA 12

Bereitstellung in 60 Sekunden

NVMe SSD

SSH + Jupyter

What GPU AI Hosting is Used For

LLM-Finetuning & Inferenz

Bildgenerierung

KI-Videogenerierung

Produktions-Inferenz

Vorinstallierte AI-Templates

vLLM (OpenAI-compatible)

Ollama + Open WebUI

text-generation-webui (Oobabooga)

HuggingFace TGI

Axolotl (LLM finetuning)

Unsloth (2× faster finetune)

LLaMA-Factory

ComfyUI + FLUX.1

Automatic1111 + SD 3.5

Forge (faster A1111)

Kohya SS (LoRA training)

ComfyUI + Wan 2.2 / HunyuanVideo

ComfyUI Video Lite (CogVideoX / LTX)

Whisper Large v3 Turbo server

TTS server (Kokoro + CSM-1B)

JupyterLab + PyTorch baseline

code-server (VSCode in browser)

Vorgeladene Open-Weight-Modelle

ServPrivacy vs Vast.ai · RunPod · Paperspace · Lambda Labs · TensorDock

GPU AI Hosting FAQ

Offshore GPU-Server deployen