Startseite / Datenschutz-Hosting-Leitfäden / RTX 4090 vs H100 SXM5 für KI-Inferenz (und wo RTX 5090 passt)

Kauf

RTX 4090 vs H100 — Welche GPU für Ihre KI-Arbeitslast?

Die richtige NVIDIA-GPU für selbst gehostete KI auszuwählen ist nicht nur eine Frage des VRAM. RTX 4090 ist der Preis-Leistungs-Sweet-Spot für 7B-13B-Inferenz und Bildgenerierung; RTX 5090 (32 GB GDDR7) ist die neue mittlere Stufe für 27B-32B; H100 SXM5 (80 GB HBM3) ist für 70B-Klasse-Workloads geeignet, wo die Speicherbandbreite dominiert. Wir gehen durch die Kompromisse nach Workload-Klasse mit Durchsatzzahlen, $/Token-Ökonomie und was in jede ServPrivacy-GPU-Stufe passt.

Anleitung lesen FAQ

Kein KYC

Nur Krypto

Keine Logs

DMCA ignoriert

Voller Root-Zugriff

NVMe SSD

Die Wahl zwischen einer RTX 4090, einer RTX 5090 und einer H100 SXM5 für selbst gehostetes KI-Compute im Jahr 2026 dreht sich selten um die TFLOPS-Schlagzahl. Die richtige GPU ist diejenige, deren VRAM, Speicherbandbreite und Preis pro Inferenzstunde zur Modellklasse und Batch-Form passen, die Sie tatsächlich ausführen. Dieser Leitfaden geht durch die vier GPU-Stufen, die ServPrivacy liefert, die Workloads, für die jede ausgelegt ist, und wie man die Durchsatzzahlen im Diagramm liest.

Die vier Stufen in einem Absatz

RTX 4090 (GPU-S, $249-329/Monat) liefert 24 GB GDDR6X bei ~1 TB/s Speicherbandbreite und ~83 TFLOPS FP16. Sie ist die richtige Wahl für 7B-13B-Sprachmodelle, FLUX.1 / SDXL-Bildgenerierung, Whisper-Transkription und Bark-Text-zu-Sprache. RTX 5090 (GPU-M, $399-519/Monat) erhöht auf 32 GB GDDR7 bei ~1,8 TB/s und ~104 TFLOPS FP16; die zusätzlichen 8 GB und ~80 % Bandbreiten-Uplift erschließen 27B-32B-Modelle komfortabel (Gemma-3-27B, Qwen3-32B, Mistral-Small-3) und ermöglichen das Fine-Tuning kleiner Llamas. H100 SXM5 (GPU-L, $1699-1899/Monat) ist eine andere Kategorie — 80 GB HBM3 bei ~3,35 TB/s, ~989 TFLOPS FP16 (Tensor-Core), mit verfügbarem NVLink-Klasse-Fabric; ausgelegt für 70B-Klasse-Sprachmodelle, längere Kontext-Inferenz und schnelleres Training. 2× H100 SXM5 (GPU-XL, $3199-3599/Monat) ist für Full-Precision-70B-Inferenz, Multi-GPU-Training und 100B+-Modelle bei Q4 / Q5.

RTX 4090 vs H100 — Welche GPU für Ihre KI-Arbeitslast? — Durchsatz vs Batch-Größe auf RTX 4090 (24 GB), RTX 5090 (32 GB) und H100 SXM5 (80 GB) — Llama-3.1-70B-Instruct quantisiert auf Q4_K_M, vLLM 0.7+, Batch 1 bis Batch 32.

Speicherbandbreite dominiert LLM-Inferenz

Für Decoder-only-Transformer-Inferenz bei Batch-Größen bis etwa 16 ist der Flaschenhals die Speicherbandbreite, nicht die rohen FLOPS. Jedes generierte Token erzwingt ein vollständiges Lesen der Modellgewichte aus VRAM (die Prefill-Phase verwendet den K-V-Cache wieder, aber jedes neue Token liest die Gewichtsmatrizen erneut). Die 3,35 TB/s HBM3 des H100 sind das, was ihn ~3x schneller pro Token als eine 4090 bei einem 70B-Klasse-Modell macht — nicht die höhere TFLOPS-Zahl. Das ist auch der Grund, warum der RTX-5090-Sprung von GDDR6X zu GDDR7 (~1,8 TB/s vs ~1 TB/s) für die Inferenz wichtiger ist als der rohe FLOPS-Sprung. Wenn Ihre Arbeitslast von Inferenz statt Training dominiert wird, priorisieren Sie Bandbreite über TFLOPS.

Was in 24 GB / 32 GB / 80 GB passt

Quantisierung verändert das Bild. Bei Q4_K_M (eine typische „gute Qualität"-Quant): ein 7B-Modell benötigt ~4,5 GB, ein 13B ~8 GB, ein 27-32B ~20 GB, ein 70B ~42 GB, ein 100B ~60 GB. Fügen Sie ~10-15 % Spielraum für K-V-Cache und CUDA-Workspace hinzu. Die praktischen Passungen: 24 GB = 7B-13B komfortabel, 27-32B mit Offload-Schmerzen, 70B nicht möglich. 32 GB = 27-32B komfortabel, 70B mit CPU-Offload (langsam). 80 GB = 70B komfortabel bei Q4-Q5, 100B mit Offload. 160 GB (Dual H100) = 70B bei FP16 / BF16, 100-180B bei Q4. Bei FP16 / BF16 (keine Quantisierung) verdoppeln sich die Zahlen: ein 70B bei FP16 benötigt ~140 GB, weshalb 2× H100 der Einstiegspunkt für Full-Precision-Flagship-Modell-Inferenz ist.

Wann RTX 5090 die richtige Antwort ist

Die Veröffentlichung der RTX 5090 Anfang 2025 schuf einen neuen Sweet Spot. Für die 27B-32B-Klasse-Modelle, die 2026 am meisten zählen (Gemma-3-27B, Qwen3-32B, Mistral-Small-3, Phi-4, DeepSeek-R1-Distill-Qwen-32B), hat die 5090 etwa den 2,5-fachen Durchsatz einer 4090 bei der Hälfte der Kosten eines H100. Wenn Ihre Arbeitslast „Ich brauche ein wirklich leistungsfähiges Assistenzmodell mit Reasoning, mehrsprachiger Unterstützung und einem 32K-Kontextfenster, aber ich brauche nicht 70B+" ist, ist die GPU-M-Stufe der richtige Startpunkt. Sie dient auch als großzügiges Bildgenerierungs-Rig — FLUX.1-dev läuft komfortabel mit 16 GB VRAM-Spielraum für hochauflösende Batches.

Wann Sie H100 statt 4090 wollen

Drei Signale verschieben die Kaufentscheidung auf GPU-L (einzelner H100): (1) Sie betreiben 70B-Klasse-Modelle oder DeepSeek-R1-Distill-Llama-70B und möchten sub-sekunden Time-to-First-Token bei Batch 1; (2) Sie führen hochfrequente gleichzeitige Inferenz aus (vLLM mit Batch 16+ Benutzer), wo die Speicherbandbreite des H100 der Flaschenhals-Brecher ist; (3) Sie trainieren oder LoRA-finetunen auf Datensätzen über ~10M Tokens und möchten den FP8-Trainingspfad, den die 4090 / 5090 nicht haben. Die FP8 Transformer Engine des H100 verdoppelt den Trainingsdurchsatz gegenüber FP16, was das Fine-Tuning von 70B Llama auf einer einzelnen Karte ermöglicht.

$/Token-Ökonomie

Für hochvolumige Workloads ist der richtige Vergleich Dollar pro Million Tokens bei nachhaltigem Durchsatz. Auf Llama-3.1-70B Q4, vLLM 0.7+, Batch 16: Eine RTX 4090 kann das Modell ohne Offload nicht hosten (CPU-RAM-Offload tötet den Durchsatz um ~10x). Eine RTX 5090 mit CPU-Offload liegt bei rund $X pro 1M Tokens (ungefähr; variiert nach Quant). Ein einzelner H100 SXM5 liegt bei etwa $1,40-2,20 pro 1M Ausgabe-Tokens bei unserem $1699/Monat-Einstiegspreis. Vergleich: OpenAI GPT-4o-Ausgabe bei ~$10 / 1M und Claude Sonnet bei ~$15 / 1M — sobald Ihre Arbeitslast etwa 30M Tokens pro Tag erreicht, ist Self-Hosting auf einem einzelnen H100 günstiger als der Aufruf gehosteter APIs, und das Datenschutzergebnis ist lückenlos. Bei niedrigeren Volumen gewinnen gehostete APIs beim Preis.

Bild-, Video- und Audio-Workloads

Bildgenerierung benötigt selten mehr als eine 4090 — FLUX.1-dev, SDXL, SD 3.5 passen alle in 24 GB in Produktionsqualität, und die ~83 TFLOPS FP16 der RTX 4090 reichen aus. Der Wechsel zu 5090 / H100 kauft hauptsächlich Batch-Größen-Spielraum (mehr gleichzeitige Generierungen) statt Geschwindigkeit pro Bild. KI-Video (Wan-2.1, CogVideoX-5B, Runway-Klasse-Workflows) ist anspruchsvoller — GPU-M ist der praktische Einstieg, GPU-L für Langform in Produktionsqualität. Whisper Large v3 ASR und Bark TTS laufen beide komfortabel auf der 4090; der H100 ist für sie überdimensioniert. Fine-Tuning mit LoRA oder QLoRA auf 7B-13B funktioniert auf einer 4090; Fine-Tuning von 32B-70B möchte realistischerweise mindestens 5090, H100 wenn Sie Zeit schätzen.

Was ist mit RTX 5090 vs RTX A6000 / A100?

Wenn Sie sich GPU-Optionen außerhalb der Consumer-Karten-Reihe angeschaut haben, sind Sie möglicherweise auf RTX A6000 (48 GB, Datacenter-Karte) oder A100 (40 / 80 GB, ältere Generation HBM2e) gestoßen. Kurzes Urteil: Die A6000 ist grob 4090-Klasse-Compute mit doppeltem VRAM, nützlich wenn VRAM Ihr Flaschenhals ist, aber Bandbreite es nicht ist (selten); der A100 ist eine Generation hinter dem H100 und jetzt hauptsächlich auf dem Sekundärmarkt verfügbar — wenn Sie ihn günstig finden, bleibt er eine glaubwürdige 70B-Inferenz-Karte, aber Neubauten im Jahr 2026 sind typischerweise H100. Wir bieten derzeit keine A6000- oder A100-Stufen an; der Katalog springt von RTX 5090 zu H100.

Was wir liefern und was Sie wählen sollen

Um die GPU-Kaufentscheidung in einem Satz pro Workload zusammenzufassen: Chatbot / Coding-Assistent unter 32B → GPU-S (RTX 4090) für 7B-13B, GPU-M (RTX 5090) für 27B-32B; Flagship-70B-Inferenz (Llama-3.3-70B-Instruct, DeepSeek-R1-Distill-Llama-70B) → GPU-L (H100 SXM5); Full-Precision-70B oder Multi-GPU-Training → GPU-XL (2× H100 SXM5); Bild-/Video-/Sprach-Generierung → GPU-S, es sei denn, Sie brauchen Batch-Spielraum, dann GPU-M. Alle vier Stufen werden mit CUDA 12.4 + cuDNN vorinstalliert und 1-Klick-vLLM-/Ollama-/ComfyUI-/Stable-Diffusion-Templates geliefert. Die vollständige Hardware-Spezifikation ist auf /gpu.

FAQ

GPU-Kauf — häufig gestellte Fragen

01 Warum ist Speicherbandbreite wichtiger als TFLOPS für die Inferenz?

Decoder-only-Transformer-Inferenz bei kleinen bis mittleren Batch-Größen ist speicherbeschränkt: Jedes generierte Token erfordert das Lesen der gesamten Gewichtsmatrix aus VRAM. Die Compute-Kernel sind schnell genug, dass die GPU die meiste Zeit damit verbringt, auf Speicherladeoperationen zu warten. Das ist der Grund, warum die 3,35 TB/s HBM3 des H100 etwa 3x schneller pro Token als die 1 TB/s GDDR6X einer 4090 beim selben 70B-Modell ist, obwohl die größere TFLOPS-Zahl des H100 fast zufällig ist.

02 Kann ich Llama-3.3-70B auf einer RTX 4090 ausführen?

Technisch ja, mit CPU-Offload über llama.cpp oder KTransformers — aber der Durchsatz fällt auf ~3-5 Tokens/Sekunde bei Langform-Generierung, was für Chat unbrauchbar langsam ist. Praktisch ist 70B eine H100-Arbeitslast (oder 2× RTX 5090 mit NVLink, was wir nicht anbieten). Wenn 70B das ist, was Sie brauchen, und Sie keine H100-Preise wollen, ziehen Sie DeepSeek-R1-Distill-Llama-8B oder DeepSeek-R1-Distill-Qwen-14B auf einer 4090 in Betracht — die destillierten Modelle sind beim Reasoning überraschend wettbewerbsfähig.

03 Ist die RTX 5090 besser als eine A100 für KI?

Für die Inferenz, meistens ja — die GDDR7 der 5090 (~1,8 TB/s) übersteigt die HBM2e der A100 40GB (~1,55 TB/s) an Bandbreite, und die FLOPS sind höher. Die 80-GB-SKU der A100 hat mehr VRAM (80 vs 32), was für 70B-Inferenz wichtig ist. Für das Training hat die A100 immer noch ECC-Speicher und den richtigen Datacenter-Featuresatz, dem der 5090 fehlt. Neubauten im Jahr 2026 wählen typischerweise H100 über A100; die 5090 füllt die Consumer-Klasse-Lücke.

04 Wann ist Self-Hosting tatsächlich günstiger als OpenAI / Anthropic?

Ungefähr: Ein einzelner H100 SXM5 für $1699/Monat, der Llama-3.3-70B bei nachhaltigem Batch-16-Durchsatz ausführt, liefert ~30-50M Ausgabe-Tokens/Tag. Zu GPT-4o-Preisen ($10/1M Ausgabe) sind das $300-500/Tag gleichwertiger gehosteter Ausgaben. Der Break-even-Punkt liegt bei etwa 5-7M Ausgabe-Tokens pro Tag. Darunter gewinnen gehostete APIs; darüber gewinnt Self-Hosting. Die Break-even-Punkte für RTX 4090 / 5090 skalieren nach unten mit den kleineren Modellen, die sie aufnehmen.

05 Wie vergleicht sich ServPrivacy-GPU mit Vast.ai oder RunPod?

Vast.ai ist bei Stunden-Spot günstiger ($0,30-0,70/h für eine 4090), aber die Qualität variiert stark (Consumer-Hardware in Privathaushalten, gemischtes Networking, Eviction-Risiko). RunPod ist konsistenter ($0,69-3,99/h On-Demand), aber US-Jurisdiktion mit E-Mail-/Zahlungsmethoden-KYC. ServPrivacy ist teurer pro Stunde als Vast.ai-Spot und ungefähr vergleichbar mit RunPod-On-Demand auf monatlicher Basis, aber mit nur-Token-Anmeldung, nativem Monero, kein Eviction, kein KYC und 4 Offshore-Jurisdiktionen. Die richtige Wahl hängt davon ab, ob Datenschutz und Vorhersehbarkeit oder reine Cents-pro-Stunde mehr zählen.

06 Was ist mit H200 oder B200 — soll ich auf die warten?

H200 (141 GB HBM3e) ist im Katalog bei Hyperscale-Anbietern wie CoreWeave, aber das Angebot im Offshore-Datenschutz-Host-Segment wird durch den NVIDIA-Channel-Partner-Status eingeschränkt — wir evaluieren die Verfügbarkeit für 2026-Q3. B200 NVL72 ist derzeit nur für Hyperscale-Fabric und nicht für Einzel-Karten-Vermietungen praktikabel. Für die meisten Selbst-Hoster hat ein H100 SXM5 im Jahr 2026 ausreichend Leistungsfähigkeit für 70B-Klasse-Workloads — der Fall für das Warten auf H200 ist hauptsächlich multimodale Langkontext-Anwendungsfälle (200K+ Tokens).

Bereit, Ihre KI-Box bereitzustellen?

RTX 4090 ab $249/Monat, RTX 5090 ab $399/Monat, H100 SXM5 ab $1699/Monat. Nur-Token-Anmeldung, Krypto-Checkout, CUDA 12 + 1-Klick-KI-Templates.

GPU-Pläne ansehen No-KYC GPU Hosting Self-Host LLM

Willkommen zurück

RTX 4090 vs H100 — Welche GPU für Ihre KI-Arbeitslast?

Auf dieser Seite

Die vier Stufen in einem Absatz

Speicherbandbreite dominiert LLM-Inferenz

Was in 24 GB / 32 GB / 80 GB passt

Wann RTX 5090 die richtige Antwort ist

Wann Sie H100 statt 4090 wollen

$/Token-Ökonomie

Bild-, Video- und Audio-Workloads

Was ist mit RTX 5090 vs RTX A6000 / A100?

Was wir liefern und was Sie wählen sollen

GPU-Kauf — häufig gestellte Fragen

Weiterlesen

Wie Sie im Jahr 2026 die richtige Offshore-Hosting-Jurisdiktion wählen

VPS vs. Dedizierter Server für datenschutzkritische Workloads

Selbst gehostetes VPN auf einem No-KYC-VPS: WireGuard vs. OpenVPN

Offshore Windows RDP für MT4 / MT5 / cTrader Forex-Trading

Krypto-Zahlungen für Hosting: Monero vs. Bitcoin vs. USDT

Bereit, Ihre KI-Box bereitzustellen?