Die Wahl zwischen einer RTX 4090, einer RTX 5090 und einer H100 SXM5 für selbst gehostetes KI-Compute im Jahr 2026 dreht sich selten um die TFLOPS-Schlagzahl. Die richtige GPU ist diejenige, deren VRAM, Speicherbandbreite und Preis pro Inferenzstunde zur Modellklasse und Batch-Form passen, die Sie tatsächlich ausführen. Dieser Leitfaden geht durch die vier GPU-Stufen, die ServPrivacy liefert, die Workloads, für die jede ausgelegt ist, und wie man die Durchsatzzahlen im Diagramm liest.
Die vier Stufen in einem Absatz
RTX 4090 (GPU-S, $249-329/Monat) liefert 24 GB GDDR6X bei ~1 TB/s Speicherbandbreite und ~83 TFLOPS FP16. Sie ist die richtige Wahl für 7B-13B-Sprachmodelle, FLUX.1 / SDXL-Bildgenerierung, Whisper-Transkription und Bark-Text-zu-Sprache. RTX 5090 (GPU-M, $399-519/Monat) erhöht auf 32 GB GDDR7 bei ~1,8 TB/s und ~104 TFLOPS FP16; die zusätzlichen 8 GB und ~80 % Bandbreiten-Uplift erschließen 27B-32B-Modelle komfortabel (Gemma-3-27B, Qwen3-32B, Mistral-Small-3) und ermöglichen das Fine-Tuning kleiner Llamas. H100 SXM5 (GPU-L, $1699-1899/Monat) ist eine andere Kategorie — 80 GB HBM3 bei ~3,35 TB/s, ~989 TFLOPS FP16 (Tensor-Core), mit verfügbarem NVLink-Klasse-Fabric; ausgelegt für 70B-Klasse-Sprachmodelle, längere Kontext-Inferenz und schnelleres Training. 2× H100 SXM5 (GPU-XL, $3199-3599/Monat) ist für Full-Precision-70B-Inferenz, Multi-GPU-Training und 100B+-Modelle bei Q4 / Q5.

Speicherbandbreite dominiert LLM-Inferenz
Für Decoder-only-Transformer-Inferenz bei Batch-Größen bis etwa 16 ist der Flaschenhals die Speicherbandbreite, nicht die rohen FLOPS. Jedes generierte Token erzwingt ein vollständiges Lesen der Modellgewichte aus VRAM (die Prefill-Phase verwendet den K-V-Cache wieder, aber jedes neue Token liest die Gewichtsmatrizen erneut). Die 3,35 TB/s HBM3 des H100 sind das, was ihn ~3x schneller pro Token als eine 4090 bei einem 70B-Klasse-Modell macht — nicht die höhere TFLOPS-Zahl. Das ist auch der Grund, warum der RTX-5090-Sprung von GDDR6X zu GDDR7 (~1,8 TB/s vs ~1 TB/s) für die Inferenz wichtiger ist als der rohe FLOPS-Sprung. Wenn Ihre Arbeitslast von Inferenz statt Training dominiert wird, priorisieren Sie Bandbreite über TFLOPS.
Was in 24 GB / 32 GB / 80 GB passt
Quantisierung verändert das Bild. Bei Q4_K_M (eine typische „gute Qualität"-Quant): ein 7B-Modell benötigt ~4,5 GB, ein 13B ~8 GB, ein 27-32B ~20 GB, ein 70B ~42 GB, ein 100B ~60 GB. Fügen Sie ~10-15 % Spielraum für K-V-Cache und CUDA-Workspace hinzu. Die praktischen Passungen: 24 GB = 7B-13B komfortabel, 27-32B mit Offload-Schmerzen, 70B nicht möglich. 32 GB = 27-32B komfortabel, 70B mit CPU-Offload (langsam). 80 GB = 70B komfortabel bei Q4-Q5, 100B mit Offload. 160 GB (Dual H100) = 70B bei FP16 / BF16, 100-180B bei Q4. Bei FP16 / BF16 (keine Quantisierung) verdoppeln sich die Zahlen: ein 70B bei FP16 benötigt ~140 GB, weshalb 2× H100 der Einstiegspunkt für Full-Precision-Flagship-Modell-Inferenz ist.
Wann RTX 5090 die richtige Antwort ist
Die Veröffentlichung der RTX 5090 Anfang 2025 schuf einen neuen Sweet Spot. Für die 27B-32B-Klasse-Modelle, die 2026 am meisten zählen (Gemma-3-27B, Qwen3-32B, Mistral-Small-3, Phi-4, DeepSeek-R1-Distill-Qwen-32B), hat die 5090 etwa den 2,5-fachen Durchsatz einer 4090 bei der Hälfte der Kosten eines H100. Wenn Ihre Arbeitslast „Ich brauche ein wirklich leistungsfähiges Assistenzmodell mit Reasoning, mehrsprachiger Unterstützung und einem 32K-Kontextfenster, aber ich brauche nicht 70B+" ist, ist die GPU-M-Stufe der richtige Startpunkt. Sie dient auch als großzügiges Bildgenerierungs-Rig — FLUX.1-dev läuft komfortabel mit 16 GB VRAM-Spielraum für hochauflösende Batches.
Wann Sie H100 statt 4090 wollen
Drei Signale verschieben die Kaufentscheidung auf GPU-L (einzelner H100): (1) Sie betreiben 70B-Klasse-Modelle oder DeepSeek-R1-Distill-Llama-70B und möchten sub-sekunden Time-to-First-Token bei Batch 1; (2) Sie führen hochfrequente gleichzeitige Inferenz aus (vLLM mit Batch 16+ Benutzer), wo die Speicherbandbreite des H100 der Flaschenhals-Brecher ist; (3) Sie trainieren oder LoRA-finetunen auf Datensätzen über ~10M Tokens und möchten den FP8-Trainingspfad, den die 4090 / 5090 nicht haben. Die FP8 Transformer Engine des H100 verdoppelt den Trainingsdurchsatz gegenüber FP16, was das Fine-Tuning von 70B Llama auf einer einzelnen Karte ermöglicht.
$/Token-Ökonomie
Für hochvolumige Workloads ist der richtige Vergleich Dollar pro Million Tokens bei nachhaltigem Durchsatz. Auf Llama-3.1-70B Q4, vLLM 0.7+, Batch 16: Eine RTX 4090 kann das Modell ohne Offload nicht hosten (CPU-RAM-Offload tötet den Durchsatz um ~10x). Eine RTX 5090 mit CPU-Offload liegt bei rund $X pro 1M Tokens (ungefähr; variiert nach Quant). Ein einzelner H100 SXM5 liegt bei etwa $1,40-2,20 pro 1M Ausgabe-Tokens bei unserem $1699/Monat-Einstiegspreis. Vergleich: OpenAI GPT-4o-Ausgabe bei ~$10 / 1M und Claude Sonnet bei ~$15 / 1M — sobald Ihre Arbeitslast etwa 30M Tokens pro Tag erreicht, ist Self-Hosting auf einem einzelnen H100 günstiger als der Aufruf gehosteter APIs, und das Datenschutzergebnis ist lückenlos. Bei niedrigeren Volumen gewinnen gehostete APIs beim Preis.
Bild-, Video- und Audio-Workloads
Bildgenerierung benötigt selten mehr als eine 4090 — FLUX.1-dev, SDXL, SD 3.5 passen alle in 24 GB in Produktionsqualität, und die ~83 TFLOPS FP16 der RTX 4090 reichen aus. Der Wechsel zu 5090 / H100 kauft hauptsächlich Batch-Größen-Spielraum (mehr gleichzeitige Generierungen) statt Geschwindigkeit pro Bild. KI-Video (Wan-2.1, CogVideoX-5B, Runway-Klasse-Workflows) ist anspruchsvoller — GPU-M ist der praktische Einstieg, GPU-L für Langform in Produktionsqualität. Whisper Large v3 ASR und Bark TTS laufen beide komfortabel auf der 4090; der H100 ist für sie überdimensioniert. Fine-Tuning mit LoRA oder QLoRA auf 7B-13B funktioniert auf einer 4090; Fine-Tuning von 32B-70B möchte realistischerweise mindestens 5090, H100 wenn Sie Zeit schätzen.
Was ist mit RTX 5090 vs RTX A6000 / A100?
Wenn Sie sich GPU-Optionen außerhalb der Consumer-Karten-Reihe angeschaut haben, sind Sie möglicherweise auf RTX A6000 (48 GB, Datacenter-Karte) oder A100 (40 / 80 GB, ältere Generation HBM2e) gestoßen. Kurzes Urteil: Die A6000 ist grob 4090-Klasse-Compute mit doppeltem VRAM, nützlich wenn VRAM Ihr Flaschenhals ist, aber Bandbreite es nicht ist (selten); der A100 ist eine Generation hinter dem H100 und jetzt hauptsächlich auf dem Sekundärmarkt verfügbar — wenn Sie ihn günstig finden, bleibt er eine glaubwürdige 70B-Inferenz-Karte, aber Neubauten im Jahr 2026 sind typischerweise H100. Wir bieten derzeit keine A6000- oder A100-Stufen an; der Katalog springt von RTX 5090 zu H100.
Was wir liefern und was Sie wählen sollen
Um die GPU-Kaufentscheidung in einem Satz pro Workload zusammenzufassen: Chatbot / Coding-Assistent unter 32B → GPU-S (RTX 4090) für 7B-13B, GPU-M (RTX 5090) für 27B-32B; Flagship-70B-Inferenz (Llama-3.3-70B-Instruct, DeepSeek-R1-Distill-Llama-70B) → GPU-L (H100 SXM5); Full-Precision-70B oder Multi-GPU-Training → GPU-XL (2× H100 SXM5); Bild-/Video-/Sprach-Generierung → GPU-S, es sei denn, Sie brauchen Batch-Spielraum, dann GPU-M. Alle vier Stufen werden mit CUDA 12.4 + cuDNN vorinstalliert und 1-Klick-vLLM-/Ollama-/ComfyUI-/Stable-Diffusion-Templates geliefert. Die vollständige Hardware-Spezifikation ist auf /gpu.