[Startseite](https://servprivacy.com/de) /
[Datenschutz-Hosting-Leitfäden](https://servprivacy.com/de/guides) /
RTX 4090 vs H100 SXM5 für KI-Inferenz (und wo RTX 5090 passt)


Kauf


# RTX 4090 vs H100 — Welche GPU für Ihre KI-Arbeitslast?


Die richtige NVIDIA-GPU für selbst gehostete KI auszuwählen ist nicht nur eine Frage des VRAM. RTX 4090 ist der Preis-Leistungs-Sweet-Spot für 7B-13B-Inferenz und Bildgenerierung; RTX 5090 (32 GB GDDR7) ist die neue mittlere Stufe für 27B-32B; H100 SXM5 (80 GB HBM3) ist für 70B-Klasse-Workloads geeignet, wo die Speicherbandbreite dominiert. Wir gehen durch die Kompromisse nach Workload-Klasse mit Durchsatzzahlen, $/Token-Ökonomie und was in jede ServPrivacy-GPU-Stufe passt.


[Anleitung lesen](#guide-body)
[FAQ](#guide-faq)


#### Auf dieser Seite


- [Anleitung](#guide-body)

- [FAQ](#guide-faq)

- [Verwandte Anleitungen](#guide-related)

- [Empfohlene Seiten](#guide-cta)


Kein KYC
Nur Krypto
Keine Logs
DMCA ignoriert
Voller Root-Zugriff
NVMe SSD


7 Min. Lesezeit
Aktualisiert May 2026

Auf dieser Seite

[01Die vier Stufen in einem Absatz](#die-vier-stufen-in-einem-absatz)
[02Speicherbandbreite dominiert LLM-Inferenz](#speicherbandbreite-dominiert-llm-inferenz)
[03Was in 24 GB / 32 GB / 80 GB passt](#was-in-24-gb-32-gb-80-gb-passt)
[04Wann RTX 5090 die richtige Antwort ist](#wann-rtx-5090-die-richtige-antwort-ist)
[05Wann Sie H100 statt 4090 wollen](#wann-sie-h100-statt-4090-wollen)
[06$/Token-Ökonomie](#token-Ökonomie)
[07Bild-, Video- und Audio-Workloads](#bild--video--und-audio-workloads)
[08Was ist mit RTX 5090 vs RTX A6000 / A100?](#was-ist-mit-rtx-5090-vs-rtx-a6000-a100)
[09Was wir liefern und was Sie wählen sollen](#was-wir-liefern-und-was-sie-wählen-sollen)
[FAQHäufige Fragen](#guide-faq)
[→Empfohlene Seiten](#guide-cta)


Die Wahl zwischen einer RTX 4090, einer RTX 5090 und einer H100 SXM5 für selbst gehostetes KI-Compute im Jahr 2026 dreht sich selten um die TFLOPS-Schlagzahl. Die richtige GPU ist diejenige, deren VRAM, Speicherbandbreite und Preis pro Inferenzstunde zur Modellklasse und Batch-Form passen, die Sie tatsächlich ausführen. Dieser Leitfaden geht durch die vier GPU-Stufen, die ServPrivacy liefert, die Workloads, für die jede ausgelegt ist, und wie man die Durchsatzzahlen im Diagramm liest.

## Die vier Stufen in einem Absatz

**RTX 4090 (GPU-S, $249-329/Monat)** liefert 24 GB GDDR6X bei ~1 TB/s Speicherbandbreite und ~83 TFLOPS FP16. Sie ist die richtige Wahl für 7B-13B-Sprachmodelle, FLUX.1 / SDXL-Bildgenerierung, Whisper-Transkription und Bark-Text-zu-Sprache. **RTX 5090 (GPU-M, $399-519/Monat)** erhöht auf 32 GB GDDR7 bei ~1,8 TB/s und ~104 TFLOPS FP16; die zusätzlichen 8 GB und ~80 % Bandbreiten-Uplift erschließen 27B-32B-Modelle komfortabel (Gemma-3-27B, Qwen3-32B, Mistral-Small-3) und ermöglichen das Fine-Tuning kleiner Llamas. **H100 SXM5 (GPU-L, $1699-1899/Monat)** ist eine andere Kategorie — 80 GB HBM3 bei ~3,35 TB/s, ~989 TFLOPS FP16 (Tensor-Core), mit verfügbarem NVLink-Klasse-Fabric; ausgelegt für 70B-Klasse-Sprachmodelle, längere Kontext-Inferenz und schnelleres Training. **2× H100 SXM5 (GPU-XL, $3199-3599/Monat)** ist für Full-Precision-70B-Inferenz, Multi-GPU-Training und 100B+-Modelle bei Q4 / Q5.

Durchsatz vs Batch-Größe auf RTX 4090 (24 GB), RTX 5090 (32 GB) und H100 SXM5 (80 GB) — Llama-3.1-70B-Instruct quantisiert auf Q4_K_M, vLLM 0.7+, Batch 1 bis Batch 32.

## Speicherbandbreite dominiert LLM-Inferenz

Für Decoder-only-Transformer-Inferenz bei Batch-Größen bis etwa 16 ist der Flaschenhals die Speicherbandbreite, nicht die rohen FLOPS. Jedes generierte Token erzwingt ein vollständiges Lesen der Modellgewichte aus VRAM (die Prefill-Phase verwendet den K-V-Cache wieder, aber jedes neue Token liest die Gewichtsmatrizen erneut). Die 3,35 TB/s HBM3 des H100 sind das, was ihn ~3x schneller pro Token als eine 4090 bei einem 70B-Klasse-Modell macht — nicht die höhere TFLOPS-Zahl. Das ist auch der Grund, warum der RTX-5090-Sprung von GDDR6X zu GDDR7 (~1,8 TB/s vs ~1 TB/s) für die Inferenz wichtiger ist als der rohe FLOPS-Sprung. Wenn Ihre Arbeitslast von Inferenz statt Training dominiert wird, priorisieren Sie Bandbreite über TFLOPS.

## Was in 24 GB / 32 GB / 80 GB passt

Quantisierung verändert das Bild. Bei **Q4_K_M** (eine typische „gute Qualität"-Quant): ein 7B-Modell benötigt ~4,5 GB, ein 13B ~8 GB, ein 27-32B ~20 GB, ein 70B ~42 GB, ein 100B ~60 GB. Fügen Sie ~10-15 % Spielraum für K-V-Cache und CUDA-Workspace hinzu. Die praktischen Passungen: **24 GB** = 7B-13B komfortabel, 27-32B mit Offload-Schmerzen, 70B nicht möglich. **32 GB** = 27-32B komfortabel, 70B mit CPU-Offload (langsam). **80 GB** = 70B komfortabel bei Q4-Q5, 100B mit Offload. **160 GB (Dual H100)** = 70B bei FP16 / BF16, 100-180B bei Q4. Bei **FP16 / BF16** (keine Quantisierung) verdoppeln sich die Zahlen: ein 70B bei FP16 benötigt ~140 GB, weshalb 2× H100 der Einstiegspunkt für Full-Precision-Flagship-Modell-Inferenz ist.

## Wann RTX 5090 die richtige Antwort ist

Die Veröffentlichung der RTX 5090 Anfang 2025 schuf einen neuen Sweet Spot. Für die 27B-32B-Klasse-Modelle, die 2026 am meisten zählen (Gemma-3-27B, Qwen3-32B, Mistral-Small-3, Phi-4, DeepSeek-R1-Distill-Qwen-32B), hat die 5090 etwa den 2,5-fachen Durchsatz einer 4090 bei der Hälfte der Kosten eines H100. Wenn Ihre Arbeitslast „Ich brauche ein wirklich leistungsfähiges Assistenzmodell mit Reasoning, mehrsprachiger Unterstützung und einem 32K-Kontextfenster, aber ich brauche nicht 70B+" ist, ist die GPU-M-Stufe der richtige Startpunkt. Sie dient auch als großzügiges Bildgenerierungs-Rig — FLUX.1-dev läuft komfortabel mit 16 GB VRAM-Spielraum für hochauflösende Batches.

## Wann Sie H100 statt 4090 wollen

Drei Signale verschieben die Kaufentscheidung auf GPU-L (einzelner H100): (1) Sie betreiben 70B-Klasse-Modelle oder DeepSeek-R1-Distill-Llama-70B und möchten sub-sekunden Time-to-First-Token bei Batch 1; (2) Sie führen hochfrequente gleichzeitige Inferenz aus (vLLM mit Batch 16+ Benutzer), wo die Speicherbandbreite des H100 der Flaschenhals-Brecher ist; (3) Sie trainieren oder LoRA-finetunen auf Datensätzen über ~10M Tokens und möchten den FP8-Trainingspfad, den die 4090 / 5090 nicht haben. Die FP8 Transformer Engine des H100 verdoppelt den Trainingsdurchsatz gegenüber FP16, was das Fine-Tuning von 70B Llama auf einer einzelnen Karte ermöglicht.

## $/Token-Ökonomie

Für hochvolumige Workloads ist der richtige Vergleich Dollar pro Million Tokens bei nachhaltigem Durchsatz. Auf Llama-3.1-70B Q4, vLLM 0.7+, Batch 16: Eine RTX 4090 kann das Modell ohne Offload nicht hosten (CPU-RAM-Offload tötet den Durchsatz um ~10x). Eine RTX 5090 mit CPU-Offload liegt bei rund $X pro 1M Tokens (ungefähr; variiert nach Quant). Ein einzelner H100 SXM5 liegt bei etwa $1,40-2,20 pro 1M Ausgabe-Tokens bei unserem $1699/Monat-Einstiegspreis. Vergleich: OpenAI GPT-4o-Ausgabe bei ~$10 / 1M und Claude Sonnet bei ~$15 / 1M — sobald Ihre Arbeitslast etwa 30M Tokens pro Tag erreicht, ist Self-Hosting auf einem einzelnen H100 günstiger als der Aufruf gehosteter APIs, und das Datenschutzergebnis ist lückenlos. Bei niedrigeren Volumen gewinnen gehostete APIs beim Preis.

## Bild-, Video- und Audio-Workloads

**Bildgenerierung** benötigt selten mehr als eine 4090 — FLUX.1-dev, SDXL, SD 3.5 passen alle in 24 GB in Produktionsqualität, und die ~83 TFLOPS FP16 der RTX 4090 reichen aus. Der Wechsel zu 5090 / H100 kauft hauptsächlich Batch-Größen-Spielraum (mehr gleichzeitige Generierungen) statt Geschwindigkeit pro Bild. **KI-Video** (Wan-2.1, CogVideoX-5B, Runway-Klasse-Workflows) ist anspruchsvoller — GPU-M ist der praktische Einstieg, GPU-L für Langform in Produktionsqualität. **Whisper Large v3 ASR** und **Bark TTS** laufen beide komfortabel auf der 4090; der H100 ist für sie überdimensioniert. **Fine-Tuning** mit LoRA oder QLoRA auf 7B-13B funktioniert auf einer 4090; Fine-Tuning von 32B-70B möchte realistischerweise mindestens 5090, H100 wenn Sie Zeit schätzen.

## Was ist mit RTX 5090 vs RTX A6000 / A100?

Wenn Sie sich GPU-Optionen außerhalb der Consumer-Karten-Reihe angeschaut haben, sind Sie möglicherweise auf RTX A6000 (48 GB, Datacenter-Karte) oder A100 (40 / 80 GB, ältere Generation HBM2e) gestoßen. Kurzes Urteil: Die A6000 ist grob 4090-Klasse-Compute mit doppeltem VRAM, nützlich wenn VRAM Ihr Flaschenhals ist, aber Bandbreite es nicht ist (selten); der A100 ist eine Generation hinter dem H100 und jetzt hauptsächlich auf dem Sekundärmarkt verfügbar — wenn Sie ihn günstig finden, bleibt er eine glaubwürdige 70B-Inferenz-Karte, aber Neubauten im Jahr 2026 sind typischerweise H100. Wir bieten derzeit keine A6000- oder A100-Stufen an; der Katalog springt von RTX 5090 zu H100.

## Was wir liefern und was Sie wählen sollen

Um die GPU-Kaufentscheidung in einem Satz pro Workload zusammenzufassen: **Chatbot / Coding-Assistent unter 32B** → GPU-S (RTX 4090) für 7B-13B, GPU-M (RTX 5090) für 27B-32B; **Flagship-70B-Inferenz (Llama-3.3-70B-Instruct, DeepSeek-R1-Distill-Llama-70B)** → GPU-L (H100 SXM5); **Full-Precision-70B oder Multi-GPU-Training** → GPU-XL (2× H100 SXM5); **Bild-/Video-/Sprach-Generierung** → GPU-S, es sei denn, Sie brauchen Batch-Spielraum, dann GPU-M. Alle vier Stufen werden mit CUDA 12.4 + cuDNN vorinstalliert und 1-Klick-vLLM-/Ollama-/ComfyUI-/Stable-Diffusion-Templates geliefert. Die vollständige Hardware-Spezifikation ist auf [/gpu](https://servprivacy.com/de/gpu).


FAQ

## GPU-Kauf — häufig gestellte Fragen


### 01
Warum ist Speicherbandbreite wichtiger als TFLOPS für die Inferenz?


Decoder-only-Transformer-Inferenz bei kleinen bis mittleren Batch-Größen ist speicherbeschränkt: Jedes generierte Token erfordert das Lesen der gesamten Gewichtsmatrix aus VRAM. Die Compute-Kernel sind schnell genug, dass die GPU die meiste Zeit damit verbringt, auf Speicherladeoperationen zu warten. Das ist der Grund, warum die 3,35 TB/s HBM3 des H100 etwa 3x schneller pro Token als die 1 TB/s GDDR6X einer 4090 beim selben 70B-Modell ist, obwohl die größere TFLOPS-Zahl des H100 fast zufällig ist.


### 02
Kann ich Llama-3.3-70B auf einer RTX 4090 ausführen?


Technisch ja, mit CPU-Offload über llama.cpp oder KTransformers — aber der Durchsatz fällt auf ~3-5 Tokens/Sekunde bei Langform-Generierung, was für Chat unbrauchbar langsam ist. Praktisch ist 70B eine H100-Arbeitslast (oder 2× RTX 5090 mit NVLink, was wir nicht anbieten). Wenn 70B das ist, was Sie brauchen, und Sie keine H100-Preise wollen, ziehen Sie DeepSeek-R1-Distill-Llama-8B oder DeepSeek-R1-Distill-Qwen-14B auf einer 4090 in Betracht — die destillierten Modelle sind beim Reasoning überraschend wettbewerbsfähig.


### 03
Ist die RTX 5090 besser als eine A100 für KI?


Für die Inferenz, meistens ja — die GDDR7 der 5090 (~1,8 TB/s) übersteigt die HBM2e der A100 40GB (~1,55 TB/s) an Bandbreite, und die FLOPS sind höher. Die 80-GB-SKU der A100 hat mehr VRAM (80 vs 32), was für 70B-Inferenz wichtig ist. Für das Training hat die A100 immer noch ECC-Speicher und den richtigen Datacenter-Featuresatz, dem der 5090 fehlt. Neubauten im Jahr 2026 wählen typischerweise H100 über A100; die 5090 füllt die Consumer-Klasse-Lücke.


### 04
Wann ist Self-Hosting tatsächlich günstiger als OpenAI / Anthropic?


Ungefähr: Ein einzelner H100 SXM5 für $1699/Monat, der Llama-3.3-70B bei nachhaltigem Batch-16-Durchsatz ausführt, liefert ~30-50M Ausgabe-Tokens/Tag. Zu GPT-4o-Preisen ($10/1M Ausgabe) sind das $300-500/Tag gleichwertiger gehosteter Ausgaben. Der Break-even-Punkt liegt bei etwa 5-7M Ausgabe-Tokens pro Tag. Darunter gewinnen gehostete APIs; darüber gewinnt Self-Hosting. Die Break-even-Punkte für RTX 4090 / 5090 skalieren nach unten mit den kleineren Modellen, die sie aufnehmen.


### 05
Wie vergleicht sich ServPrivacy-GPU mit Vast.ai oder RunPod?


Vast.ai ist bei Stunden-Spot günstiger ($0,30-0,70/h für eine 4090), aber die Qualität variiert stark (Consumer-Hardware in Privathaushalten, gemischtes Networking, Eviction-Risiko). RunPod ist konsistenter ($0,69-3,99/h On-Demand), aber US-Jurisdiktion mit E-Mail-/Zahlungsmethoden-KYC. ServPrivacy ist teurer pro Stunde als Vast.ai-Spot und ungefähr vergleichbar mit RunPod-On-Demand auf monatlicher Basis, aber mit nur-Token-Anmeldung, nativem Monero, kein Eviction, kein KYC und 4 Offshore-Jurisdiktionen. Die richtige Wahl hängt davon ab, ob Datenschutz und Vorhersehbarkeit oder reine Cents-pro-Stunde mehr zählen.


### 06
Was ist mit H200 oder B200 — soll ich auf die warten?


H200 (141 GB HBM3e) ist im Katalog bei Hyperscale-Anbietern wie CoreWeave, aber das Angebot im Offshore-Datenschutz-Host-Segment wird durch den NVIDIA-Channel-Partner-Status eingeschränkt — wir evaluieren die Verfügbarkeit für 2026-Q3. B200 NVL72 ist derzeit nur für Hyperscale-Fabric und nicht für Einzel-Karten-Vermietungen praktikabel. Für die meisten Selbst-Hoster hat ein H100 SXM5 im Jahr 2026 ausreichend Leistungsfähigkeit für 70B-Klasse-Workloads — der Fall für das Warten auf H200 ist hauptsächlich multimodale Langkontext-Anwendungsfälle (200K+ Tokens).


Verwandte Anleitungen

## Weiterlesen


[### Wie Sie im Jahr 2026 die richtige Offshore-Hosting-Jurisdiktion wählen

Kauf


Ein praktischer Entscheidungsrahmen für die Wahl einer Offshore-Jurisdiktion: Datenspeicherungspflicht, MLAT-Exposition, DMCA-Haltung, Reaktionsgeschwindigkeit der Gerichte und reale Durchsetzung — Land für Land.


6-Fragen-FAQ](https://servprivacy.com/de/guides/choosing-an-offshore-jurisdiction)
[### VPS vs. Dedizierter Server für datenschutzkritische Workloads

Kauf


Wann ein VPS ausreicht, wann geteilte Mieterschaft zum Risiko wird und wann Bare Metal die einzig ehrliche Antwort ist. Hardware-Isolation, Hypervisor-Risiko und Kosten vs. Bedrohungsmodell.


6-Fragen-FAQ](https://servprivacy.com/de/guides/vps-vs-dedicated-for-privacy)
[### Selbst gehostetes VPN auf einem No-KYC-VPS: WireGuard vs. OpenVPN

Betrieb


Warum ein selbst gehostetes VPN kommerziellen Anbietern überlegen ist und wie WireGuard und OpenVPN im Jahr 2026 wirklich bei Datenschutz, Performance und Betriebsrisiko abschneiden.


6-Fragen-FAQ](https://servprivacy.com/de/guides/self-hosted-vpn-wireguard-vs-openvpn)
[### Offshore Windows RDP für MT4 / MT5 / cTrader Forex-Trading

Betrieb


Vollständiger Leitfaden: Warum ein Windows-RDP für Forex-Trading, wie man eine latenzarme Offshore-Jurisdiktion wählt, MT4 / MT5 / cTrader / Expert-Advisor-Setup, Latenz zu Broker-Servern und der No-KYC-Checkout-Pfad.


6-Fragen-FAQ](https://servprivacy.com/de/guides/offshore-windows-rdp-for-forex-trading)
[### Krypto-Zahlungen für Hosting: Monero vs. Bitcoin vs. USDT

Datenschutz


Wie die Wahl der Zahlungswährung beeinflusst, was Ihr Hoster über Sie erfährt. Datenschutz, Gebühren, Abwicklung und Chain-Analyse-Exposition für XMR, BTC und USDT — mit einer klaren Empfehlung.


6-Fragen-FAQ](https://servprivacy.com/de/guides/crypto-payments-monero-vs-bitcoin-vs-usdt)


## Bereit, Ihre KI-Box bereitzustellen?


RTX 4090 ab $249/Monat, RTX 5090 ab $399/Monat, H100 SXM5 ab $1699/Monat. Nur-Token-Anmeldung, Krypto-Checkout, CUDA 12 + 1-Klick-KI-Templates.


[GPU-Pläne ansehen](https://servprivacy.com/de/gpu)
[No-KYC GPU Hosting](https://servprivacy.com/de/no-kyc-gpu)
[Self-Host LLM](https://servprivacy.com/de/uncensored-ai-hosting)