Accueil / Guides Hébergement Privé / RTX 4090 vs H100 SXM5 pour l'inférence IA (et où se situe le RTX 5090)
Achat

RTX 4090 vs H100 — Quel GPU pour votre charge de travail IA ?

Choisir le bon GPU NVIDIA pour l'IA auto-hébergée ne se résume pas à la VRAM. Le RTX 4090 est le meilleur rapport qualité-prix pour l'inférence 7B-13B et la génération d'images ; le RTX 5090 (32 Go GDDR7) est le nouveau niveau intermédiaire pour les 27B-32B ; le H100 SXM5 (80 Go HBM3) est destiné aux charges 70B où la bande passante mémoire domine. Nous parcourons les compromis par classe de charge avec des chiffres de débit, l'économie $/token, et ce qui convient à chaque niveau GPU ServPrivacy.

Sans KYC
Crypto uniquement
Aucun journal
DMCA ignoré
Accès root complet
SSD NVMe

Choisir entre un RTX 4090, un RTX 5090 et un H100 SXM5 pour le calcul IA auto-hébergé en 2026 ne dépend que rarement du nombre de TFLOPS affiché. Le bon GPU est celui dont la VRAM, la bande passante mémoire et le prix par heure d'inférence correspondent à la classe de modèle et à la forme de lot que vous exécutez réellement. Ce guide parcourt les quatre niveaux GPU que propose ServPrivacy, les charges de travail pour lesquelles chacun est dimensionné, et comment lire les chiffres de débit sur le graphique.

Les quatre niveaux en un paragraphe

RTX 4090 (GPU-S, $249-329/mois) offre 24 Go de GDDR6X à ~1 To/s de bande passante mémoire et ~83 TFLOPS FP16. C'est le bon choix pour les modèles de langage 7B-13B, la génération d'images FLUX.1 / SDXL, la transcription Whisper et la synthèse vocale Bark. RTX 5090 (GPU-M, $399-519/mois) monte à 32 Go GDDR7 à ~1,8 To/s et ~104 TFLOPS FP16 ; les 8 Go supplémentaires et l'augmentation de bande passante de ~80 % débloquent confortablement les modèles 27B-32B (Gemma-3-27B, Qwen3-32B, Mistral-Small-3) et permettent d'affiner de petits Llamas. H100 SXM5 (GPU-L, $1699-1899/mois) est une catégorie différente — 80 Go HBM3 à ~3,35 To/s, ~989 TFLOPS FP16 (Tensor-Core), avec fabric NVLink disponible ; il est dimensionné pour les modèles de langage de classe 70B, l'inférence à contexte long, et l'entraînement plus rapide. 2× H100 SXM5 (GPU-XL, $3199-3599/mois) est destiné à l'inférence 70B pleine précision, l'entraînement multi-GPU, et les modèles 100B+ en Q4 / Q5.

RTX 4090 vs H100 — Quel GPU pour votre charge de travail IA ?
Débit vs taille de lot sur RTX 4090 (24 Go), RTX 5090 (32 Go) et H100 SXM5 (80 Go) — Llama-3.1-70B-Instruct quantifié en Q4_K_M, vLLM 0.7+, lot 1 à lot 32.

La bande passante mémoire domine l'inférence LLM

Pour l'inférence de transformer décodeur-uniquement à des tailles de lot allant jusqu'à environ 16, le goulot d'étranglement est la bande passante mémoire, pas les FLOPS bruts. Chaque token généré force une lecture complète des poids du modèle depuis la VRAM (la phase de prefill réutilise le cache K-V, mais chaque nouveau token relit les matrices de poids). Les 3,35 To/s HBM3 du H100 sont ce qui le rend ~3 fois plus rapide par token qu'un 4090 sur un modèle de classe 70B — pas le nombre de TFLOPS plus élevé. C'est aussi pourquoi le bond du RTX 5090 de GDDR6X à GDDR7 (~1,8 To/s vs ~1 To/s) est plus important pour l'inférence que l'augmentation brute des FLOPS. Si votre charge est dominée par l'inférence plutôt que l'entraînement, privilégiez la bande passante aux TFLOPS.

Ce qui rentre dans 24 Go / 32 Go / 80 Go

La quantification change la donne. En Q4_K_M (une quantification typique « bonne qualité ») : un modèle 7B nécessite ~4,5 Go, un 13B ~8 Go, un 27-32B ~20 Go, un 70B ~42 Go, un 100B ~60 Go. Ajoutez ~10-15 % de marge pour le cache K-V et l'espace de travail CUDA. Les capacités pratiques : 24 Go = 7B-13B confortablement, 27-32B avec difficulté d'offload, 70B non viable. 32 Go = 27-32B confortablement, 70B avec offload CPU (lent). 80 Go = 70B confortablement en Q4-Q5, 100B avec offload. 160 Go (dual H100) = 70B en FP16 / BF16, 100-180B en Q4. En FP16 / BF16 (sans quantification), les chiffres doublent : un 70B en FP16 nécessite ~140 Go, d'où la nécessité de 2× H100 pour l'inférence en pleine précision des modèles phares.

Quand le RTX 5090 est la bonne réponse

La sortie du RTX 5090 début 2025 a créé un nouveau point idéal. Pour les modèles de classe 27B-32B qui comptent le plus en 2026 (Gemma-3-27B, Qwen3-32B, Mistral-Small-3, Phi-4, DeepSeek-R1-Distill-Qwen-32B), le 5090 offre environ 2,5 fois le débit d'un 4090 à la moitié du coût d'un H100. Si votre charge est « j'ai besoin d'un modèle assistant vraiment capable avec du raisonnement, un support multilingue et une fenêtre de contexte de 32K, mais pas de 70B+ », le niveau GPU-M est votre point de départ. Il sert aussi de rig généreux pour la génération d'images — FLUX.1-dev tourne confortablement avec 16 Go de VRAM disponibles pour des lots haute résolution.

Quand préférer le H100 au 4090

Trois signaux poussent la décision d'achat vers GPU-L (H100 unique) : (1) vous servez des modèles de classe 70B ou DeepSeek-R1-Distill-Llama-70B et voulez un temps-au-premier-token inférieur à la seconde au lot 1 ; (2) vous exécutez de l'inférence concurrente à lot élevé (vLLM avec lot 16+ utilisateurs) où la bande passante mémoire du H100 est le déblocage ; (3) vous entraînez ou affinez en LoRA sur des jeux de données de plus de ~10M tokens et voulez la voie d'entraînement FP8 que le 4090 / 5090 n'ont pas. Le FP8 Transformer Engine du H100 double environ le débit d'entraînement vs FP16, ce qui rend le finetuning du Llama 70B réalisable sur une seule carte.

Économie $/token

Pour les charges à volume élevé, la bonne comparaison est le coût par million de tokens à débit soutenu. Sur Llama-3.1-70B Q4, vLLM 0.7+, lot 16 : un RTX 4090 ne peut pas héberger le modèle sans offload (l'offload CPU-RAM tue le débit par ~10x). Un RTX 5090 avec offload CPU se situe autour de $X par million de tokens (approximatif ; varie selon la quantification). Un seul H100 SXM5 se situe autour de $1,40-2,20 par million de tokens de sortie à notre prix d'entrée de $1699/mois. Comparez à la sortie OpenAI GPT-4o à ~$10 / 1M et Claude Sonnet à ~$15 / 1M — une fois que votre charge atteint environ 30M tokens par jour, l'auto-hébergement sur un seul H100 est moins cher que l'appel aux API hébergées, et la confidentialité est de bout en bout. Pour des volumes plus faibles, les API hébergées gagnent sur le coût.

Charges image, vidéo et audio

La génération d'images nécessite rarement plus d'un 4090 — FLUX.1-dev, SDXL, SD 3.5 rentrent tous dans 24 Go à qualité de production, et les ~83 TFLOPS FP16 du RTX 4090 sont largement suffisants. Passer au 5090 / H100 achète surtout de la marge de lot (plus de générations simultanées) plutôt que de la vitesse par image. La vidéo IA (Wan-2.1, CogVideoX-5B, workflows de type Runway) est plus exigeante — GPU-M est l'entrée pratique, GPU-L pour la production long format de qualité. Whisper Large v3 ASR et Bark TTS fonctionnent tous deux confortablement sur le 4090 ; le H100 est superflu pour eux. Le finetuning avec LoRA ou QLoRA sur 7B-13B fonctionne sur un 4090 ; le finetuning de 32B-70B veut réalistement un 5090 minimum, H100 si vous valorisez le temps.

Et le RTX 5090 vs RTX A6000 / A100 ?

Si vous avez examiné des options GPU en dehors de la gamme grand public, vous avez peut-être rencontré le RTX A6000 (48 Go, carte datacenter) ou l'A100 (40 / 80 Go, HBM2e génération précédente). Verdict rapide : l'A6000 est un calcul de classe 4090 avec deux fois plus de VRAM, utile si la VRAM est votre goulot d'étranglement mais pas la bande passante (rare) ; l'A100 est une génération derrière le H100 et maintenant principalement disponible sur le marché secondaire — si vous le trouvez à bas prix, c'est encore une carte crédible pour l'inférence 70B, mais les nouvelles constructions en 2026 sont typiquement H100. Nous ne proposons actuellement ni l'A6000 ni l'A100 ; le catalogue saute du RTX 5090 au H100.

Ce que nous proposons et quoi choisir

Pour résumer la décision d'achat GPU en une phrase par charge : chatbot / assistant de code sous 32B → GPU-S (RTX 4090) pour 7B-13B, GPU-M (RTX 5090) pour 27B-32B ; inférence 70B phare (Llama-3.3-70B-Instruct, DeepSeek-R1-Distill-Llama-70B) → GPU-L (H100 SXM5) ; 70B pleine précision ou entraînement multi-GPU → GPU-XL (2× H100 SXM5) ; génération image / vidéo / voix → GPU-S sauf si vous avez besoin de marge de lot, alors GPU-M. Les quatre niveaux sont livrés avec CUDA 12.4 + cuDNN préinstallés et des templates vLLM / Ollama / ComfyUI / Stable Diffusion en 1 clic. La spécification matérielle complète est sur /gpu.

FAQ

Achat GPU — questions fréquentes

01 Pourquoi la bande passante mémoire est-elle plus importante que les TFLOPS pour l'inférence ?

L'inférence de transformer décodeur-uniquement à des tailles de lot petites à moyennes est limitée par la mémoire : chaque token généré nécessite la lecture de la matrice de poids entière depuis la VRAM. Les noyaux de calcul sont suffisamment rapides pour que le GPU passe la plupart de son temps à attendre les chargements mémoire. C'est pourquoi les 3,35 To/s HBM3 du H100 sont environ 3 fois plus rapides par token que les 1 To/s GDDR6X d'un 4090 sur le même modèle 70B, malgré le nombre de TFLOPS plus élevé du H100 qui est presque accessoire.

02 Puis-je exécuter Llama-3.3-70B sur un RTX 4090 ?

Techniquement oui, avec offload CPU via llama.cpp ou KTransformers — mais le débit tombe à ~3-5 tokens/seconde sur la génération longue forme, ce qui est inutilisablement lent pour le chat. Pratiquement, le 70B est une charge H100 (ou 2× RTX 5090 avec NVLink, que nous ne proposons pas). Si le 70B est ce dont vous avez besoin et que vous ne voulez pas du tarif H100, envisagez DeepSeek-R1-Distill-Llama-8B ou DeepSeek-R1-Distill-Qwen-14B sur un 4090 — les modèles distillés sont étonnamment compétitifs en raisonnement.

03 Le RTX 5090 est-il meilleur qu'un A100 pour l'IA ?

Pour l'inférence, globalement oui — le GDDR7 du 5090 (~1,8 To/s) dépasse légèrement le HBM2e de l'A100 40 Go (~1,55 To/s) en bande passante, et les FLOPS sont plus élevés. La SKU 80 Go de l'A100 a plus de VRAM (80 vs 32 Go), ce qui compte pour l'inférence 70B. Pour l'entraînement, l'A100 a toujours la mémoire ECC et l'ensemble de fonctionnalités datacenter approprié qui manquent au 5090. Les nouvelles constructions en 2026 choisissent généralement H100 plutôt qu'A100 ; le 5090 comble l'écart dans la gamme grand public.

04 À partir de quand l'auto-hébergement est-il réellement moins cher qu'OpenAI / Anthropic ?

Approximativement : un seul H100 SXM5 à $1699/mois exécutant Llama-3.3-70B à débit soutenu de lot 16 produit ~30-50M tokens de sortie/jour. Au tarif GPT-4o ($10/1M de sortie), cela représente $300-500/jour de dépenses équivalentes hébergées. Le point de rentabilité est d'environ 5-7M tokens de sortie par jour. En dessous, les API hébergées gagnent ; au-dessus, l'auto-hébergement gagne. Les points de rentabilité RTX 4090 / 5090 s'ajustent à la baisse avec les modèles plus petits qu'ils hébergent.

05 Comment le GPU ServPrivacy se compare-t-il à Vast.ai ou RunPod ?

Vast.ai est moins cher en spot horaire ($0,30-0,70/h pour un 4090) mais la qualité varie énormément (matériel grand public chez des particuliers, réseau hétérogène, risque d'éviction). RunPod est plus cohérent ($0,69-3,99/h à la demande) mais juridiction américaine avec KYC e-mail/mode de paiement. ServPrivacy est plus cher par heure que le spot Vast.ai et globalement comparable à RunPod à la demande sur une base mensuelle, mais inscription par token uniquement, Monero natif, aucune éviction, aucun KYC, et 4 juridictions offshore. Le bon choix dépend si la confidentialité et la prévisibilité ou les centimes bruts par heure comptent davantage.

06 Et le H200 ou le B200 — dois-je attendre ?

Le H200 (141 Go HBM3e) est au catalogue chez les fournisseurs hyperscale comme CoreWeave, mais l'approvisionnement dans le segment des hébergeurs offshore respectueux de la vie privée est conditionné au statut de partenaire de distribution NVIDIA — nous évaluons la disponibilité pour 2026-T3. Le B200 NVL72 est exclusivement en fabric hyperscale à ce stade et non réalisable pour des locations de carte unique. Pour la plupart des auto-hébergeurs, un H100 SXM5 en 2026 a des capacités suffisantes pour les charges de classe 70B — l'argument pour attendre le H200 concerne principalement les cas d'usage multimodaux à long contexte (200K+ tokens).

Prêt à déployer votre serveur IA ?

RTX 4090 à partir de $249/mois, RTX 5090 à partir de $399/mois, H100 SXM5 à partir de $1699/mois. Inscription par token uniquement, paiement crypto, CUDA 12 + templates IA 1 clic.

Voir les offres GPU No-KYC GPU Hosting Self-Host LLM