Choisir entre un RTX 4090, un RTX 5090 et un H100 SXM5 pour le calcul IA auto-hébergé en 2026 ne dépend que rarement du nombre de TFLOPS affiché. Le bon GPU est celui dont la VRAM, la bande passante mémoire et le prix par heure d'inférence correspondent à la classe de modèle et à la forme de lot que vous exécutez réellement. Ce guide parcourt les quatre niveaux GPU que propose ServPrivacy, les charges de travail pour lesquelles chacun est dimensionné, et comment lire les chiffres de débit sur le graphique.
Les quatre niveaux en un paragraphe
RTX 4090 (GPU-S, $249-329/mois) offre 24 Go de GDDR6X à ~1 To/s de bande passante mémoire et ~83 TFLOPS FP16. C'est le bon choix pour les modèles de langage 7B-13B, la génération d'images FLUX.1 / SDXL, la transcription Whisper et la synthèse vocale Bark. RTX 5090 (GPU-M, $399-519/mois) monte à 32 Go GDDR7 à ~1,8 To/s et ~104 TFLOPS FP16 ; les 8 Go supplémentaires et l'augmentation de bande passante de ~80 % débloquent confortablement les modèles 27B-32B (Gemma-3-27B, Qwen3-32B, Mistral-Small-3) et permettent d'affiner de petits Llamas. H100 SXM5 (GPU-L, $1699-1899/mois) est une catégorie différente — 80 Go HBM3 à ~3,35 To/s, ~989 TFLOPS FP16 (Tensor-Core), avec fabric NVLink disponible ; il est dimensionné pour les modèles de langage de classe 70B, l'inférence à contexte long, et l'entraînement plus rapide. 2× H100 SXM5 (GPU-XL, $3199-3599/mois) est destiné à l'inférence 70B pleine précision, l'entraînement multi-GPU, et les modèles 100B+ en Q4 / Q5.

La bande passante mémoire domine l'inférence LLM
Pour l'inférence de transformer décodeur-uniquement à des tailles de lot allant jusqu'à environ 16, le goulot d'étranglement est la bande passante mémoire, pas les FLOPS bruts. Chaque token généré force une lecture complète des poids du modèle depuis la VRAM (la phase de prefill réutilise le cache K-V, mais chaque nouveau token relit les matrices de poids). Les 3,35 To/s HBM3 du H100 sont ce qui le rend ~3 fois plus rapide par token qu'un 4090 sur un modèle de classe 70B — pas le nombre de TFLOPS plus élevé. C'est aussi pourquoi le bond du RTX 5090 de GDDR6X à GDDR7 (~1,8 To/s vs ~1 To/s) est plus important pour l'inférence que l'augmentation brute des FLOPS. Si votre charge est dominée par l'inférence plutôt que l'entraînement, privilégiez la bande passante aux TFLOPS.
Ce qui rentre dans 24 Go / 32 Go / 80 Go
La quantification change la donne. En Q4_K_M (une quantification typique « bonne qualité ») : un modèle 7B nécessite ~4,5 Go, un 13B ~8 Go, un 27-32B ~20 Go, un 70B ~42 Go, un 100B ~60 Go. Ajoutez ~10-15 % de marge pour le cache K-V et l'espace de travail CUDA. Les capacités pratiques : 24 Go = 7B-13B confortablement, 27-32B avec difficulté d'offload, 70B non viable. 32 Go = 27-32B confortablement, 70B avec offload CPU (lent). 80 Go = 70B confortablement en Q4-Q5, 100B avec offload. 160 Go (dual H100) = 70B en FP16 / BF16, 100-180B en Q4. En FP16 / BF16 (sans quantification), les chiffres doublent : un 70B en FP16 nécessite ~140 Go, d'où la nécessité de 2× H100 pour l'inférence en pleine précision des modèles phares.
Quand le RTX 5090 est la bonne réponse
La sortie du RTX 5090 début 2025 a créé un nouveau point idéal. Pour les modèles de classe 27B-32B qui comptent le plus en 2026 (Gemma-3-27B, Qwen3-32B, Mistral-Small-3, Phi-4, DeepSeek-R1-Distill-Qwen-32B), le 5090 offre environ 2,5 fois le débit d'un 4090 à la moitié du coût d'un H100. Si votre charge est « j'ai besoin d'un modèle assistant vraiment capable avec du raisonnement, un support multilingue et une fenêtre de contexte de 32K, mais pas de 70B+ », le niveau GPU-M est votre point de départ. Il sert aussi de rig généreux pour la génération d'images — FLUX.1-dev tourne confortablement avec 16 Go de VRAM disponibles pour des lots haute résolution.
Quand préférer le H100 au 4090
Trois signaux poussent la décision d'achat vers GPU-L (H100 unique) : (1) vous servez des modèles de classe 70B ou DeepSeek-R1-Distill-Llama-70B et voulez un temps-au-premier-token inférieur à la seconde au lot 1 ; (2) vous exécutez de l'inférence concurrente à lot élevé (vLLM avec lot 16+ utilisateurs) où la bande passante mémoire du H100 est le déblocage ; (3) vous entraînez ou affinez en LoRA sur des jeux de données de plus de ~10M tokens et voulez la voie d'entraînement FP8 que le 4090 / 5090 n'ont pas. Le FP8 Transformer Engine du H100 double environ le débit d'entraînement vs FP16, ce qui rend le finetuning du Llama 70B réalisable sur une seule carte.
Économie $/token
Pour les charges à volume élevé, la bonne comparaison est le coût par million de tokens à débit soutenu. Sur Llama-3.1-70B Q4, vLLM 0.7+, lot 16 : un RTX 4090 ne peut pas héberger le modèle sans offload (l'offload CPU-RAM tue le débit par ~10x). Un RTX 5090 avec offload CPU se situe autour de $X par million de tokens (approximatif ; varie selon la quantification). Un seul H100 SXM5 se situe autour de $1,40-2,20 par million de tokens de sortie à notre prix d'entrée de $1699/mois. Comparez à la sortie OpenAI GPT-4o à ~$10 / 1M et Claude Sonnet à ~$15 / 1M — une fois que votre charge atteint environ 30M tokens par jour, l'auto-hébergement sur un seul H100 est moins cher que l'appel aux API hébergées, et la confidentialité est de bout en bout. Pour des volumes plus faibles, les API hébergées gagnent sur le coût.
Charges image, vidéo et audio
La génération d'images nécessite rarement plus d'un 4090 — FLUX.1-dev, SDXL, SD 3.5 rentrent tous dans 24 Go à qualité de production, et les ~83 TFLOPS FP16 du RTX 4090 sont largement suffisants. Passer au 5090 / H100 achète surtout de la marge de lot (plus de générations simultanées) plutôt que de la vitesse par image. La vidéo IA (Wan-2.1, CogVideoX-5B, workflows de type Runway) est plus exigeante — GPU-M est l'entrée pratique, GPU-L pour la production long format de qualité. Whisper Large v3 ASR et Bark TTS fonctionnent tous deux confortablement sur le 4090 ; le H100 est superflu pour eux. Le finetuning avec LoRA ou QLoRA sur 7B-13B fonctionne sur un 4090 ; le finetuning de 32B-70B veut réalistement un 5090 minimum, H100 si vous valorisez le temps.
Et le RTX 5090 vs RTX A6000 / A100 ?
Si vous avez examiné des options GPU en dehors de la gamme grand public, vous avez peut-être rencontré le RTX A6000 (48 Go, carte datacenter) ou l'A100 (40 / 80 Go, HBM2e génération précédente). Verdict rapide : l'A6000 est un calcul de classe 4090 avec deux fois plus de VRAM, utile si la VRAM est votre goulot d'étranglement mais pas la bande passante (rare) ; l'A100 est une génération derrière le H100 et maintenant principalement disponible sur le marché secondaire — si vous le trouvez à bas prix, c'est encore une carte crédible pour l'inférence 70B, mais les nouvelles constructions en 2026 sont typiquement H100. Nous ne proposons actuellement ni l'A6000 ni l'A100 ; le catalogue saute du RTX 5090 au H100.
Ce que nous proposons et quoi choisir
Pour résumer la décision d'achat GPU en une phrase par charge : chatbot / assistant de code sous 32B → GPU-S (RTX 4090) pour 7B-13B, GPU-M (RTX 5090) pour 27B-32B ; inférence 70B phare (Llama-3.3-70B-Instruct, DeepSeek-R1-Distill-Llama-70B) → GPU-L (H100 SXM5) ; 70B pleine précision ou entraînement multi-GPU → GPU-XL (2× H100 SXM5) ; génération image / vidéo / voix → GPU-S sauf si vous avez besoin de marge de lot, alors GPU-M. Les quatre niveaux sont livrés avec CUDA 12.4 + cuDNN préinstallés et des templates vLLM / Ollama / ComfyUI / Stable Diffusion en 1 clic. La spécification matérielle complète est sur /gpu.