Escolher entre um RTX 4090, um RTX 5090 e um H100 SXM5 para compute de IA auto-hospedado em 2026 raramente é sobre o número de TFLOPS manchete. A GPU certa é aquela cuja VRAM, largura de banda de memória e preço por hora de inferência se encaixam na classe de modelo e forma de batch que você realmente roda. Este guia percorre os quatro níveis de GPU que a ServPrivacy oferece, as cargas de trabalho para as quais cada um é dimensionado e como ler os números de throughput no gráfico.
Os quatro níveis em um parágrafo
RTX 4090 (GPU-S, $249-329/mês) oferece 24 GB de GDDR6X a ~1 TB/s de largura de banda de memória e ~83 TFLOPS FP16. É a escolha certa para modelos de linguagem 7B-13B, geração de imagem FLUX.1 / SDXL, transcrição Whisper e texto-para-fala Bark. RTX 5090 (GPU-M, $399-519/mês) sobe para 32 GB GDDR7 a ~1,8 TB/s e ~104 TFLOPS FP16; os 8 GB extras e o aumento de largura de banda de ~80% desbloqueiam modelos 27B-32B confortavelmente (Gemma-3-27B, Qwen3-32B, Mistral-Small-3) e permitem ajuste fino de Llamas pequenos. H100 SXM5 (GPU-L, $1699-1899/mês) é uma categoria diferente — 80 GB HBM3 a ~3,35 TB/s, ~989 TFLOPS FP16 (Tensor-Core), com fabric NVLink disponível; é dimensionado para modelos de linguagem da classe 70B, inferência de contexto mais longo e treinamento mais rápido. 2× H100 SXM5 (GPU-XL, $3199-3599/mês) é para inferência 70B em precisão completa, treinamento multi-GPU e modelos 100B+ em Q4 / Q5.

A largura de banda de memória domina a inferência de LLM
Para inferência de transformador decoder-only em tamanhos de batch até cerca de 16, o gargalo é a largura de banda de memória, não os FLOPS brutos. Cada token gerado força uma leitura completa dos pesos do modelo da VRAM (a fase de prefill reutiliza o cache K-V, mas cada novo token lê as matrizes de pesos novamente). Os 3,35 TB/s de HBM3 do H100 é o que o torna ~3x mais rápido por token do que um 4090 em um modelo da classe 70B — não o número maior de TFLOPS. É também por isso que o salto do RTX 5090 de GDDR6X para GDDR7 (~1,8 TB/s vs ~1 TB/s) importa mais para inferência do que o aumento bruto de FLOPS. Se sua carga de trabalho é dominada por inferência em vez de treinamento, priorize largura de banda em vez de TFLOPS.
O que cabe em 24 GB / 32 GB / 80 GB
A quantização muda o cenário. Em Q4_K_M (uma quantização típica de "boa qualidade"): um modelo 7B precisa de ~4,5 GB, um 13B precisa de ~8 GB, um 27-32B precisa de ~20 GB, um 70B precisa de ~42 GB, um 100B precisa de ~60 GB. Adicione ~10-15% de espaço para cache K-V e workspace CUDA. Os encaixes práticos: 24 GB = 7B-13B confortável, 27-32B com dificuldade de offload, 70B inviável. 32 GB = 27-32B confortável, 70B com offload de CPU (lento). 80 GB = 70B confortável em Q4-Q5, 100B com offload. 160 GB (H100 duplo) = 70B em FP16 / BF16, 100-180B em Q4. Em FP16 / BF16 (sem quantização) os números dobram: um 70B em FP16 precisa de ~140 GB, por isso 2× H100 é o ponto de entrada para inferência de modelo flagship em precisão completa.
Quando o RTX 5090 é a resposta certa
O lançamento do RTX 5090 no início de 2025 criou um novo ponto ideal. Para os modelos da classe 27B-32B que mais importam em 2026 (Gemma-3-27B, Qwen3-32B, Mistral-Small-3, Phi-4, DeepSeek-R1-Distill-Qwen-32B), o 5090 tem aproximadamente 2,5x o throughput de um 4090 a metade do custo de um H100. Se sua carga de trabalho é "preciso de um modelo assistente realmente capaz com raciocínio, suporte multilíngue e uma janela de contexto de 32K, mas não preciso de 70B+", o nível GPU-M é onde você deve começar. Ele também funciona como um rig generoso de geração de imagem — FLUX.1-dev roda confortavelmente com 16 GB de espaço de VRAM para batches de alta resolução.
Quando você quer H100, não 4090
Três sinais empurram a decisão de compra para o GPU-L (H100 único): (1) você serve modelos da classe 70B ou DeepSeek-R1-Distill-Llama-70B e quer tempo-para-primeiro-token abaixo de um segundo no batch 1; (2) você roda inferência concorrente de alto batch (vLLM com batch 16+ usuários) onde a largura de banda de memória do H100 é o eliminador de gargalo; (3) você treina ou ajusta com LoRA em conjuntos de dados acima de ~10M tokens e quer o caminho de treinamento FP8 que o 4090 / 5090 não tem. O Transformer Engine FP8 do H100 aproximadamente dobra o throughput de treinamento vs FP16, o que torna o ajuste fino do Llama 70B viável em um único cartão.
Economia de $/token
Para cargas de trabalho de alto volume, a comparação certa é dólares por milhão de tokens em throughput sustentado. No Llama-3.1-70B Q4, vLLM 0.7+, batch 16: um RTX 4090 não consegue hospedar o modelo sem offload (o offload para CPU-RAM mata o throughput em ~10x). Um RTX 5090 com offload de CPU fica em torno de $X por 1M tokens (aproximado; varia por quantização). Um único H100 SXM5 fica em torno de $1,40-2,20 por 1M tokens de saída ao nosso preço inicial de $1699/mês. Compare com o output do GPT-4o da OpenAI a ~$10 / 1M e Claude Sonnet a ~$15 / 1M — uma vez que sua carga de trabalho alcance cerca de 30M tokens por dia, auto-hospedar em um único H100 é mais barato do que chamar APIs hospedadas, e o resultado de privacidade é de ponta a ponta. Para volumes menores, as APIs hospedadas vencem no custo.
Cargas de trabalho de imagem, vídeo e áudio
Geração de imagem raramente precisa de mais do que um 4090 — FLUX.1-dev, SDXL, SD 3.5 todos cabem em 24 GB com qualidade de produção, e os ~83 TFLOPS FP16 do RTX 4090 são suficientes. Ir para 5090 / H100 compra principalmente espaço de tamanho de batch (mais gerações concorrentes) em vez de velocidade por imagem. Vídeo de IA (Wan-2.1, CogVideoX-5B, workflows no estilo Runway) é mais exigente — GPU-M é a entrada prática, GPU-L para longa-metragem de qualidade de produção. ASR Whisper Large v3 e TTS Bark ambos rodam confortavelmente no 4090; o H100 é excessivo para eles. Ajuste fino com LoRA ou QLoRA em 7B-13B funciona em um 4090; ajuste fino 32B-70B realisticamente quer 5090 no mínimo, H100 se você valoriza o tempo.
E o RTX 5090 vs RTX A6000 / A100?
Se você analisou opções de GPU fora da linha de placas consumer, pode ter encontrado RTX A6000 (48 GB, placa de datacenter) ou A100 (40 / 80 GB, HBM2e de geração anterior). Veredicto rápido: o A6000 é aproximadamente compute de classe 4090 com o dobro de VRAM, útil se VRAM é seu gargalo mas largura de banda não é (raro); o A100 está uma geração atrás do H100 e agora está disponível principalmente no mercado secundário — se você o encontrar barato, ainda é uma placa credível de inferência 70B, mas novas construções em 2026 são tipicamente H100. Não oferecemos atualmente níveis A6000 ou A100; o catálogo pula do RTX 5090 para o H100.
O que oferecemos e o que escolher
Para resumir a decisão de compra de GPU em uma frase por carga de trabalho: chatbot / assistente de código abaixo de 32B → GPU-S (RTX 4090) para 7B-13B, GPU-M (RTX 5090) para 27B-32B; inferência flagship 70B (Llama-3.3-70B-Instruct, DeepSeek-R1-Distill-Llama-70B) → GPU-L (H100 SXM5); 70B em precisão completa ou treinamento multi-GPU → GPU-XL (2× H100 SXM5); geração de imagem / vídeo / voz → GPU-S a menos que precise de espaço de batch, então GPU-M. Todos os quatro níveis são fornecidos com CUDA 12.4 + cuDNN pré-instalados e modelos vLLM / Ollama / ComfyUI / Stable Diffusion com 1 clique. As especificações completas de hardware estão em /gpu.