Início / Guias de Hospedagem com Privacidade / RTX 4090 vs H100 SXM5 para Inferência de IA (e Onde o RTX 5090 se Encaixa)
Compra

RTX 4090 vs H100 — Qual GPU para Sua Carga de Trabalho de IA?

Escolher a GPU NVIDIA certa para IA auto-hospedada não é apenas uma questão de VRAM. RTX 4090 é o ponto ideal de preço para inferência 7B-13B e geração de imagem; RTX 5090 (32 GB GDDR7) é o novo nível intermediário para 27B-32B; H100 SXM5 (80 GB HBM3) é para cargas de trabalho da classe 70B onde a largura de banda de memória domina. Passamos pelas compensações por classe de carga de trabalho com números de throughput, economia de $/token e o que cabe em cada nível de GPU da ServPrivacy.

Sem KYC
Somente Cripto
Sem Logs
DMCA ignorado
Root Completo
NVMe SSD

Escolher entre um RTX 4090, um RTX 5090 e um H100 SXM5 para compute de IA auto-hospedado em 2026 raramente é sobre o número de TFLOPS manchete. A GPU certa é aquela cuja VRAM, largura de banda de memória e preço por hora de inferência se encaixam na classe de modelo e forma de batch que você realmente roda. Este guia percorre os quatro níveis de GPU que a ServPrivacy oferece, as cargas de trabalho para as quais cada um é dimensionado e como ler os números de throughput no gráfico.

Os quatro níveis em um parágrafo

RTX 4090 (GPU-S, $249-329/mês) oferece 24 GB de GDDR6X a ~1 TB/s de largura de banda de memória e ~83 TFLOPS FP16. É a escolha certa para modelos de linguagem 7B-13B, geração de imagem FLUX.1 / SDXL, transcrição Whisper e texto-para-fala Bark. RTX 5090 (GPU-M, $399-519/mês) sobe para 32 GB GDDR7 a ~1,8 TB/s e ~104 TFLOPS FP16; os 8 GB extras e o aumento de largura de banda de ~80% desbloqueiam modelos 27B-32B confortavelmente (Gemma-3-27B, Qwen3-32B, Mistral-Small-3) e permitem ajuste fino de Llamas pequenos. H100 SXM5 (GPU-L, $1699-1899/mês) é uma categoria diferente — 80 GB HBM3 a ~3,35 TB/s, ~989 TFLOPS FP16 (Tensor-Core), com fabric NVLink disponível; é dimensionado para modelos de linguagem da classe 70B, inferência de contexto mais longo e treinamento mais rápido. 2× H100 SXM5 (GPU-XL, $3199-3599/mês) é para inferência 70B em precisão completa, treinamento multi-GPU e modelos 100B+ em Q4 / Q5.

RTX 4090 vs H100 — Qual GPU para Sua Carga de Trabalho de IA?
Throughput vs tamanho de batch no RTX 4090 (24 GB), RTX 5090 (32 GB) e H100 SXM5 (80 GB) — Llama-3.1-70B-Instruct quantizado para Q4_K_M, vLLM 0.7+, batch 1 a batch 32.

A largura de banda de memória domina a inferência de LLM

Para inferência de transformador decoder-only em tamanhos de batch até cerca de 16, o gargalo é a largura de banda de memória, não os FLOPS brutos. Cada token gerado força uma leitura completa dos pesos do modelo da VRAM (a fase de prefill reutiliza o cache K-V, mas cada novo token lê as matrizes de pesos novamente). Os 3,35 TB/s de HBM3 do H100 é o que o torna ~3x mais rápido por token do que um 4090 em um modelo da classe 70B — não o número maior de TFLOPS. É também por isso que o salto do RTX 5090 de GDDR6X para GDDR7 (~1,8 TB/s vs ~1 TB/s) importa mais para inferência do que o aumento bruto de FLOPS. Se sua carga de trabalho é dominada por inferência em vez de treinamento, priorize largura de banda em vez de TFLOPS.

O que cabe em 24 GB / 32 GB / 80 GB

A quantização muda o cenário. Em Q4_K_M (uma quantização típica de "boa qualidade"): um modelo 7B precisa de ~4,5 GB, um 13B precisa de ~8 GB, um 27-32B precisa de ~20 GB, um 70B precisa de ~42 GB, um 100B precisa de ~60 GB. Adicione ~10-15% de espaço para cache K-V e workspace CUDA. Os encaixes práticos: 24 GB = 7B-13B confortável, 27-32B com dificuldade de offload, 70B inviável. 32 GB = 27-32B confortável, 70B com offload de CPU (lento). 80 GB = 70B confortável em Q4-Q5, 100B com offload. 160 GB (H100 duplo) = 70B em FP16 / BF16, 100-180B em Q4. Em FP16 / BF16 (sem quantização) os números dobram: um 70B em FP16 precisa de ~140 GB, por isso 2× H100 é o ponto de entrada para inferência de modelo flagship em precisão completa.

Quando o RTX 5090 é a resposta certa

O lançamento do RTX 5090 no início de 2025 criou um novo ponto ideal. Para os modelos da classe 27B-32B que mais importam em 2026 (Gemma-3-27B, Qwen3-32B, Mistral-Small-3, Phi-4, DeepSeek-R1-Distill-Qwen-32B), o 5090 tem aproximadamente 2,5x o throughput de um 4090 a metade do custo de um H100. Se sua carga de trabalho é "preciso de um modelo assistente realmente capaz com raciocínio, suporte multilíngue e uma janela de contexto de 32K, mas não preciso de 70B+", o nível GPU-M é onde você deve começar. Ele também funciona como um rig generoso de geração de imagem — FLUX.1-dev roda confortavelmente com 16 GB de espaço de VRAM para batches de alta resolução.

Quando você quer H100, não 4090

Três sinais empurram a decisão de compra para o GPU-L (H100 único): (1) você serve modelos da classe 70B ou DeepSeek-R1-Distill-Llama-70B e quer tempo-para-primeiro-token abaixo de um segundo no batch 1; (2) você roda inferência concorrente de alto batch (vLLM com batch 16+ usuários) onde a largura de banda de memória do H100 é o eliminador de gargalo; (3) você treina ou ajusta com LoRA em conjuntos de dados acima de ~10M tokens e quer o caminho de treinamento FP8 que o 4090 / 5090 não tem. O Transformer Engine FP8 do H100 aproximadamente dobra o throughput de treinamento vs FP16, o que torna o ajuste fino do Llama 70B viável em um único cartão.

Economia de $/token

Para cargas de trabalho de alto volume, a comparação certa é dólares por milhão de tokens em throughput sustentado. No Llama-3.1-70B Q4, vLLM 0.7+, batch 16: um RTX 4090 não consegue hospedar o modelo sem offload (o offload para CPU-RAM mata o throughput em ~10x). Um RTX 5090 com offload de CPU fica em torno de $X por 1M tokens (aproximado; varia por quantização). Um único H100 SXM5 fica em torno de $1,40-2,20 por 1M tokens de saída ao nosso preço inicial de $1699/mês. Compare com o output do GPT-4o da OpenAI a ~$10 / 1M e Claude Sonnet a ~$15 / 1M — uma vez que sua carga de trabalho alcance cerca de 30M tokens por dia, auto-hospedar em um único H100 é mais barato do que chamar APIs hospedadas, e o resultado de privacidade é de ponta a ponta. Para volumes menores, as APIs hospedadas vencem no custo.

Cargas de trabalho de imagem, vídeo e áudio

Geração de imagem raramente precisa de mais do que um 4090 — FLUX.1-dev, SDXL, SD 3.5 todos cabem em 24 GB com qualidade de produção, e os ~83 TFLOPS FP16 do RTX 4090 são suficientes. Ir para 5090 / H100 compra principalmente espaço de tamanho de batch (mais gerações concorrentes) em vez de velocidade por imagem. Vídeo de IA (Wan-2.1, CogVideoX-5B, workflows no estilo Runway) é mais exigente — GPU-M é a entrada prática, GPU-L para longa-metragem de qualidade de produção. ASR Whisper Large v3 e TTS Bark ambos rodam confortavelmente no 4090; o H100 é excessivo para eles. Ajuste fino com LoRA ou QLoRA em 7B-13B funciona em um 4090; ajuste fino 32B-70B realisticamente quer 5090 no mínimo, H100 se você valoriza o tempo.

E o RTX 5090 vs RTX A6000 / A100?

Se você analisou opções de GPU fora da linha de placas consumer, pode ter encontrado RTX A6000 (48 GB, placa de datacenter) ou A100 (40 / 80 GB, HBM2e de geração anterior). Veredicto rápido: o A6000 é aproximadamente compute de classe 4090 com o dobro de VRAM, útil se VRAM é seu gargalo mas largura de banda não é (raro); o A100 está uma geração atrás do H100 e agora está disponível principalmente no mercado secundário — se você o encontrar barato, ainda é uma placa credível de inferência 70B, mas novas construções em 2026 são tipicamente H100. Não oferecemos atualmente níveis A6000 ou A100; o catálogo pula do RTX 5090 para o H100.

O que oferecemos e o que escolher

Para resumir a decisão de compra de GPU em uma frase por carga de trabalho: chatbot / assistente de código abaixo de 32B → GPU-S (RTX 4090) para 7B-13B, GPU-M (RTX 5090) para 27B-32B; inferência flagship 70B (Llama-3.3-70B-Instruct, DeepSeek-R1-Distill-Llama-70B) → GPU-L (H100 SXM5); 70B em precisão completa ou treinamento multi-GPU → GPU-XL (2× H100 SXM5); geração de imagem / vídeo / voz → GPU-S a menos que precise de espaço de batch, então GPU-M. Todos os quatro níveis são fornecidos com CUDA 12.4 + cuDNN pré-instalados e modelos vLLM / Ollama / ComfyUI / Stable Diffusion com 1 clique. As especificações completas de hardware estão em /gpu.

Perguntas frequentes

Compra de GPU — perguntas frequentes

01 Por que a largura de banda de memória é mais importante do que TFLOPS para inferência?

A inferência de transformador decoder-only em tamanhos de batch pequenos a médios é limitada pela memória: cada token gerado requer a leitura de toda a matriz de pesos da VRAM. Os kernels de compute são rápidos o suficiente para que a GPU passe a maior parte do tempo aguardando cargas de memória. É por isso que os 3,35 TB/s de HBM3 do H100 são aproximadamente 3x mais rápidos por token do que os 1 TB/s de GDDR6X de um 4090 no mesmo modelo 70B, apesar do número maior de TFLOPS do H100 ser quase incidental.

02 Posso rodar Llama-3.3-70B em um RTX 4090?

Tecnicamente sim, com offload de CPU via llama.cpp ou KTransformers — mas o throughput cai para ~3-5 tokens/segundo em geração de longa forma, o que é inutilizavelmente lento para chat. Praticamente, 70B é uma carga de trabalho para H100 (ou 2× RTX 5090 com NVLink, que não oferecemos). Se 70B é o que você precisa e não quer o preço do H100, considere DeepSeek-R1-Distill-Llama-8B ou DeepSeek-R1-Distill-Qwen-14B em um 4090 — os modelos destilados são surpreendentemente competitivos em raciocínio.

03 O RTX 5090 é melhor do que um A100 para IA?

Para inferência, principalmente sim — o GDDR7 do 5090 (~1,8 TB/s) supera o HBM2e do A100 de 40GB (~1,55 TB/s) em largura de banda, e os FLOPS são maiores. O SKU de 80 GB do A100 tem mais VRAM (80 vs 32), o que importa para inferência 70B. Para treinamento, o A100 ainda tem memória ECC e o conjunto de recursos adequado de datacenter que o 5090 não tem. Novas construções em 2026 tipicamente escolhem H100 sobre A100; o 5090 preenche a lacuna de classe consumer.

04 Quando o auto-hospedado é realmente mais barato do que OpenAI / Anthropic?

Aproximadamente: um único H100 SXM5 a $1699/mês rodando Llama-3.3-70B em throughput sustentado de batch-16 entrega ~30-50M tokens de saída/dia. Ao preço do GPT-4o ($10/1M de saída) isso equivale a $300-500/dia de gasto hospedado equivalente. O ponto de equilíbrio é em torno de 5-7M tokens de saída por dia. Abaixo disso, as APIs hospedadas vencem; acima disso, o auto-hospedado vence. Os pontos de equilíbrio do RTX 4090 / 5090 escalam para baixo com os modelos menores que comportam.

05 Como a GPU da ServPrivacy se compara ao Vast.ai ou RunPod?

Vast.ai é mais barato em spot por hora ($0,30-0,70/h para um 4090) mas a qualidade varia muito (hardware consumer em residências, rede mista, risco de despejo). RunPod é mais consistente ($0,69-3,99/h sob demanda) mas com jurisdição dos EUA com KYC de e-mail/método de pagamento. A ServPrivacy é mais cara por hora do que o spot do Vast.ai e aproximadamente comparável ao RunPod sob demanda mensalmente, mas cadastro somente com token, Monero nativo, sem despejo, sem KYC e 4 jurisdições offshore. A escolha certa depende se privacidade e previsibilidade ou puro custo por hora importa mais.

06 E o H200 ou B200 — devo esperar por eles?

H200 (141 GB HBM3e) está no catálogo de provedores em hiperescala como CoreWeave, mas o fornecimento no segmento de host offshore de privacidade é controlado pelo status de parceiro de canal da NVIDIA — estamos avaliando disponibilidade para 2026-Q3. B200 NVL72 é exclusivo para fabric de hiperescala neste momento e não é viável para aluguéis de placa única. Para a maioria dos auto-hospedeiros, um H100 SXM5 em 2026 tem capacidade suficiente para cargas de trabalho da classe 70B — o argumento para esperar o H200 é principalmente para casos de uso multimodal de contexto longo (200K+ tokens).

Pronto para implantar sua caixa de IA?

RTX 4090 a partir de $249/mês, RTX 5090 a partir de $399/mês, H100 SXM5 a partir de $1699/mês. Cadastro somente com token, pagamento em cripto, CUDA 12 + modelos de IA com 1 clique.

Ver Planos de GPU No-KYC GPU Hosting Self-Host LLM