Inicio / Guías de Alojamiento Privado / RTX 4090 vs H100 SXM5 para inferencia IA (y dónde encaja la RTX 5090)

Compra

RTX 4090 vs H100 — ¿Qué GPU elegir para tu carga de trabajo IA?

Elegir la GPU NVIDIA correcta para IA autoalojada no es solo cuestión de VRAM. La RTX 4090 es el punto óptimo de precio para inferencia 7B-13B y generación de imágenes; la RTX 5090 (32 GB GDDR7) es el nuevo nivel medio para 27B-32B; la H100 SXM5 (80 GB HBM3) es para cargas de trabajo de clase 70B donde el ancho de banda de memoria es dominante. Analizamos los compromisos por clase de carga de trabajo con números de rendimiento, economía $/token y qué encaja en cada nivel GPU de ServPrivacy.

Leer la guía Preguntas frecuentes

Sin KYC

Solo cripto

Sin registros

DMCA ignorado

Root completo

NVMe SSD

Elegir entre una RTX 4090, una RTX 5090 y una H100 SXM5 para cómputo IA autoalojado en 2026 rara vez depende del número de TFLOPS en el titular. La GPU correcta es aquella cuya VRAM, ancho de banda de memoria y precio por hora de inferencia se ajustan a la clase de modelo y la forma de lote que realmente ejecutas. Esta guía recorre los cuatro niveles GPU que ofrece ServPrivacy, las cargas de trabajo para las que está dimensionado cada uno, y cómo interpretar los números de rendimiento del gráfico.

Los cuatro niveles en un párrafo

RTX 4090 (GPU-S, $249-329/mo) ofrece 24 GB de GDDR6X a ~1 TB/s de ancho de banda de memoria y ~83 TFLOPS FP16. Es la opción correcta para modelos de lenguaje 7B-13B, generación de imágenes FLUX.1 / SDXL, transcripción Whisper y síntesis de voz Bark. RTX 5090 (GPU-M, $399-519/mo) sube a 32 GB GDDR7 a ~1,8 TB/s y ~104 TFLOPS FP16; los 8 GB adicionales y el aumento de ~80% en ancho de banda desbloquean modelos 27B-32B cómodamente (Gemma-3-27B, Qwen3-32B, Mistral-Small-3) y permiten hacer fine-tuning de Llamas pequeños. H100 SXM5 (GPU-L, $1699-1899/mo) es una categoría diferente — 80 GB HBM3 a ~3,35 TB/s, ~989 TFLOPS FP16 (Tensor-Core), con fabric tipo NVLink disponible; está dimensionada para modelos de lenguaje de clase 70B, inferencia de contexto largo y entrenamiento más rápido. 2× H100 SXM5 (GPU-XL, $3199-3599/mo) es para inferencia 70B en precisión completa, entrenamiento multi-GPU y modelos 100B+ en Q4 / Q5.

RTX 4090 vs H100 — ¿Qué GPU elegir para tu carga de trabajo IA? — Rendimiento vs tamaño de lote en RTX 4090 (24 GB), RTX 5090 (32 GB) y H100 SXM5 (80 GB) — Llama-3.1-70B-Instruct cuantizado a Q4_K_M, vLLM 0.7+, lote 1 a lote 32.

El ancho de banda de memoria domina la inferencia LLM

Para la inferencia de transformadores solo decodificadores con tamaños de lote de hasta aproximadamente 16, el cuello de botella es el ancho de banda de memoria, no los FLOPS brutos. Cada token generado fuerza una lectura completa de los pesos del modelo desde la VRAM (la fase de prefill reutiliza el caché K-V, pero cada nuevo token lee las matrices de pesos de nuevo). Los 3,35 TB/s de HBM3 de la H100 son lo que la hace ~3x más rápida por token que una 4090 en un modelo de clase 70B — no el mayor número de TFLOPS. Por eso el salto de la RTX 5090 de GDDR6X a GDDR7 (~1,8 TB/s vs ~1 TB/s) importa más para inferencia que el aumento de FLOPS brutos. Si tu carga de trabajo está dominada por inferencia en lugar de entrenamiento, prioriza el ancho de banda sobre los TFLOPS.

Qué cabe en 24 GB / 32 GB / 80 GB

La cuantización cambia el panorama. En Q4_K_M (una cuantización típica de "buena calidad"): un modelo 7B necesita ~4,5 GB, un 13B necesita ~8 GB, un 27-32B necesita ~20 GB, un 70B necesita ~42 GB, un 100B necesita ~60 GB. Añade ~10-15% de margen para el caché K-V y el espacio de trabajo CUDA. Lo que cabe en la práctica: 24 GB = 7B-13B cómodo, 27-32B con dolor de offload, 70B no viable. 32 GB = 27-32B cómodo, 70B con offload a CPU (lento). 80 GB = 70B cómodo en Q4-Q5, 100B con offload. 160 GB (dual H100) = 70B en FP16 / BF16, 100-180B en Q4. En FP16 / BF16 (sin cuantización) los números se duplican: un 70B en FP16 necesita ~140 GB, por eso 2× H100 es el punto de entrada para inferencia de modelos estrella en precisión completa.

Cuándo la RTX 5090 es la respuesta correcta

El lanzamiento de la RTX 5090 a principios de 2025 creó un nuevo punto óptimo. Para los modelos de clase 27B-32B que más importan en 2026 (Gemma-3-27B, Qwen3-32B, Mistral-Small-3, Phi-4, DeepSeek-R1-Distill-Qwen-32B), la 5090 ofrece aproximadamente 2,5x el rendimiento de una 4090 a la mitad del costo de una H100. Si tu carga de trabajo es "necesito un modelo asistente realmente capaz con razonamiento, soporte multilingüe y una ventana de contexto de 32K, pero no necesito 70B+", el nivel GPU-M es donde debes empezar. También funciona como un generador de imágenes generoso — FLUX.1-dev corre cómodamente con 16 GB de margen VRAM para lotes de alta resolución.

Cuándo quieres H100, no 4090

Tres señales empujan la decisión de compra hacia GPU-L (H100 simple): (1) sirves modelos de clase 70B o DeepSeek-R1-Distill-Llama-70B y quieres tiempo al primer token por debajo de un segundo en lote 1; (2) ejecutas inferencia concurrente de lote alto (vLLM con lote 16+ usuarios) donde el ancho de banda de memoria de la H100 rompe el cuello de botella; (3) entrenas o haces LoRA fine-tuning en conjuntos de datos de más de ~10M tokens y quieres la ruta de entrenamiento FP8 que la 4090 / 5090 no tienen. El FP8 Transformer Engine de la H100 aproximadamente duplica el rendimiento de entrenamiento vs FP16, lo que hace factible el fine-tuning de Llama 70B en una sola tarjeta.

Economía $/token

Para cargas de trabajo de alto volumen, la comparación correcta es dólares por millón de tokens a rendimiento sostenido. En Llama-3.1-70B Q4, vLLM 0.7+, lote 16: una RTX 4090 no puede alojar el modelo sin offload (el offload a CPU-RAM mata el rendimiento ~10x). Una RTX 5090 con offload a CPU se sitúa alrededor de $X por 1M tokens (aproximado; varía según la cuantización). Una H100 SXM5 simple se sitúa alrededor de $1,40-2,20 por 1M tokens de salida a nuestro precio de entrada de $1699/mo. Compara con GPT-4o de OpenAI a ~$10 / 1M de salida y Claude Sonnet a ~$15 / 1M — una vez que tu carga de trabajo alcanza aproximadamente 30M tokens por día, el autoalojamiento en una H100 simple es más barato que llamar a APIs hospedadas, y el resultado de privacidad es de extremo a extremo. Para volúmenes más bajos, las APIs hospedadas ganan en costo.

Cargas de trabajo de imagen, video y audio

La generación de imágenes rara vez necesita más que una 4090 — FLUX.1-dev, SDXL, SD 3.5 caben en 24 GB con calidad de producción, y los ~83 TFLOPS FP16 de la RTX 4090 son suficientes. Pasar a 5090 / H100 principalmente te da margen de tamaño de lote (más generaciones concurrentes) en lugar de velocidad por imagen. El video IA (Wan-2.1, CogVideoX-5B, flujos de trabajo tipo Runway) es más exigente — GPU-M es la entrada práctica, GPU-L para largo formato de calidad de producción. Whisper Large v3 ASR y Bark TTS ambos corren cómodamente en la 4090; la H100 es excesiva para ellos. El fine-tuning con LoRA o QLoRA en 7B-13B funciona en una 4090; el fine-tuning de 32B-70B realísticamente quiere 5090 como mínimo, H100 si valoras el tiempo.

¿Qué hay de RTX 5090 vs RTX A6000 / A100?

Si has mirado opciones de GPU fuera de la línea de tarjetas para consumidores, puede que hayas visto RTX A6000 (48 GB, tarjeta de datacenter) o A100 (40 / 80 GB, HBM2e de generación anterior). Veredicto rápido: la A6000 es cómputo de clase 4090 con el doble de VRAM, útil si la VRAM es tu cuello de botella pero el ancho de banda no lo es (raro); la A100 es una generación detrás de la H100 y ahora disponible principalmente en el mercado secundario — si la encuentras barata sigue siendo una tarjeta creíble para inferencia 70B, pero las nuevas instalaciones en 2026 típicamente usan H100. Actualmente no ofrecemos niveles A6000 o A100; el catálogo salta de RTX 5090 a H100.

Qué ofrecemos y qué elegir

Para resumir la decisión de compra de GPU en una frase por carga de trabajo: chatbot / asistente de código bajo 32B → GPU-S (RTX 4090) para 7B-13B, GPU-M (RTX 5090) para 27B-32B; inferencia 70B estrella (Llama-3.3-70B-Instruct, DeepSeek-R1-Distill-Llama-70B) → GPU-L (H100 SXM5); 70B en precisión completa o entrenamiento multi-GPU → GPU-XL (2× H100 SXM5); generación de imagen / video / voz → GPU-S a menos que necesites margen de lote, entonces GPU-M. Los cuatro niveles vienen con CUDA 12.4 + cuDNN preinstalados y plantillas de 1 clic para vLLM / Ollama / ComfyUI / Stable Diffusion. Las especificaciones de hardware completas están en /gpu.

Preguntas frecuentes

Preguntas frecuentes sobre compra de GPU

01 ¿Por qué el ancho de banda de memoria es más importante que los TFLOPS para la inferencia?

La inferencia de transformadores solo decodificadores en tamaños de lote pequeños a medianos está limitada por la memoria: cada token generado requiere leer la matriz de pesos completa desde la VRAM. Los kernels de cómputo son lo suficientemente rápidos como que la GPU pasa la mayor parte del tiempo esperando cargas de memoria. Por eso los 3,35 TB/s de HBM3 de la H100 son aproximadamente 3x más rápidos por token que los 1 TB/s de GDDR6X de una 4090 en el mismo modelo 70B, a pesar de que el mayor número de TFLOPS de la H100 es casi incidental.

02 ¿Puedo ejecutar Llama-3.3-70B en una RTX 4090?

Técnicamente sí, con offload a CPU mediante llama.cpp o KTransformers — pero el rendimiento cae a ~3-5 tokens/segundo en generación de formato largo, lo cual es inutilizablemente lento para chat. En la práctica, 70B es una carga de trabajo para H100 (o 2× RTX 5090 con NVLink, que no ofrecemos). Si 70B es lo que necesitas y no quieres precios de H100, considera DeepSeek-R1-Distill-Llama-8B o DeepSeek-R1-Distill-Qwen-14B en una 4090 — los modelos destilados son sorprendentemente competitivos en razonamiento.

03 ¿Es la RTX 5090 mejor que una A100 para IA?

Para inferencia, mayormente sí — el GDDR7 de la 5090 (~1,8 TB/s) supera el HBM2e de la A100 40GB (~1,55 TB/s) en ancho de banda, y los FLOPS son mayores. El SKU de 80 GB de la A100 tiene más VRAM (80 vs 32), lo que importa para inferencia 70B. Para entrenamiento, la A100 todavía tiene memoria ECC y el conjunto de características de datacenter que a la 5090 le falta. Las nuevas instalaciones en 2026 típicamente eligen H100 sobre A100; la 5090 llena el hueco de clase consumidor.

04 ¿Cuándo el autoalojamiento es realmente más barato que OpenAI / Anthropic?

Aproximadamente: una H100 SXM5 simple a $1699/mo ejecutando Llama-3.3-70B a rendimiento sostenido de lote 16 entrega ~30-50M tokens de salida/día. Al precio de GPT-4o ($10/1M de salida) eso son $300-500/día de gasto equivalente hospedado. El punto de equilibrio está alrededor de 5-7M tokens de salida por día. Por debajo de eso, las APIs hospedadas ganan; por encima de eso, el autoalojamiento gana. Los puntos de equilibrio de la RTX 4090 / 5090 escalan hacia abajo con los modelos más pequeños que alojan.

05 ¿Cómo se compara la GPU de ServPrivacy con Vast.ai o RunPod?

Vast.ai es más barato por hora spot ($0,30-0,70/h para una 4090) pero la calidad varía enormemente (hardware de consumidor en hogares, redes mixtas, riesgo de desalojo). RunPod es más consistente ($0,69-3,99/h bajo demanda) pero jurisdicción en EE.UU. con KYC de correo/método de pago. ServPrivacy es más caro por hora que el spot de Vast.ai y aproximadamente comparable a RunPod bajo demanda en base mensual, pero registro solo con token, Monero nativo, sin desalojo, sin KYC y 4 jurisdicciones offshore. La elección correcta depende de si la privacidad y la predictibilidad o los centavos puros por hora importan más.

06 ¿Qué hay de la H200 o B200 — debería esperar a esas?

La H200 (141 GB HBM3e) está en el catálogo de proveedores a hiperescala como CoreWeave, pero el suministro en el segmento de hosts de privacidad offshore está condicionado al estatus de socio de canal NVIDIA — estamos evaluando disponibilidad en 2026-Q3. La B200 NVL72 es fabric de hiperescala exclusivamente en este punto y no es factible para alquileres de tarjeta única. Para la mayoría de quienes autoalojan, una H100 SXM5 en 2026 tiene capacidad suficiente para cargas de trabajo de clase 70B — el argumento para esperar la H200 es principalmente para casos de uso multimodal de contexto largo (200K+ tokens).

¿Listo para desplegar tu caja IA?

RTX 4090 desde $249/mo, RTX 5090 desde $399/mo, H100 SXM5 desde $1699/mo. Registro solo con token, checkout en cripto, CUDA 12 + plantillas IA de 1 clic.

Ver planes GPU No-KYC GPU Hosting Self-Host LLM

Bienvenido de nuevo

RTX 4090 vs H100 — ¿Qué GPU elegir para tu carga de trabajo IA?

En esta página

Los cuatro niveles en un párrafo

El ancho de banda de memoria domina la inferencia LLM

Qué cabe en 24 GB / 32 GB / 80 GB

Cuándo la RTX 5090 es la respuesta correcta

Cuándo quieres H100, no 4090

Economía $/token

Cargas de trabajo de imagen, video y audio

¿Qué hay de RTX 5090 vs RTX A6000 / A100?

Qué ofrecemos y qué elegir

Preguntas frecuentes sobre compra de GPU

Seguir leyendo

Cómo Elegir una Jurisdicción de Alojamiento Offshore en 2026

VPS vs Servidor Dedicado para Cargas de Trabajo Críticas de Privacidad

VPN Autogestionada en un VPS Sin KYC: WireGuard vs OpenVPN

RDP Windows Offshore para Trading Forex con MT4 / MT5 / cTrader

Pagos Cripto para Alojamiento: Monero vs Bitcoin vs USDT

¿Listo para desplegar tu caja IA?