Elegir entre una RTX 4090, una RTX 5090 y una H100 SXM5 para cómputo IA autoalojado en 2026 rara vez depende del número de TFLOPS en el titular. La GPU correcta es aquella cuya VRAM, ancho de banda de memoria y precio por hora de inferencia se ajustan a la clase de modelo y la forma de lote que realmente ejecutas. Esta guía recorre los cuatro niveles GPU que ofrece ServPrivacy, las cargas de trabajo para las que está dimensionado cada uno, y cómo interpretar los números de rendimiento del gráfico.
Los cuatro niveles en un párrafo
RTX 4090 (GPU-S, $249-329/mo) ofrece 24 GB de GDDR6X a ~1 TB/s de ancho de banda de memoria y ~83 TFLOPS FP16. Es la opción correcta para modelos de lenguaje 7B-13B, generación de imágenes FLUX.1 / SDXL, transcripción Whisper y síntesis de voz Bark. RTX 5090 (GPU-M, $399-519/mo) sube a 32 GB GDDR7 a ~1,8 TB/s y ~104 TFLOPS FP16; los 8 GB adicionales y el aumento de ~80% en ancho de banda desbloquean modelos 27B-32B cómodamente (Gemma-3-27B, Qwen3-32B, Mistral-Small-3) y permiten hacer fine-tuning de Llamas pequeños. H100 SXM5 (GPU-L, $1699-1899/mo) es una categoría diferente — 80 GB HBM3 a ~3,35 TB/s, ~989 TFLOPS FP16 (Tensor-Core), con fabric tipo NVLink disponible; está dimensionada para modelos de lenguaje de clase 70B, inferencia de contexto largo y entrenamiento más rápido. 2× H100 SXM5 (GPU-XL, $3199-3599/mo) es para inferencia 70B en precisión completa, entrenamiento multi-GPU y modelos 100B+ en Q4 / Q5.

El ancho de banda de memoria domina la inferencia LLM
Para la inferencia de transformadores solo decodificadores con tamaños de lote de hasta aproximadamente 16, el cuello de botella es el ancho de banda de memoria, no los FLOPS brutos. Cada token generado fuerza una lectura completa de los pesos del modelo desde la VRAM (la fase de prefill reutiliza el caché K-V, pero cada nuevo token lee las matrices de pesos de nuevo). Los 3,35 TB/s de HBM3 de la H100 son lo que la hace ~3x más rápida por token que una 4090 en un modelo de clase 70B — no el mayor número de TFLOPS. Por eso el salto de la RTX 5090 de GDDR6X a GDDR7 (~1,8 TB/s vs ~1 TB/s) importa más para inferencia que el aumento de FLOPS brutos. Si tu carga de trabajo está dominada por inferencia en lugar de entrenamiento, prioriza el ancho de banda sobre los TFLOPS.
Qué cabe en 24 GB / 32 GB / 80 GB
La cuantización cambia el panorama. En Q4_K_M (una cuantización típica de "buena calidad"): un modelo 7B necesita ~4,5 GB, un 13B necesita ~8 GB, un 27-32B necesita ~20 GB, un 70B necesita ~42 GB, un 100B necesita ~60 GB. Añade ~10-15% de margen para el caché K-V y el espacio de trabajo CUDA. Lo que cabe en la práctica: 24 GB = 7B-13B cómodo, 27-32B con dolor de offload, 70B no viable. 32 GB = 27-32B cómodo, 70B con offload a CPU (lento). 80 GB = 70B cómodo en Q4-Q5, 100B con offload. 160 GB (dual H100) = 70B en FP16 / BF16, 100-180B en Q4. En FP16 / BF16 (sin cuantización) los números se duplican: un 70B en FP16 necesita ~140 GB, por eso 2× H100 es el punto de entrada para inferencia de modelos estrella en precisión completa.
Cuándo la RTX 5090 es la respuesta correcta
El lanzamiento de la RTX 5090 a principios de 2025 creó un nuevo punto óptimo. Para los modelos de clase 27B-32B que más importan en 2026 (Gemma-3-27B, Qwen3-32B, Mistral-Small-3, Phi-4, DeepSeek-R1-Distill-Qwen-32B), la 5090 ofrece aproximadamente 2,5x el rendimiento de una 4090 a la mitad del costo de una H100. Si tu carga de trabajo es "necesito un modelo asistente realmente capaz con razonamiento, soporte multilingüe y una ventana de contexto de 32K, pero no necesito 70B+", el nivel GPU-M es donde debes empezar. También funciona como un generador de imágenes generoso — FLUX.1-dev corre cómodamente con 16 GB de margen VRAM para lotes de alta resolución.
Cuándo quieres H100, no 4090
Tres señales empujan la decisión de compra hacia GPU-L (H100 simple): (1) sirves modelos de clase 70B o DeepSeek-R1-Distill-Llama-70B y quieres tiempo al primer token por debajo de un segundo en lote 1; (2) ejecutas inferencia concurrente de lote alto (vLLM con lote 16+ usuarios) donde el ancho de banda de memoria de la H100 rompe el cuello de botella; (3) entrenas o haces LoRA fine-tuning en conjuntos de datos de más de ~10M tokens y quieres la ruta de entrenamiento FP8 que la 4090 / 5090 no tienen. El FP8 Transformer Engine de la H100 aproximadamente duplica el rendimiento de entrenamiento vs FP16, lo que hace factible el fine-tuning de Llama 70B en una sola tarjeta.
Economía $/token
Para cargas de trabajo de alto volumen, la comparación correcta es dólares por millón de tokens a rendimiento sostenido. En Llama-3.1-70B Q4, vLLM 0.7+, lote 16: una RTX 4090 no puede alojar el modelo sin offload (el offload a CPU-RAM mata el rendimiento ~10x). Una RTX 5090 con offload a CPU se sitúa alrededor de $X por 1M tokens (aproximado; varía según la cuantización). Una H100 SXM5 simple se sitúa alrededor de $1,40-2,20 por 1M tokens de salida a nuestro precio de entrada de $1699/mo. Compara con GPT-4o de OpenAI a ~$10 / 1M de salida y Claude Sonnet a ~$15 / 1M — una vez que tu carga de trabajo alcanza aproximadamente 30M tokens por día, el autoalojamiento en una H100 simple es más barato que llamar a APIs hospedadas, y el resultado de privacidad es de extremo a extremo. Para volúmenes más bajos, las APIs hospedadas ganan en costo.
Cargas de trabajo de imagen, video y audio
La generación de imágenes rara vez necesita más que una 4090 — FLUX.1-dev, SDXL, SD 3.5 caben en 24 GB con calidad de producción, y los ~83 TFLOPS FP16 de la RTX 4090 son suficientes. Pasar a 5090 / H100 principalmente te da margen de tamaño de lote (más generaciones concurrentes) en lugar de velocidad por imagen. El video IA (Wan-2.1, CogVideoX-5B, flujos de trabajo tipo Runway) es más exigente — GPU-M es la entrada práctica, GPU-L para largo formato de calidad de producción. Whisper Large v3 ASR y Bark TTS ambos corren cómodamente en la 4090; la H100 es excesiva para ellos. El fine-tuning con LoRA o QLoRA en 7B-13B funciona en una 4090; el fine-tuning de 32B-70B realísticamente quiere 5090 como mínimo, H100 si valoras el tiempo.
¿Qué hay de RTX 5090 vs RTX A6000 / A100?
Si has mirado opciones de GPU fuera de la línea de tarjetas para consumidores, puede que hayas visto RTX A6000 (48 GB, tarjeta de datacenter) o A100 (40 / 80 GB, HBM2e de generación anterior). Veredicto rápido: la A6000 es cómputo de clase 4090 con el doble de VRAM, útil si la VRAM es tu cuello de botella pero el ancho de banda no lo es (raro); la A100 es una generación detrás de la H100 y ahora disponible principalmente en el mercado secundario — si la encuentras barata sigue siendo una tarjeta creíble para inferencia 70B, pero las nuevas instalaciones en 2026 típicamente usan H100. Actualmente no ofrecemos niveles A6000 o A100; el catálogo salta de RTX 5090 a H100.
Qué ofrecemos y qué elegir
Para resumir la decisión de compra de GPU en una frase por carga de trabajo: chatbot / asistente de código bajo 32B → GPU-S (RTX 4090) para 7B-13B, GPU-M (RTX 5090) para 27B-32B; inferencia 70B estrella (Llama-3.3-70B-Instruct, DeepSeek-R1-Distill-Llama-70B) → GPU-L (H100 SXM5); 70B en precisión completa o entrenamiento multi-GPU → GPU-XL (2× H100 SXM5); generación de imagen / video / voz → GPU-S a menos que necesites margen de lote, entonces GPU-M. Los cuatro niveles vienen con CUDA 12.4 + cuDNN preinstalados y plantillas de 1 clic para vLLM / Ollama / ComfyUI / Stable Diffusion. Las especificaciones de hardware completas están en /gpu.