Lựa chọn giữa RTX 4090, RTX 5090 và H100 SXM5 cho tính toán AI tự host năm 2026 hiếm khi xoay quanh con số TFLOPS tiêu đề. GPU phù hợp là GPU có VRAM, băng thông bộ nhớ và chi phí mỗi giờ inference khớp với lớp model và dạng batch bạn thực sự chạy. Hướng dẫn này đi qua bốn tầng GPU ServPrivacy cung cấp, các workload mỗi tầng phù hợp, và cách đọc số liệu throughput trên biểu đồ.
Bốn tầng trong một đoạn
RTX 4090 (GPU-S, $122.00–329/tháng) cung cấp 24 GB GDDR6X với ~1 TB/s băng thông bộ nhớ và ~83 TFLOPS FP16. Đây là lựa chọn phù hợp cho các language model 7B–13B, tạo ảnh FLUX.1 / SDXL, chuyển văn bản Whisper và text-to-speech Bark. RTX 5090 (GPU-M, $195.50–519/tháng) nâng lên 32 GB GDDR7 với ~1.8 TB/s và ~104 TFLOPS FP16; thêm 8 GB và ~80% băng thông cho phép chạy thoải mái các model 27B–32B (Gemma-3-27B, Qwen3-32B, Mistral-Small-3) và fine-tuning Llama nhỏ hơn khả thi hơn. H100 SXM5 (GPU-L, $832.50–1899/tháng) là một danh mục khác — 80 GB HBM3 với ~3.35 TB/s, ~989 TFLOPS FP16 (Tensor Core), có sẵn fabric NVLink; phù hợp cho các language model 70B, inference context dài và training nhanh hơn. 2× H100 SXM5 (GPU-XL, $1567.50–3599/tháng) dành cho inference 70B full-precision, training đa GPU và các model 100B+ ở Q4 / Q5.

Băng thông bộ nhớ chiếm ưu thế trong LLM inference
Đối với inference transformer decoder-only ở batch size đến khoảng 16, bottleneck là băng thông bộ nhớ, không phải FLOPS thô. Mỗi token được tạo ra buộc phải đọc toàn bộ trọng số model từ VRAM (giai đoạn prefill tái sử dụng K-V cache, nhưng mỗi token mới lại đọc lại các ma trận trọng số). HBM3 3.35 TB/s của H100 là lý do nó nhanh hơn ~3× mỗi token so với 4090 trên cùng model 70B — không phải con số TFLOPS cao hơn. Đó cũng là lý do bước nhảy của RTX 5090 từ GDDR6X lên GDDR7 (~1.8 TB/s vs ~1 TB/s) quan trọng hơn cho inference so với mức tăng FLOPS thô. Nếu workload của bạn thiên về inference hơn training, hãy ưu tiên băng thông hơn FLOPS.
Những gì vừa với 24 GB / 32 GB / 80 GB
Lượng tử hóa thay đổi bức tranh. Ở Q4_K_M (lượng tử hóa "chất lượng tốt" điển hình): model 7B cần ~4.5 GB, 13B ~8 GB, 27–32B ~20 GB, 70B ~42 GB, 100B ~60 GB. Cộng thêm ~10–15% dư cho K-V cache và CUDA workspace. Vừa thực tế: 24 GB = 7B–13B thoải mái, 27–32B với offload vất vả, 70B không khả thi. 32 GB = 27–32B thoải mái, 70B với CPU offload (chậm). 80 GB = 70B thoải mái ở Q4–Q5, 100B với offload. 160 GB (dual H100) = 70B ở FP16 / BF16, 100–180B ở Q4. Ở FP16 / BF16 (không lượng tử hóa) các con số tăng gấp đôi: 70B ở FP16 cần ~140 GB, đó là lý do 2× H100 là điểm khởi đầu cho inference model flagship full-precision.
Khi nào RTX 5090 là câu trả lời đúng
Ra mắt của RTX 5090 đầu năm 2025 tạo ra một điểm ngọt mới. Với các model lớp 27B–32B quan trọng nhất năm 2026 (Gemma-3-27B, Qwen3-32B, Mistral-Small-3, Phi-4, DeepSeek-R1-Distill-Qwen-32B), 5090 cung cấp throughput gấp khoảng 2.5× so với 4090 ở nửa chi phí H100. Nếu workload của bạn là "tôi cần một model trợ lý thực sự có khả năng với lý luận, hỗ trợ đa ngôn ngữ và context window 32K, nhưng không cần 70B+", tầng GPU-M là điểm khởi đầu của bạn. Nó cũng phục vụ như một rig tạo ảnh mạnh mẽ — FLUX.1-dev chạy thoải mái với 16 GB VRAM dư cho batch độ phân giải cao.
Khi nào bạn muốn H100 hơn 4090
Ba tín hiệu chuyển quyết định mua sang GPU-L (H100 đơn): (1) bạn đang phục vụ các model lớp 70B hoặc DeepSeek-R1-Distill-Llama-70B và muốn time-to-first-token dưới một giây ở batch 1; (2) bạn đang chạy inference high-concurrency (vLLM với 16+ người dùng batch) nơi băng thông bộ nhớ H100 là yếu tố phá vỡ bottleneck; (3) bạn đang training hoặc LoRA fine-tuning trên dataset hơn ~10M token và muốn đường training FP8 mà 4090 / 5090 không có. Transformer Engine FP8 của H100 roughly doubles throughput training so với FP16, làm cho fine-tuning Llama 70B khả thi trên một card đơn.
Kinh tế $/token
Với workload khối lượng lớn, so sánh đúng là đô la mỗi triệu token ở throughput bền vững. Trên Llama-3.1-70B Q4, vLLM 0.7+, batch 16: RTX 4090 không thể host model mà không offload (CPU-RAM offload giảm throughput ~10×). RTX 5090 với CPU offload chạy ở khoảng $X mỗi 1M token (ước tính; thay đổi theo quant). H100 SXM5 đơn đạt khoảng $1.40–2.20 mỗi 1M output token ở mức giá khởi điểm $832.50/tháng của chúng tôi. So sánh với GPT-4o output của OpenAI ~$10 / 1M và Claude Sonnet ~$15 / 1M — khi workload của bạn đạt khoảng 30M token mỗi ngày, tự host trên H100 đơn rẻ hơn gọi API hosted, và kết quả về quyền riêng tư là end-to-end. Ở khối lượng thấp hơn, API hosted thắng về giá.
Workload ảnh, video và âm thanh
Tạo ảnh hiếm khi cần hơn một 4090 — FLUX.1-dev, SDXL, SD 3.5 đều vừa trong 24 GB ở chất lượng sản xuất, và ~83 TFLOPS FP16 của RTX 4090 là đủ. Chuyển lên 5090 / H100 chủ yếu mua thêm headroom batch-size (nhiều generation đồng thời hơn) chứ không phải tốc độ mỗi ảnh. AI video (Wan-2.1, CogVideoX-5B, workflow kiểu Runway) đòi hỏi hơn — GPU-M là điểm khởi đầu thực tế, GPU-L cho chất lượng sản xuất long-form. Whisper Large v3 ASR và Bark TTS đều chạy thoải mái trên 4090; H100 là overkill với chúng. Fine-tuning với LoRA hoặc QLoRA trên 7B–13B hoạt động trên 4090; fine-tuning 32B–70B thực tế muốn ít nhất 5090, H100 nếu bạn coi trọng thời gian.
RTX 5090 vs RTX A6000 / A100 thì sao?
Nếu bạn đã xem qua các tùy chọn GPU ngoài dòng card tiêu dùng, bạn có thể đã gặp RTX A6000 (48 GB, card datacenter) hoặc A100 (40 / 80 GB, HBM2e thế hệ trước). Nhận định nhanh: A6000 về cơ bản là tính toán ngang 4090 với VRAM gấp đôi, hữu ích nếu VRAM là bottleneck của bạn nhưng băng thông thì không (hiếm); A100 đã một thế hệ sau H100 và hiện chủ yếu có trên thị trường thứ cấp — nếu bạn tìm thấy với giá rẻ vẫn là card inference 70B đáng tin, nhưng các build mới năm 2026 thường là H100. Chúng tôi hiện không cung cấp tầng A6000 hoặc A100; danh mục nhảy thẳng từ RTX 5090 lên H100.
Những gì chúng tôi cung cấp và nên chọn gì
Tóm tắt quyết định mua GPU bằng một câu mỗi workload: chatbot / trợ lý code dưới 32B → GPU-S (RTX 4090) cho 7B–13B, GPU-M (RTX 5090) cho 27B–32B; inference 70B flagship (Llama-3.3-70B-Instruct, DeepSeek-R1-Distill-Llama-70B) → GPU-L (H100 SXM5); 70B full-precision hoặc training đa GPU → GPU-XL (2× H100 SXM5); tạo ảnh / video / giọng nói → GPU-S trừ khi bạn cần headroom batch, thì GPU-M. Tất cả bốn tầng đi kèm CUDA 12.4 + cuDNN cài sẵn và template 1-click vLLM / Ollama / ComfyUI / Stable Diffusion. Thông số kỹ thuật đầy đủ tại /gpu.