Trang chủ / Hướng dẫn Hosting Riêng tư / RTX 4090 vs H100 SXM5 cho AI Inference (và Vị trí của RTX 5090)

Mua hàng

RTX 4090 vs H100 — GPU Nào Phù Hợp Với Workload AI Của Bạn?

Chọn GPU NVIDIA phù hợp để tự host AI không chỉ là bài toán VRAM. RTX 4090 là lựa chọn tối ưu về hiệu năng/giá cho inference 7B–13B và tạo ảnh; RTX 5090 (32 GB GDDR7) là tầng trung mới cho các model 27B–32B; H100 SXM5 (80 GB HBM3) dành cho workload 70B khi băng thông bộ nhớ là yếu tố quyết định. Chúng tôi phân tích các đánh đổi theo từng loại workload với số liệu throughput, kinh tế $/token và sự phù hợp với từng gói GPU của ServPrivacy.

Đọc hướng dẫn FAQ

Không KYC

Chỉ crypto

Không logs

Bỏ qua DMCA

Full root

NVMe SSD

Lựa chọn giữa RTX 4090, RTX 5090 và H100 SXM5 cho tính toán AI tự host năm 2026 hiếm khi xoay quanh con số TFLOPS tiêu đề. GPU phù hợp là GPU có VRAM, băng thông bộ nhớ và chi phí mỗi giờ inference khớp với lớp model và dạng batch bạn thực sự chạy. Hướng dẫn này đi qua bốn tầng GPU ServPrivacy cung cấp, các workload mỗi tầng phù hợp, và cách đọc số liệu throughput trên biểu đồ.

Bốn tầng trong một đoạn

RTX 4090 (GPU-S, $122.00–329/tháng) cung cấp 24 GB GDDR6X với ~1 TB/s băng thông bộ nhớ và ~83 TFLOPS FP16. Đây là lựa chọn phù hợp cho các language model 7B–13B, tạo ảnh FLUX.1 / SDXL, chuyển văn bản Whisper và text-to-speech Bark. RTX 5090 (GPU-M, $195.50–519/tháng) nâng lên 32 GB GDDR7 với ~1.8 TB/s và ~104 TFLOPS FP16; thêm 8 GB và ~80% băng thông cho phép chạy thoải mái các model 27B–32B (Gemma-3-27B, Qwen3-32B, Mistral-Small-3) và fine-tuning Llama nhỏ hơn khả thi hơn. H100 SXM5 (GPU-L, $832.50–1899/tháng) là một danh mục khác — 80 GB HBM3 với ~3.35 TB/s, ~989 TFLOPS FP16 (Tensor Core), có sẵn fabric NVLink; phù hợp cho các language model 70B, inference context dài và training nhanh hơn. 2× H100 SXM5 (GPU-XL, $1567.50–3599/tháng) dành cho inference 70B full-precision, training đa GPU và các model 100B+ ở Q4 / Q5.

RTX 4090 vs H100 — GPU Nào Phù Hợp Với Workload AI Của Bạn? — Throughput theo batch size trên RTX 4090 (24 GB), RTX 5090 (32 GB) và H100 SXM5 (80 GB) — Llama-3.1-70B-Instruct lượng tử hóa Q4_K_M, vLLM 0.7+, batch 1 đến batch 32.

Băng thông bộ nhớ chiếm ưu thế trong LLM inference

Đối với inference transformer decoder-only ở batch size đến khoảng 16, bottleneck là băng thông bộ nhớ, không phải FLOPS thô. Mỗi token được tạo ra buộc phải đọc toàn bộ trọng số model từ VRAM (giai đoạn prefill tái sử dụng K-V cache, nhưng mỗi token mới lại đọc lại các ma trận trọng số). HBM3 3.35 TB/s của H100 là lý do nó nhanh hơn ~3× mỗi token so với 4090 trên cùng model 70B — không phải con số TFLOPS cao hơn. Đó cũng là lý do bước nhảy của RTX 5090 từ GDDR6X lên GDDR7 (~1.8 TB/s vs ~1 TB/s) quan trọng hơn cho inference so với mức tăng FLOPS thô. Nếu workload của bạn thiên về inference hơn training, hãy ưu tiên băng thông hơn FLOPS.

Những gì vừa với 24 GB / 32 GB / 80 GB

Lượng tử hóa thay đổi bức tranh. Ở Q4_K_M (lượng tử hóa "chất lượng tốt" điển hình): model 7B cần ~4.5 GB, 13B ~8 GB, 27–32B ~20 GB, 70B ~42 GB, 100B ~60 GB. Cộng thêm ~10–15% dư cho K-V cache và CUDA workspace. Vừa thực tế: 24 GB = 7B–13B thoải mái, 27–32B với offload vất vả, 70B không khả thi. 32 GB = 27–32B thoải mái, 70B với CPU offload (chậm). 80 GB = 70B thoải mái ở Q4–Q5, 100B với offload. 160 GB (dual H100) = 70B ở FP16 / BF16, 100–180B ở Q4. Ở FP16 / BF16 (không lượng tử hóa) các con số tăng gấp đôi: 70B ở FP16 cần ~140 GB, đó là lý do 2× H100 là điểm khởi đầu cho inference model flagship full-precision.

Khi nào RTX 5090 là câu trả lời đúng

Ra mắt của RTX 5090 đầu năm 2025 tạo ra một điểm ngọt mới. Với các model lớp 27B–32B quan trọng nhất năm 2026 (Gemma-3-27B, Qwen3-32B, Mistral-Small-3, Phi-4, DeepSeek-R1-Distill-Qwen-32B), 5090 cung cấp throughput gấp khoảng 2.5× so với 4090 ở nửa chi phí H100. Nếu workload của bạn là "tôi cần một model trợ lý thực sự có khả năng với lý luận, hỗ trợ đa ngôn ngữ và context window 32K, nhưng không cần 70B+", tầng GPU-M là điểm khởi đầu của bạn. Nó cũng phục vụ như một rig tạo ảnh mạnh mẽ — FLUX.1-dev chạy thoải mái với 16 GB VRAM dư cho batch độ phân giải cao.

Khi nào bạn muốn H100 hơn 4090

Ba tín hiệu chuyển quyết định mua sang GPU-L (H100 đơn): (1) bạn đang phục vụ các model lớp 70B hoặc DeepSeek-R1-Distill-Llama-70B và muốn time-to-first-token dưới một giây ở batch 1; (2) bạn đang chạy inference high-concurrency (vLLM với 16+ người dùng batch) nơi băng thông bộ nhớ H100 là yếu tố phá vỡ bottleneck; (3) bạn đang training hoặc LoRA fine-tuning trên dataset hơn ~10M token và muốn đường training FP8 mà 4090 / 5090 không có. Transformer Engine FP8 của H100 roughly doubles throughput training so với FP16, làm cho fine-tuning Llama 70B khả thi trên một card đơn.

Kinh tế $/token

Với workload khối lượng lớn, so sánh đúng là đô la mỗi triệu token ở throughput bền vững. Trên Llama-3.1-70B Q4, vLLM 0.7+, batch 16: RTX 4090 không thể host model mà không offload (CPU-RAM offload giảm throughput ~10×). RTX 5090 với CPU offload chạy ở khoảng $X mỗi 1M token (ước tính; thay đổi theo quant). H100 SXM5 đơn đạt khoảng $1.40–2.20 mỗi 1M output token ở mức giá khởi điểm $832.50/tháng của chúng tôi. So sánh với GPT-4o output của OpenAI ~$10 / 1M và Claude Sonnet ~$15 / 1M — khi workload của bạn đạt khoảng 30M token mỗi ngày, tự host trên H100 đơn rẻ hơn gọi API hosted, và kết quả về quyền riêng tư là end-to-end. Ở khối lượng thấp hơn, API hosted thắng về giá.

Workload ảnh, video và âm thanh

Tạo ảnh hiếm khi cần hơn một 4090 — FLUX.1-dev, SDXL, SD 3.5 đều vừa trong 24 GB ở chất lượng sản xuất, và ~83 TFLOPS FP16 của RTX 4090 là đủ. Chuyển lên 5090 / H100 chủ yếu mua thêm headroom batch-size (nhiều generation đồng thời hơn) chứ không phải tốc độ mỗi ảnh. AI video (Wan-2.1, CogVideoX-5B, workflow kiểu Runway) đòi hỏi hơn — GPU-M là điểm khởi đầu thực tế, GPU-L cho chất lượng sản xuất long-form. Whisper Large v3 ASR và Bark TTS đều chạy thoải mái trên 4090; H100 là overkill với chúng. Fine-tuning với LoRA hoặc QLoRA trên 7B–13B hoạt động trên 4090; fine-tuning 32B–70B thực tế muốn ít nhất 5090, H100 nếu bạn coi trọng thời gian.

RTX 5090 vs RTX A6000 / A100 thì sao?

Nếu bạn đã xem qua các tùy chọn GPU ngoài dòng card tiêu dùng, bạn có thể đã gặp RTX A6000 (48 GB, card datacenter) hoặc A100 (40 / 80 GB, HBM2e thế hệ trước). Nhận định nhanh: A6000 về cơ bản là tính toán ngang 4090 với VRAM gấp đôi, hữu ích nếu VRAM là bottleneck của bạn nhưng băng thông thì không (hiếm); A100 đã một thế hệ sau H100 và hiện chủ yếu có trên thị trường thứ cấp — nếu bạn tìm thấy với giá rẻ vẫn là card inference 70B đáng tin, nhưng các build mới năm 2026 thường là H100. Chúng tôi hiện không cung cấp tầng A6000 hoặc A100; danh mục nhảy thẳng từ RTX 5090 lên H100.

Những gì chúng tôi cung cấp và nên chọn gì

Tóm tắt quyết định mua GPU bằng một câu mỗi workload: chatbot / trợ lý code dưới 32B → GPU-S (RTX 4090) cho 7B–13B, GPU-M (RTX 5090) cho 27B–32B; inference 70B flagship (Llama-3.3-70B-Instruct, DeepSeek-R1-Distill-Llama-70B) → GPU-L (H100 SXM5); 70B full-precision hoặc training đa GPU → GPU-XL (2× H100 SXM5); tạo ảnh / video / giọng nói → GPU-S trừ khi bạn cần headroom batch, thì GPU-M. Tất cả bốn tầng đi kèm CUDA 12.4 + cuDNN cài sẵn và template 1-click vLLM / Ollama / ComfyUI / Stable Diffusion. Thông số kỹ thuật đầy đủ tại /gpu.

FAQ

Mua GPU — câu hỏi thường gặp

01 Tại sao băng thông bộ nhớ quan trọng hơn TFLOPS đối với inference?

Inference transformer decoder-only ở batch size nhỏ đến trung bình bị giới hạn bởi bộ nhớ: mỗi token được tạo ra yêu cầu đọc toàn bộ ma trận trọng số từ VRAM. Các kernel tính toán đủ nhanh để GPU dành phần lớn thời gian chờ đợi tải bộ nhớ. Đó là lý do HBM3 3.35 TB/s của H100 nhanh hơn ~3× mỗi token so với GDDR6X 1 TB/s của 4090 trên cùng model 70B, dù con số TFLOPS cao hơn của H100 gần như chỉ là phụ.

02 Tôi có thể chạy Llama-3.3-70B trên RTX 4090 không?

Về kỹ thuật có, với CPU offload qua llama.cpp hoặc KTransformers — nhưng throughput giảm xuống ~3–5 token/giây cho generation dài, quá chậm để dùng thực tế cho chat. Thực tế, 70B là workload của H100 (hoặc 2× RTX 5090 với NVLink, chúng tôi không cung cấp). Nếu 70B là điều bạn cần nhưng không muốn giá H100, hãy xem xét DeepSeek-R1-Distill-Llama-8B hoặc DeepSeek-R1-Distill-Qwen-14B trên 4090 — các model chắt lọc cạnh tranh đáng ngạc nhiên về lý luận.

03 RTX 5090 có tốt hơn A100 cho AI không?

Về inference, phần lớn là có — GDDR7 của 5090 (~1.8 TB/s) nhỉnh hơn một chút HBM2e của A100 40 GB (~1.55 TB/s) về băng thông, và FLOPS cao hơn. SKU A100 80 GB có nhiều VRAM hơn (80 vs 32 GB), quan trọng cho inference 70B. Về training, A100 vẫn có ECC memory và bộ tính năng datacenter chính thức mà 5090 thiếu. Các build mới năm 2026 thường chọn H100 hơn A100; 5090 lấp đầy khoảng trống dòng consumer.

04 Khi nào tự host thực sự rẻ hơn OpenAI / Anthropic?

Ước chừng: H100 SXM5 đơn ở $832.50/tháng chạy Llama-3.3-70B ở throughput bền vững batch-16 tạo ra ~30–50M output token/ngày. Ở giá GPT-4o ($10/1M output) đó tương đương $300–500/ngày chi tiêu hosted. Điểm hòa vốn là khoảng 5–7M output token mỗi ngày. Dưới đó API hosted thắng; trên đó tự host thắng. Điểm hòa vốn cho RTX 4090 / 5090 giảm theo các model nhỏ hơn chúng host.

05 GPU của ServPrivacy so sánh thế nào với Vast.ai hoặc RunPod?

Vast.ai rẻ hơn theo giờ spot ($0.30–0.70/h cho 4090) nhưng chất lượng biến động nhiều (phần cứng consumer tại nhà riêng, mạng hỗn hợp, rủi ro thu hồi). RunPod nhất quán hơn ($0.69–3.99/h theo yêu cầu) nhưng thuộc quyền tài phán Mỹ với KYC email / phương thức thanh toán. ServPrivacy đắt hơn mỗi giờ so với Vast.ai spot và roughly comparable với RunPod on-demand theo tháng, nhưng với đăng ký chỉ bằng token, Monero native, không thu hồi, không KYC và 4 quyền tài phán offshore. Lựa chọn đúng phụ thuộc vào việc quyền riêng tư và khả năng dự đoán hay từng xu mỗi giờ quan trọng hơn với bạn.

06 H200 hoặc B200 thì sao — tôi có nên chờ không?

H200 (141 GB HBM3e) có trong danh mục tại các nhà cung cấp hyperscale như CoreWeave, nhưng nguồn cung trong phân khúc host quyền riêng tư offshore bị hạn chế bởi trạng thái channel-partner NVIDIA — chúng tôi đang đánh giá khả năng cho 2026-Q3. B200 NVL72 hiện độc quyền trong fabric hyperscale và không khả thi cho thuê card đơn. Với hầu hết người tự host, H100 SXM5 năm 2026 đủ khả năng cho workload 70B — lý lẽ chờ H200 chủ yếu là các use case multimodal context dài (200K+ token).

Sẵn sàng triển khai máy chủ AI của bạn?

RTX 4090 từ $122.00/tháng, RTX 5090 từ $195.50/tháng, H100 SXM5 từ $832.50/tháng. Đăng ký chỉ bằng token, thanh toán crypto, CUDA 12 + template AI 1-click.

Xem các gói GPU No-KYC GPU Hosting Self-Host LLM

RTX 4090 vs H100 — GPU Nào Phù Hợp Với Workload AI Của Bạn?

Trên trang này

Bốn tầng trong một đoạn

Băng thông bộ nhớ chiếm ưu thế trong LLM inference

Những gì vừa với 24 GB / 32 GB / 80 GB

Khi nào RTX 5090 là câu trả lời đúng

Khi nào bạn muốn H100 hơn 4090

Kinh tế $/token

Workload ảnh, video và âm thanh

RTX 5090 vs RTX A6000 / A100 thì sao?

Những gì chúng tôi cung cấp và nên chọn gì

Mua GPU — câu hỏi thường gặp

Đọc thêm

Cách chọn vùng lãnh thổ hosting nước ngoài năm 2026

VPS so với Server Chuyên dụng cho Workload Quan trọng về Quyền riêng tư

Tự Triển Khai VPN trên VPS Không KYC: WireGuard vs OpenVPN

Windows RDP Offshore cho Giao dịch Forex MT4 / MT5 / cTrader

Giải Thích Hosting Bỏ Qua DMCA: Thực Sự Có Nghĩa Gì Vào Năm 2026

Đăng Ký Tên Miền Ẩn Danh Bằng Tiền Mã Hóa: Quyền Riêng Tư WHOIS Năm 2026

Thanh Toán Crypto cho Hosting: Monero vs Bitcoin vs USDT

Hosting Không KYC Là Gì? Định Nghĩa, Tính Hợp Pháp & Cách Hoạt Động

Offshore Hosting Có Hợp Pháp Không? Câu Trả Lời Thành Thật Năm 2026

Cách Thanh Toán Hosting Bằng Monero (XMR) — Hướng Dẫn Từng Bước

Cách Lưu Trữ Website Ẩn Danh — Hướng Dẫn Thực Tế 2026

Cách Thiết Lập WireGuard VPN trên VPS — Hướng Dẫn Từng Bước

Cách Tự Host LLM trên GPU Server — Hướng Dẫn 2026

Bulletproof Hosting và Offshore Hosting — Sự Khác Biệt Là Gì?

Cách Mua VPS Bằng Bitcoin — Từng Bước (2026)

Các Quốc Gia Tốt Nhất cho Hosting Bỏ Qua DMCA năm 2026

Cách Host Dịch Vụ Ẩn Tor (Trang .onion) — Hướng Dẫn 2026

Thiết Lập Mail Server Offshore — Tự Host Email Riêng Tư năm 2026

Hướng Dẫn Hosting Node Crypto — Chạy Blockchain Node Trên VPS

GPU Hosting Cho Stable Diffusion — Chạy Image Server Của Riêng Bạn

OpSec Máy Chủ — Duy Trì Ẩn Danh Khi Vận Hành Máy Chủ

Hướng Dẫn Thiết Lập Seedbox — Xây Dựng Seedbox Riêng Tư Của Bạn Năm 2026

Sẵn sàng triển khai máy chủ AI của bạn?