在2026年为自托管AI算力选择RTX 4090、RTX 5090还是H100 SXM5,很少取决于标题TFLOPS数字。合适的GPU是显存、内存带宽和每推理小时价格与您实际运行的模型类别和批次形状相匹配的那款。本指南介绍ServPrivacy提供的四个GPU档次、各自针对的工作负载,以及如何解读图表上的吞吐量数字。
四个档次一段话概括
RTX 4090(GPU-S,$249-329/月)提供24 GB GDDR6X,内存带宽约1 TB/s,FP16约83 TFLOPS。适合7B-13B语言模型、FLUX.1 / SDXL图像生成、Whisper转录和Bark文字转语音。RTX 5090(GPU-M,$399-519/月)提升至32 GB GDDR7,带宽约1.8 TB/s,FP16约104 TFLOPS;额外的8 GB和约80%带宽提升轻松解锁27B-32B模型(Gemma-3-27B、Qwen3-32B、Mistral-Small-3),并可微调小型Llama。H100 SXM5(GPU-L,$1699-1899/月)属于不同级别——80 GB HBM3,带宽约3.35 TB/s,FP16约989 TFLOPS(Tensor-Core),可用NVLink级互联;针对70B级语言模型、长上下文推理和更快训练。2× H100 SXM5(GPU-XL,$3199-3599/月)适用于全精度70B推理、多GPU训练和100B+模型的Q4 / Q5量化。

内存带宽主导LLM推理
对于批次大小约16以下的仅解码器Transformer推理,瓶颈是内存带宽,而非原始FLOPS。每个生成的token都需要从显存完整读取模型权重(预填充阶段重用K-V缓存,但每个新token再次读取权重矩阵)。H100的3.35 TB/s HBM3使其在70B级模型上每token速度约为4090的3倍——不是因为更高的TFLOPS数字。这也是为什么RTX 5090从GDDR6X升级到GDDR7(约1.8 TB/s vs约1 TB/s)对推理的意义大于原始FLOPS提升。如果您的工作负载以推理为主而非训练,请优先考虑带宽而非TFLOPS。
24 GB / 32 GB / 80 GB能容纳什么
量化改变了格局。在Q4_K_M(典型的"良好质量"量化)下:7B模型需约4.5 GB,13B需约8 GB,27-32B需约20 GB,70B需约42 GB,100B需约60 GB。再加约10-15%的K-V缓存和CUDA工作区余量。实际适配:24 GB = 7B-13B轻松,27-32B需卸载有痛苦,70B不可行。32 GB = 27-32B轻松,70B需CPU卸载(较慢)。80 GB = Q4-Q5下70B轻松,100B需卸载。160 GB(双H100) = FP16 / BF16下70B,Q4下100-180B。在FP16 / BF16(无量化)下数字翻倍:FP16下70B需约140 GB,这就是为什么2× H100是全精度旗舰模型推理的入门点。
RTX 5090何时是正确答案
RTX 5090于2025年初发布,创造了新的最优区间。对于2026年最重要的27B-32B级模型(Gemma-3-27B、Qwen3-32B、Mistral-Small-3、Phi-4、DeepSeek-R1-Distill-Qwen-32B),5090的吞吐量约为4090的2.5倍,成本约为H100的一半。如果您的工作负载是"我需要一个具有推理能力、多语言支持和32K上下文窗口的真正强大助手模型,但不需要70B+",GPU-M档次是您应该开始的地方。它同时也是慷慨的图像生成装置——FLUX.1-dev以16 GB显存余量轻松运行高分辨率批次。
何时选H100而非4090
三个信号推动购买决策升至GPU-L(单H100):(1) 您服务70B级模型或DeepSeek-R1-Distill-Llama-70B,并希望在批次1时实现亚秒级首token时间;(2) 您运行高批次并发推理(vLLM批次16+用户),其中H100的内存带宽是瓶颈突破者;(3) 您在超过约1000万token的数据集上进行训练或LoRA微调,并希望使用4090 / 5090不具备的FP8训练路径。H100的FP8 Transformer Engine将训练吞吐量相比FP16大约翻倍,这正是在单卡上微调70B Llama成为可行的原因。
每token经济效益
对于高吞吐量工作负载,正确的比较是持续吞吐量下每百万token的美元成本。以Llama-3.1-70B Q4、vLLM 0.7+、批次16为例:RTX 4090无法在不卸载的情况下托管该模型(CPU-RAM卸载将吞吐量降低约10倍)。带CPU卸载的RTX 5090每1M token约为$X(粗略估计;随量化而变化)。单H100 SXM5在我们$1699/月起价时每1M输出token约为$1.40-2.20。与OpenAI GPT-4o输出约$10/1M和Claude Sonnet约$15/1M相比——一旦您的工作负载达到每天约3000万token,在单H100上自托管比调用托管API更便宜,且隐私保护结果是端到端的。对于较低吞吐量,托管API在成本上占优。
图像、视频和音频工作负载
图像生成很少需要超过4090——FLUX.1-dev、SDXL、SD 3.5都能在24 GB中以生产质量运行,RTX 4090约83 TFLOPS FP16 绰绰有余。升级到5090 / H100主要带来批次大小余量(更多并发生成)而非每张图像速度。AI视频(Wan-2.1、CogVideoX-5B、Runway级工作流)要求更高——GPU-M是实际入门点,GPU-L用于生产质量长视频。Whisper Large v3 ASR和Bark TTS都能在4090上轻松运行;H100对它们来说大材小用。使用LoRA或QLoRA微调7B-13B在4090上可行;微调32B-70B现实上至少需要5090,如果您看重时间则需要H100。
RTX 5090 vs RTX A6000 / A100如何?
如果您研究过消费卡系列之外的GPU选项,可能遇到过RTX A6000(48 GB,数据中心卡)或A100(40 / 80 GB,上一代HBM2e)。简短结论:A6000的算力约为4090级别但显存是其两倍,在显存是瓶颈但带宽不是的情况下有用(罕见);A100比H100落后一代,现在主要在二手市场上可得——如果能便宜找到,它仍是可信的70B推理卡,但2026年的新建通常是H100。我们目前不提供A6000或A100档次;产品目录从RTX 5090直接跳至H100。
我们提供什么以及如何选择
用一句话总结每个工作负载的GPU购买决策:32B以下的聊天机器人/编程助手 → GPU-S(RTX 4090)用于7B-13B,GPU-M(RTX 5090)用于27B-32B;旗舰70B推理(Llama-3.3-70B-Instruct、DeepSeek-R1-Distill-Llama-70B) → GPU-L(H100 SXM5);全精度70B或多GPU训练 → GPU-XL(2× H100 SXM5);图像/视频/语音生成 → GPU-S,除非您需要批次余量,则选GPU-M。所有四个档次均预装CUDA 12.4 + cuDNN,并提供一键vLLM / Ollama / ComfyUI / Stable Diffusion模板。完整硬件规格见/gpu。