انتخاب بین RTX 4090، RTX 5090 و H100 SXM5 برای محاسبات هوش مصنوعی خودمیزبان در ۲۰۲۶ بهندرت به عنوان تیتر TFLOPS برمیگردد. GPU مناسب آن است که VRAM، پهنای باند حافظه و هزینه در هر ساعت استنتاج با کلاس مدل و شکل دستهای که واقعاً اجرا میکنید تطابق داشته باشد. این راهنما چهار سطح GPU که ServPrivacy ارائه میدهد، بارهای کاری متناسب با هر کدام و نحوه خواندن ارقام توان عملیاتی نمودار را توضیح میدهد.
چهار سطح در یک پاراگراف
RTX 4090 (GPU-S، $122.00–329/ماه) با 24 GB GDDR6X با پهنای باند حافظه ~۱ TB/s و ~۸۳ TFLOPS FP16 ارائه میشود. برای مدلهای زبانی ۷B–۱۳B، تولید تصویر FLUX.1/SDXL، رونویسی Whisper و متن-به-گفتار Bark انتخاب درستی است. RTX 5090 (GPU-M، $195.50–519/ماه) با 32 GB GDDR7 و ~۱.۸ TB/s و ~۱۰۴ TFLOPS FP16 یک پله بالاتر میرود؛ ۸ GB اضافه و ~۸۰٪ افزایش پهنای باند، مدلهای ۲۷B–۳۲B (Gemma-3-27B، Qwen3-32B، Mistral-Small-3) را بهراحتی پشتیبانی میکند و fine-tuning مدلهای Llama کوچکتر را عملی میسازد. H100 SXM5 (GPU-L، $832.50–1899/ماه) دستهای متفاوت است — 80 GB HBM3 با ~۳.۳۵ TB/s و ~۹۸۹ TFLOPS FP16 (Tensor Core) همراه با fabric NVLink؛ برای مدلهای زبانی کلاس ۷۰B، استنتاج با context طولانی و آموزش سریعتر طراحی شده. 2× H100 SXM5 (GPU-XL، $1567.50–3599/ماه) برای استنتاج ۷۰B با دقت کامل، آموزش چندکارتی و مدلهای ۱۰۰B+ در Q4/Q5 مناسب است.

پهنای باند حافظه در استنتاج LLM نقش محوری دارد
در استنتاج transformer decoder-only با اندازه دسته تا حدود ۱۶، گلوگاه پهنای باند حافظه است، نه FLOPS خام. هر token تولیدشده یک خواندن کامل وزنهای مدل از VRAM را ضروری میکند (مرحله prefill از کش K-V استفاده میکند، اما هر token جدید ماتریس وزنها را دوباره میخواند). HBM3 با ۳.۳۵ TB/s در H100 همان چیزی است که آن را ~۳ برابر سریعتر از 4090 در هر token روی همان مدل کلاس ۷۰B میکند — نه رقم بالاتر TFLOPS. به همین دلیل است که جهش RTX 5090 از GDDR6X به GDDR7 (~۱.۸ TB/s در مقابل ~۱ TB/s) برای استنتاج بیشتر از افزایش FLOPS خام اهمیت دارد. اگر بار کاری شما استنتاجمحور است نه آموزشمحور، اولویت را به پهنای باند بدهید، نه FLOPS.
چه چیزی در 24 GB / 32 GB / 80 GB جا میشود
کوانتایزاسیون تصویر را تغییر میدهد. در Q4_K_M (کوانت معمولی با «کیفیت خوب»): یک مدل ۷B به ~۴.۵ GB، مدل ۱۳B به ~۸ GB، مدل ۲۷–۳۲B به ~۲۰ GB، مدل ۷۰B به ~۴۲ GB و مدل ۱۰۰B به ~۶۰ GB نیاز دارد. ~۱۰–۱۵٪ headroom برای کش K-V و فضای کاری CUDA اضافه کنید. ظرفیت عملی: 24 GB = ۷B–۱۳B بهراحتی، ۲۷–۳۲B با دردسر offload، ۷۰B امکانپذیر نیست. 32 GB = ۲۷–۳۲B بهراحتی، ۷۰B با CPU offload (کند). 80 GB = ۷۰B بهراحتی در Q4–Q5، ۱۰۰B با offload. 160 GB (dual H100) = ۷۰B در FP16/BF16، ۱۰۰–۱۸۰B در Q4. در FP16/BF16 (بدون کوانتایزاسیون) اعداد دو برابر میشوند: یک ۷۰B در FP16 به ~۱۴۰ GB نیاز دارد، به همین دلیل 2× H100 نقطه ورود برای استنتاج مدل پرچمدار با دقت کامل است.
وقتی RTX 5090 پاسخ درست است
عرضه RTX 5090 در اوایل ۲۰۲۵ نقطه شیرین جدیدی ایجاد کرد. برای مدلهای کلاس ۲۷B–۳۲B که در ۲۰۲۶ بیشترین اهمیت را دارند (Gemma-3-27B، Qwen3-32B، Mistral-Small-3، Phi-4، DeepSeek-R1-Distill-Qwen-32B)، 5090 تقریباً ۲.۵ برابر توان عملیاتی 4090 را با نصف هزینه H100 ارائه میدهد. اگر نیاز شما «یک مدل دستیار واقعاً توانمند با استدلال، پشتیبانی چندزبانه و پنجره context 32K است، اما ۷۰B+ نمیخواهم»، سطح GPU-M نقطه شروع شماست. همچنین بهعنوان یک تجهیزات تولید تصویر مناسب عمل میکند — FLUX.1-dev با ۱۶ GB headroom از VRAM برای دستههای با وضوح بالا بهراحتی اجرا میشود.
وقتی H100 را به 4090 ترجیح میدهید
سه نشانه تصمیم خرید را به GPU-L (H100 تکی) تغییر میدهند: (۱) مدلهای کلاس ۷۰B یا DeepSeek-R1-Distill-Llama-70B را سرویس میدهید و time-to-first-token زیر یک ثانیه در دسته ۱ میخواهید؛ (۲) استنتاج با همزمانی بالا اجرا میکنید (vLLM با دسته ۱۶+ کاربر) که پهنای باند حافظه H100 گلوگاه را میشکند؛ (۳) آموزش یا fine-tuning LoRA روی مجموعهدادههایی بیش از ~۱۰M token انجام میدهید و مسیر آموزش FP8 که 4090/5090 ندارند را میخواهید. Transformer Engine FP8 در H100 تقریباً توان آموزش را نسبت به FP16 دو برابر میکند و fine-tuning مدل ۷۰B Llama را روی یک کارت عملی میسازد.
اقتصاد $/token
برای بارهای کاری با حجم بالا، مقایسه درست دلار به ازای هر میلیون token در توان عملیاتی پایدار است. روی Llama-3.1-70B Q4، vLLM 0.7+، دسته ۱۶: RTX 4090 بدون offload قادر به میزبانی مدل نیست (CPU-RAM offload توان عملیاتی را ~۱۰ برابر کاهش میدهد). RTX 5090 با CPU offload تقریباً $X به ازای هر ۱M token (تقریبی؛ بسته به کوانت متفاوت است) اجرا میشود. یک H100 SXM5 با قیمت پایه $832.50/ماه ما به تقریباً $1.40–2.20 به ازای هر ۱M token خروجی میرسد. در مقایسه با GPT-4o خروجی OpenAI با ~$10/۱M و Claude Sonnet با ~$15/۱M — وقتی بار کاری شما به حدود ۳۰M token در روز برسد، خودمیزبانی روی یک H100 از فراخوانی APIهای میزبانیشده ارزانتر است، و نتیجه حریم خصوصی end-to-end است. در حجمهای پایینتر، APIهای میزبانی از نظر قیمت برنده هستند.
بارهای کاری تصویر، ویدیو و صدا
تولید تصویر بهندرت به چیزی بیشتر از 4090 نیاز دارد — FLUX.1-dev، SDXL و SD 3.5 همه در 24 GB با کیفیت تولیدی جا میشوند، و ~۸۳ TFLOPS FP16 در RTX 4090 کافی است. ارتقا به 5090/H100 عمدتاً headroom اندازه دسته (تولیدهای همزمان بیشتر) میخرد نه سرعت تکتصویر. ویدیوی هوش مصنوعی (Wan-2.1، CogVideoX-5B، جریانهای کاری Runway) بیشتر تقاضا دارد — GPU-M نقطه ورود عملی، GPU-L برای کیفیت تولیدی بلندمدت. Whisper Large v3 ASR و Bark TTS هر دو روی 4090 بهراحتی اجرا میشوند؛ H100 برای آنها اضافی است. Fine-tuning با LoRA یا QLoRA روی ۷B–۱۳B روی 4090 کار میکند؛ fine-tuning ۳۲B–۷۰B واقعبینانه حداقل 5090 میخواهد، H100 اگر زمان برایتان ارزش دارد.
RTX 5090 در مقابل RTX A6000 / A100 چطور؟
اگر به گزینههای GPU خارج از خط کارتهای consumer نگاه کردهاید، احتمالاً با RTX A6000 (48 GB، کارت datacenter) یا A100 (40/80 GB، HBM2e نسل قبل) روبرو شدهاید. حکم سریع: A6000 از نظر محاسباتی تقریباً همکلاس 4090 است با دو برابر VRAM، مفید اگر VRAM گلوگاه است ولی پهنای باند نه (نادر)؛ A100 یک نسل پشت H100 است و اکنون عمدتاً در بازار ثانویه موجود است — اگر ارزان پیداش کنید هنوز یک کارت استنتاج ۷۰B قابلقبول است، اما سیستمهای جدید در ۲۰۲۶ معمولاً H100 هستند. ما در حال حاضر سطح A6000 یا A100 ارائه نمیدهیم؛ کاتالوگ از RTX 5090 به H100 میپرد.
آنچه ارائه میدهیم و چه باید انتخاب کرد
برای خلاصهسازی تصمیم خرید GPU در یک جمله به ازای هر بار کاری: چتبات / دستیار کدنویسی زیر 32B → GPU-S (RTX 4090) برای ۷B–۱۳B، GPU-M (RTX 5090) برای ۲۷B–۳۲B؛ استنتاج ۷۰B پرچمدار (Llama-3.3-70B-Instruct، DeepSeek-R1-Distill-Llama-70B) → GPU-L (H100 SXM5)؛ ۷۰B با دقت کامل یا آموزش چندکارتی → GPU-XL (2× H100 SXM5)؛ تولید تصویر/ویدیو/گفتار → GPU-S مگر اینکه headroom دستهای نیاز داشته باشید، سپس GPU-M. همه چهار سطح با CUDA 12.4 + cuDNN پیشنصبشده و قالبهای یککلیک vLLM/Ollama/ComfyUI/Stable Diffusion ارسال میشوند. مشخصات کامل سختافزاری در /gpu.