خانه / راهنماهای میزبانی خصوصی / RTX 4090 در مقابل H100 SXM5 برای استنتاج هوش مصنوعی (و جایگاه RTX 5090)
خرید

RTX 4090 در مقابل H100 — کدام GPU برای بار کاری هوش مصنوعی شما؟

انتخاب GPU مناسب NVIDIA برای هوش مصنوعی خودمیزبان صرفاً به مسئله VRAM محدود نمی‌شود. RTX 4090 بهترین نسبت قیمت به عملکرد برای استنتاج ۷B–۱۳B و تولید تصویر است؛ RTX 5090 (32 GB GDDR7) سطح میانی جدیدی برای مدل‌های ۲۷B–۳۲B ایجاد کرده؛ و H100 SXM5 (80 GB HBM3) برای بارهای کاری کلاس ۷۰B طراحی شده که پهنای باند حافظه نقش محوری دارد. در این مقاله، معاوضه‌ها را بر اساس نوع بار کاری با ارقام توان عملیاتی، اقتصاد $/token و برنامه‌های GPU در ServPrivacy بررسی می‌کنیم.

بدون احراز هویت
فقط ارز دیجیتال
بدون لاگ
DMCA نادیده گرفته می‌شود
دسترسی کامل Root
NVMe SSD

انتخاب بین RTX 4090، RTX 5090 و H100 SXM5 برای محاسبات هوش مصنوعی خودمیزبان در ۲۰۲۶ به‌ندرت به عنوان تیتر TFLOPS برمی‌گردد. GPU مناسب آن است که VRAM، پهنای باند حافظه و هزینه در هر ساعت استنتاج با کلاس مدل و شکل دسته‌ای که واقعاً اجرا می‌کنید تطابق داشته باشد. این راهنما چهار سطح GPU که ServPrivacy ارائه می‌دهد، بارهای کاری متناسب با هر کدام و نحوه خواندن ارقام توان عملیاتی نمودار را توضیح می‌دهد.

چهار سطح در یک پاراگراف

RTX 4090 (GPU-S، $122.00–329/ماه) با 24 GB GDDR6X با پهنای باند حافظه ~۱ TB/s و ~۸۳ TFLOPS FP16 ارائه می‌شود. برای مدل‌های زبانی ۷B–۱۳B، تولید تصویر FLUX.1/SDXL، رونویسی Whisper و متن-به-گفتار Bark انتخاب درستی است. RTX 5090 (GPU-M، $195.50–519/ماه) با 32 GB GDDR7 و ~۱.۸ TB/s و ~۱۰۴ TFLOPS FP16 یک پله بالاتر می‌رود؛ ۸ GB اضافه و ~۸۰٪ افزایش پهنای باند، مدل‌های ۲۷B–۳۲B (Gemma-3-27B، Qwen3-32B، Mistral-Small-3) را به‌راحتی پشتیبانی می‌کند و fine-tuning مدل‌های Llama کوچک‌تر را عملی می‌سازد. H100 SXM5 (GPU-L، $832.50–1899/ماه) دسته‌ای متفاوت است — 80 GB HBM3 با ~۳.۳۵ TB/s و ~۹۸۹ TFLOPS FP16 (Tensor Core) همراه با fabric NVLink؛ برای مدل‌های زبانی کلاس ۷۰B، استنتاج با context طولانی و آموزش سریع‌تر طراحی شده. 2× H100 SXM5 (GPU-XL، $1567.50–3599/ماه) برای استنتاج ۷۰B با دقت کامل، آموزش چندکارتی و مدل‌های ۱۰۰B+ در Q4/Q5 مناسب است.

RTX 4090 در مقابل H100 — کدام GPU برای بار کاری هوش مصنوعی شما؟
توان عملیاتی در برابر اندازه دسته برای RTX 4090 (24 GB)، RTX 5090 (32 GB) و H100 SXM5 (80 GB) — Llama-3.1-70B-Instruct با کوانتایز Q4_K_M، vLLM 0.7+، دسته ۱ تا ۳۲.

پهنای باند حافظه در استنتاج LLM نقش محوری دارد

در استنتاج transformer decoder-only با اندازه دسته تا حدود ۱۶، گلوگاه پهنای باند حافظه است، نه FLOPS خام. هر token تولیدشده یک خواندن کامل وزن‌های مدل از VRAM را ضروری می‌کند (مرحله prefill از کش K-V استفاده می‌کند، اما هر token جدید ماتریس وزن‌ها را دوباره می‌خواند). HBM3 با ۳.۳۵ TB/s در H100 همان چیزی است که آن را ~۳ برابر سریع‌تر از 4090 در هر token روی همان مدل کلاس ۷۰B می‌کند — نه رقم بالاتر TFLOPS. به همین دلیل است که جهش RTX 5090 از GDDR6X به GDDR7 (~۱.۸ TB/s در مقابل ~۱ TB/s) برای استنتاج بیشتر از افزایش FLOPS خام اهمیت دارد. اگر بار کاری شما استنتاج‌محور است نه آموزش‌محور، اولویت را به پهنای باند بدهید، نه FLOPS.

چه چیزی در 24 GB / 32 GB / 80 GB جا می‌شود

کوانتایزاسیون تصویر را تغییر می‌دهد. در Q4_K_M (کوانت معمولی با «کیفیت خوب»): یک مدل ۷B به ~۴.۵ GB، مدل ۱۳B به ~۸ GB، مدل ۲۷–۳۲B به ~۲۰ GB، مدل ۷۰B به ~۴۲ GB و مدل ۱۰۰B به ~۶۰ GB نیاز دارد. ~۱۰–۱۵٪ headroom برای کش K-V و فضای کاری CUDA اضافه کنید. ظرفیت عملی: 24 GB = ۷B–۱۳B به‌راحتی، ۲۷–۳۲B با دردسر offload، ۷۰B امکان‌پذیر نیست. 32 GB = ۲۷–۳۲B به‌راحتی، ۷۰B با CPU offload (کند). 80 GB = ۷۰B به‌راحتی در Q4–Q5، ۱۰۰B با offload. 160 GB (dual H100) = ۷۰B در FP16/BF16، ۱۰۰–۱۸۰B در Q4. در FP16/BF16 (بدون کوانتایزاسیون) اعداد دو برابر می‌شوند: یک ۷۰B در FP16 به ~۱۴۰ GB نیاز دارد، به همین دلیل 2× H100 نقطه ورود برای استنتاج مدل پرچم‌دار با دقت کامل است.

وقتی RTX 5090 پاسخ درست است

عرضه RTX 5090 در اوایل ۲۰۲۵ نقطه شیرین جدیدی ایجاد کرد. برای مدل‌های کلاس ۲۷B–۳۲B که در ۲۰۲۶ بیشترین اهمیت را دارند (Gemma-3-27B، Qwen3-32B، Mistral-Small-3، Phi-4، DeepSeek-R1-Distill-Qwen-32B)، 5090 تقریباً ۲.۵ برابر توان عملیاتی 4090 را با نصف هزینه H100 ارائه می‌دهد. اگر نیاز شما «یک مدل دستیار واقعاً توانمند با استدلال، پشتیبانی چندزبانه و پنجره context 32K است، اما ۷۰B+ نمی‌خواهم»، سطح GPU-M نقطه شروع شماست. همچنین به‌عنوان یک تجهیزات تولید تصویر مناسب عمل می‌کند — FLUX.1-dev با ۱۶ GB headroom از VRAM برای دسته‌های با وضوح بالا به‌راحتی اجرا می‌شود.

وقتی H100 را به 4090 ترجیح می‌دهید

سه نشانه تصمیم خرید را به GPU-L (H100 تکی) تغییر می‌دهند: (۱) مدل‌های کلاس ۷۰B یا DeepSeek-R1-Distill-Llama-70B را سرویس می‌دهید و time-to-first-token زیر یک ثانیه در دسته ۱ می‌خواهید؛ (۲) استنتاج با همزمانی بالا اجرا می‌کنید (vLLM با دسته ۱۶+ کاربر) که پهنای باند حافظه H100 گلوگاه را می‌شکند؛ (۳) آموزش یا fine-tuning LoRA روی مجموعه‌داده‌هایی بیش از ~۱۰M token انجام می‌دهید و مسیر آموزش FP8 که 4090/5090 ندارند را می‌خواهید. Transformer Engine FP8 در H100 تقریباً توان آموزش را نسبت به FP16 دو برابر می‌کند و fine-tuning مدل ۷۰B Llama را روی یک کارت عملی می‌سازد.

اقتصاد $/token

برای بارهای کاری با حجم بالا، مقایسه درست دلار به ازای هر میلیون token در توان عملیاتی پایدار است. روی Llama-3.1-70B Q4، vLLM 0.7+، دسته ۱۶: RTX 4090 بدون offload قادر به میزبانی مدل نیست (CPU-RAM offload توان عملیاتی را ~۱۰ برابر کاهش می‌دهد). RTX 5090 با CPU offload تقریباً $X به ازای هر ۱M token (تقریبی؛ بسته به کوانت متفاوت است) اجرا می‌شود. یک H100 SXM5 با قیمت پایه $832.50/ماه ما به تقریباً $1.40–2.20 به ازای هر ۱M token خروجی می‌رسد. در مقایسه با GPT-4o خروجی OpenAI با ~$10/۱M و Claude Sonnet با ~$15/۱M — وقتی بار کاری شما به حدود ۳۰M token در روز برسد، خودمیزبانی روی یک H100 از فراخوانی APIهای میزبانی‌شده ارزان‌تر است، و نتیجه حریم خصوصی end-to-end است. در حجم‌های پایین‌تر، APIهای میزبانی از نظر قیمت برنده هستند.

بارهای کاری تصویر، ویدیو و صدا

تولید تصویر به‌ندرت به چیزی بیشتر از 4090 نیاز دارد — FLUX.1-dev، SDXL و SD 3.5 همه در 24 GB با کیفیت تولیدی جا می‌شوند، و ~۸۳ TFLOPS FP16 در RTX 4090 کافی است. ارتقا به 5090/H100 عمدتاً headroom اندازه دسته (تولیدهای همزمان بیشتر) می‌خرد نه سرعت تک‌تصویر. ویدیوی هوش مصنوعی (Wan-2.1، CogVideoX-5B، جریان‌های کاری Runway) بیشتر تقاضا دارد — GPU-M نقطه ورود عملی، GPU-L برای کیفیت تولیدی بلندمدت. Whisper Large v3 ASR و Bark TTS هر دو روی 4090 به‌راحتی اجرا می‌شوند؛ H100 برای آن‌ها اضافی است. Fine-tuning با LoRA یا QLoRA روی ۷B–۱۳B روی 4090 کار می‌کند؛ fine-tuning ۳۲B–۷۰B واقع‌بینانه حداقل 5090 می‌خواهد، H100 اگر زمان برایتان ارزش دارد.

RTX 5090 در مقابل RTX A6000 / A100 چطور؟

اگر به گزینه‌های GPU خارج از خط کارت‌های consumer نگاه کرده‌اید، احتمالاً با RTX A6000 (48 GB، کارت datacenter) یا A100 (40/80 GB، HBM2e نسل قبل) روبرو شده‌اید. حکم سریع: A6000 از نظر محاسباتی تقریباً هم‌کلاس 4090 است با دو برابر VRAM، مفید اگر VRAM گلوگاه است ولی پهنای باند نه (نادر)؛ A100 یک نسل پشت H100 است و اکنون عمدتاً در بازار ثانویه موجود است — اگر ارزان پیداش کنید هنوز یک کارت استنتاج ۷۰B قابل‌قبول است، اما سیستم‌های جدید در ۲۰۲۶ معمولاً H100 هستند. ما در حال حاضر سطح A6000 یا A100 ارائه نمی‌دهیم؛ کاتالوگ از RTX 5090 به H100 می‌پرد.

آنچه ارائه می‌دهیم و چه باید انتخاب کرد

برای خلاصه‌سازی تصمیم خرید GPU در یک جمله به ازای هر بار کاری: چت‌بات / دستیار کدنویسی زیر 32B → GPU-S (RTX 4090) برای ۷B–۱۳B، GPU-M (RTX 5090) برای ۲۷B–۳۲B؛ استنتاج ۷۰B پرچم‌دار (Llama-3.3-70B-Instruct، DeepSeek-R1-Distill-Llama-70B) → GPU-L (H100 SXM5)؛ ۷۰B با دقت کامل یا آموزش چندکارتی → GPU-XL (2× H100 SXM5)؛ تولید تصویر/ویدیو/گفتار → GPU-S مگر اینکه headroom دسته‌ای نیاز داشته باشید، سپس GPU-M. همه چهار سطح با CUDA 12.4 + cuDNN پیش‌نصب‌شده و قالب‌های یک‌کلیک vLLM/Ollama/ComfyUI/Stable Diffusion ارسال می‌شوند. مشخصات کامل سخت‌افزاری در /gpu.

سؤالات متداول

خرید GPU — سؤالات متداول

01 چرا پهنای باند حافظه در استنتاج از TFLOPS مهم‌تر است؟

استنتاج transformer decoder-only در اندازه‌های دسته کوچک تا متوسط، حافظه‌محدود است: هر token تولیدشده نیازمند خواندن کل ماتریس وزن از VRAM است. هسته‌های محاسباتی به‌قدری سریع هستند که GPU بیشتر وقتش را صرف انتظار برای بارگذاری حافظه می‌کند. به همین دلیل HBM3 با ۳.۳۵ TB/s در H100 تقریباً ۳ برابر سریع‌تر از GDDR6X با ۱ TB/s در 4090 برای هر token روی همان مدل ۷۰B است، حتی اگر رقم بالاتر TFLOPS در H100 تقریباً فرعی باشد.

02 آیا می‌توانم Llama-3.3-70B را روی RTX 4090 اجرا کنم؟

از نظر فنی بله، با CPU offload از طریق llama.cpp یا KTransformers — اما توان عملیاتی در تولید بلندمدت به ~۳–۵ token/ثانیه کاهش می‌یابد که برای چت غیرقابل‌استفاده است. عملاً ۷۰B یک بار کاری H100 است (یا 2× RTX 5090 با NVLink که ما ارائه نمی‌دهیم). اگر ۷۰B نیاز دارید اما قیمت H100 نمی‌خواهید، DeepSeek-R1-Distill-Llama-8B یا DeepSeek-R1-Distill-Qwen-14B روی 4090 را در نظر بگیرید — مدل‌های تقطیرشده در استدلال به‌طور شگفت‌انگیزی رقابتی هستند.

03 آیا RTX 5090 برای هوش مصنوعی از A100 بهتر است؟

برای استنتاج، عمدتاً بله — GDDR7 در 5090 (~۱.۸ TB/s) از نظر پهنای باند از HBM2e در A100 40 GB (~۱.۵۵ TB/s) جلوتر است و FLOPS بالاتر است. A100 80 GB VRAM بیشتری دارد (۸۰ در مقابل ۳۲ GB) که برای استنتاج ۷۰B اهمیت دارد. برای آموزش، A100 هنوز حافظه ECC و مجموعه ویژگی‌های datacenter واقعی را دارد که 5090 فاقد آن است. سیستم‌های جدید در ۲۰۲۶ معمولاً H100 را به جای A100 انتخاب می‌کنند؛ 5090 شکاف کلاس consumer را پر می‌کند.

04 خودمیزبانی واقعاً چه زمانی از OpenAI/Anthropic ارزان‌تر است؟

تقریباً: یک H100 SXM5 به قیمت $832.50/ماه که Llama-3.3-70B را با توان عملیاتی پایدار در دسته ۱۶ اجرا می‌کند، ~۳۰–۵۰M token خروجی در روز تولید می‌کند. با قیمت GPT-4o ($10/۱M خروجی)، این معادل $300–500/روز هزینه میزبانی است. نقطه سربه‌سر حدود ۵–۷M token خروجی در روز است. زیر آن APIهای میزبانی برنده‌اند؛ بالاتر از آن خودمیزبانی. نقاط سربه‌سر برای RTX 4090/5090 با مدل‌های کوچک‌تر که میزبانی می‌کنند به پایین مقیاس می‌شوند.

05 GPU ServPrivacy در مقایسه با Vast.ai یا RunPod چطور است؟

Vast.ai در ساعتی spot ارزان‌تر است ($0.30–0.70/h برای 4090) اما کیفیت به‌شدت متفاوت است (سخت‌افزار consumer در خانه‌های شخصی، شبکه‌بندی مختلط، ریسک eviction). RunPod سازگارتر است ($0.69–3.99/h on-demand) اما قضاوت US با KYC ایمیل/روش پرداخت. ServPrivacy از Vast.ai spot و تقریباً مشابه RunPod on-demand به صورت ماهانه گران‌تر است، اما با ثبت‌نام فقط با token، Monero بومی، بدون eviction، بدون KYC و ۴ قضاوت offshore. انتخاب درست بستگی به این دارد که حریم خصوصی و قابل‌پیش‌بینی بودن مهم‌تر است یا سنت‌های خام در هر ساعت.

06 H200 یا B200 چه؟ آیا باید منتظر بمانم؟

H200 (141 GB HBM3e) در کاتالوگ ارائه‌دهندگان hyperscale مثل CoreWeave موجود است، اما عرضه در بخش هاست حریم خصوصی offshore توسط وضعیت channel-partner NVIDIA محدود شده — ما موجودیت را برای Q3-2026 ارزیابی می‌کنیم. B200 NVL72 به طور انحصاری در fabric hyperscale است و برای اجاره تک‌کارت عملی نیست. برای اکثر خودمیزبان‌ها، H100 SXM5 در ۲۰۲۶ قابلیت کافی برای بارهای کاری کلاس ۷۰B دارد — دلیل انتظار برای H200 عمدتاً موارد استفاده multimodal با context طولانی (۲۰۰K+ token) است.

آماده استقرار جعبه هوش مصنوعی خود هستید؟

RTX 4090 از $122.00/ماه، RTX 5090 از $195.50/ماه، H100 SXM5 از $832.50/ماه. ثبت‌نام فقط با token، پرداخت ارزدیجیتال، CUDA 12 و قالب‌های یک‌کلیک هوش مصنوعی.

مشاهده طرح‌های GPU No-KYC GPU Hosting Self-Host LLM