Главная / Руководства по приватному хостингу / RTX 4090 vs H100 SXM5 для AI-инференса (и где помещается RTX 5090)
Перед покупкой

RTX 4090 vs H100 — какой GPU для вашей AI-задачи?

Выбор правильного GPU NVIDIA для self-хостируемого AI — это не только VRAM. RTX 4090 — оптимальное соотношение цены и качества для инференса 7B–13B и генерации изображений; RTX 5090 (32 ГБ GDDR7) — новый средний уровень для 27B–32B; H100 SXM5 (80 ГБ HBM3) — для задач класса 70B, где доминирует пропускная способность памяти. Мы разбираем компромиссы по классам задач с данными о пропускной способности, экономикой $/токен и тем, что вмещается в каждый GPU-уровень ServPrivacy.

Без KYC
Только крипто
Без логов
DMCA игнорируется
Полный root
NVMe SSD

Выбор между RTX 4090, RTX 5090 и H100 SXM5 для self-хостируемых AI-вычислений в 2026 году редко определяется числом TFLOPS в заголовке. Правильный GPU — тот, чья VRAM, пропускная способность памяти и цена за час инференса соответствуют классу модели и форме батча, которые вы реально используете. Это руководство рассматривает четыре GPU-уровня ServPrivacy, задачи, для которых каждый из них рассчитан, и как читать данные о пропускной способности на графике.

Четыре уровня в одном абзаце

RTX 4090 (GPU-S, $249–329/мес) — 24 ГБ GDDR6X при ~1 ТБ/с пропускной способности памяти и ~83 TFLOPS FP16. Правильный выбор для языковых моделей 7B–13B, генерации изображений FLUX.1 / SDXL, транскрипции Whisper и синтеза речи Bark. RTX 5090 (GPU-M, $399–519/мес) — 32 ГБ GDDR7 при ~1.8 ТБ/с и ~104 TFLOPS FP16; дополнительные 8 ГБ и ~80% прироста пропускной способности открывают комфортную работу с моделями 27B–32B (Gemma-3-27B, Qwen3-32B, Mistral-Small-3) и файнтюнинг небольших Llama. H100 SXM5 (GPU-L, $1699–1899/мес) — другая категория: 80 ГБ HBM3 при ~3.35 ТБ/с, ~989 TFLOPS FP16 (Tensor-Core), с доступной фабрикой NVLink; рассчитан на языковые модели класса 70B, инференс с длинным контекстом и более быстрое обучение. 2× H100 SXM5 (GPU-XL, $3199–3599/мес) — для инференса 70B в полной точности, многокарточного обучения и моделей 100B+ на Q4 / Q5.

RTX 4090 vs H100 — какой GPU для вашей AI-задачи?
Пропускная способность vs размер батча на RTX 4090 (24 ГБ), RTX 5090 (32 ГБ) и H100 SXM5 (80 ГБ) — Llama-3.1-70B-Instruct, квантизованная до Q4_K_M, vLLM 0.7+, батч от 1 до 32.

Пропускная способность памяти доминирует в LLM-инференсе

Для инференса трансформера только с декодером при размерах батча до примерно 16 узким местом является пропускная способность памяти, а не сырые FLOPS. Каждый генерируемый токен требует полного считывания весов модели из VRAM (фаза prefill повторно использует K-V кэш, но каждый новый токен снова читает весовые матрицы). 3.35 ТБ/с HBM3 у H100 обеспечивает ~3x более быстрый инференс на токен по сравнению с 4090 на модели класса 70B — а не числа TFLOPS. Именно поэтому переход RTX 5090 от GDDR6X до GDDR7 (~1.8 ТБ/с vs ~1 ТБ/с) важнее для инференса, чем прирост FLOPS. Если ваша задача — инференс, а не обучение, приоритизируйте пропускную способность над TFLOPS.

Что помещается в 24 ГБ / 32 ГБ / 80 ГБ

Квантизация меняет картину. При Q4_K_M (типичный «хорошего качества» quant): модель 7B требует ~4.5 ГБ, 13B — ~8 ГБ, 27–32B — ~20 ГБ, 70B — ~42 ГБ, 100B — ~60 ГБ. Добавьте ~10–15% запаса для K-V кэша и CUDA workspace. Практические варианты: 24 ГБ = 7B–13B комфортно, 27–32B с болезненным offload, 70B не реально. 32 ГБ = 27–32B комфортно, 70B с CPU offload (медленно). 80 ГБ = 70B комфортно на Q4–Q5, 100B с offload. 160 ГБ (двойной H100) = 70B на FP16 / BF16, 100–180B на Q4. При FP16 / BF16 (без квантизации) числа удваиваются: 70B на FP16 требует ~140 ГБ, поэтому 2× H100 — это точка входа для инференса флагманских моделей в полной точности.

Когда RTX 5090 — правильный ответ

Выпуск RTX 5090 в начале 2025 года создал новую оптимальную точку. Для моделей класса 27B–32B, наиболее востребованных в 2026 году (Gemma-3-27B, Qwen3-32B, Mistral-Small-3, Phi-4, DeepSeek-R1-Distill-Qwen-32B), 5090 обеспечивает примерно в 2.5 раза большую пропускную способность, чем 4090, при половине стоимости H100. Если ваша задача — «мне нужна по-настоящему способная модель-ассистент с рассуждением, многоязычной поддержкой и 32K контекстным окном, но не 70B+», уровень GPU-M — с него следует начинать. Он также удваивается как щедрый сервер для генерации изображений — FLUX.1-dev работает комфортно с 16 ГБ запаса VRAM для высокоразрешающих батчей.

Когда нужен H100, а не 4090

Три сигнала толкают решение о покупке к GPU-L (одиночный H100): (1) вы обслуживаете модели класса 70B или DeepSeek-R1-Distill-Llama-70B и хотите время до первого токена менее секунды при батче 1; (2) вы выполняете конкурентный инференс с большими батчами (vLLM с батчом 16+ пользователей), где пропускная способность памяти H100 является решением узкого места; (3) вы обучаете или LoRA-файнтюните на датасетах свыше ~10M токенов и хотите путь обучения FP8, которого нет у 4090 / 5090. FP8 Transformer Engine H100 примерно удваивает пропускную способность обучения по сравнению с FP16, что делает файнтюнинг 70B Llama реальным на одной карте.

Экономика $/токен

Для высоконагруженных задач правильным сравнением является стоимость в долларах за миллион токенов при устойчивой пропускной способности. На Llama-3.1-70B Q4, vLLM 0.7+, батч 16: RTX 4090 не может хостить модель без offload (CPU-RAM offload снижает пропускную способность в ~10 раз). RTX 5090 с CPU-offload — около $X за 1M токенов (приблизительно; зависит от quant). Одиночный H100 SXM5 — около $1.40–2.20 за 1M output-токенов при нашей начальной цене $1699/мес. Сравните с OpenAI GPT-4o output по ~$10 / 1M и Claude Sonnet по ~$15 / 1M — как только ваша задача достигает примерно 30M токенов в день, self-хостинг на одиночном H100 дешевле обращения к хостируемым API, и результат в части приватности является сквозным. При меньших объёмах хостируемые API выигрывают по стоимости.

Задачи с изображениями, видео и аудио

Генерация изображений редко требует более чем 4090 — FLUX.1-dev, SDXL, SD 3.5 вмещаются в 24 ГБ при производственном качестве, а ~83 TFLOPS FP16 RTX 4090 более чем достаточно. Переход к 5090 / H100 в основном даёт запас размера батча (больше параллельных генераций), а не скорость на изображение. AI-видео (Wan-2.1, CogVideoX-5B, рабочие процессы класса Runway) требовательнее — GPU-M является практической точкой входа, GPU-L для длинного форма производственного качества. Whisper Large v3 ASR и Bark TTS комфортно работают на 4090; H100 для них избыточен. Файнтюнинг с LoRA или QLoRA на 7B–13B работает на 4090; файнтюнинг 32B–70B реально хочет минимум 5090, H100 — если цените время.

Что насчёт RTX 5090 vs RTX A6000 / A100?

Если вы изучали варианты GPU за пределами потребительской линейки, вы могли встречать RTX A6000 (48 ГБ, датацентровая карта) или A100 (40 / 80 ГБ, предыдущее поколение HBM2e). Краткий вердикт: A6000 — примерно вычисления уровня 4090 с вдвое большим VRAM, полезно, если VRAM является узким местом, но не пропускная способность (редкость); A100 на поколение позади H100 и сейчас доступна преимущественно на вторичном рынке — при дешёвой цене остаётся приемлемой картой для инференса 70B, но новые сборки в 2026 году, как правило, выбирают H100. Уровни A6000 или A100 мы сейчас не предлагаем; каталог переходит от RTX 5090 к H100.

Что мы поставляем и что выбрать

Чтобы подытожить решение о покупке GPU в одной фразе на задачу: чат-бот / ассистент по коду до 32B → GPU-S (RTX 4090) для 7B–13B, GPU-M (RTX 5090) для 27B–32B; флагманский инференс 70B (Llama-3.3-70B-Instruct, DeepSeek-R1-Distill-Llama-70B) → GPU-L (H100 SXM5); инференс 70B в полной точности или многокарточное обучение → GPU-XL (2× H100 SXM5); генерация изображений / видео / голоса → GPU-S, если не нужен запас батча, тогда GPU-M. Все четыре уровня поставляются с предустановленными CUDA 12.4 + cuDNN и 1-кликовыми шаблонами vLLM / Ollama / ComfyUI / Stable Diffusion. Полная спецификация оборудования на /gpu.

FAQ

Выбор GPU — часто задаваемые вопросы

01 Почему пропускная способность памяти важнее TFLOPS для инференса?

Инференс трансформера только с декодером при малых и средних размерах батча ограничен памятью: каждый генерируемый токен требует считывания всей весовой матрицы из VRAM. Вычислительные ядра достаточно быстры, чтобы GPU большую часть времени ждал загрузки из памяти. Именно поэтому 3.35 ТБ/с HBM3 у H100 примерно в 3 раза быстрее на токен, чем 1 ТБ/с GDDR6X 4090 на той же модели 70B, несмотря на то что большее число TFLOPS у H100 почти не имеет значения.

02 Можно ли запустить Llama-3.3-70B на RTX 4090?

Технически да, с CPU-offload через llama.cpp или KTransformers — но пропускная способность падает до ~3–5 токен/сек при длинной генерации, что неприемлемо медленно для чата. Практически 70B — это задача для H100 (или 2× RTX 5090 с NVLink, которого мы не предлагаем). Если 70B — это то, что вам нужно, и вы не хотите платить за H100, рассмотрите DeepSeek-R1-Distill-Llama-8B или DeepSeek-R1-Distill-Qwen-14B на 4090 — дистиллированные модели удивительно конкурентоспособны в рассуждении.

03 RTX 5090 лучше A100 для AI?

Для инференса — в основном да: GDDR7 у 5090 (~1.8 ТБ/с) превосходит HBM2e A100 40GB (~1.55 ТБ/с) по пропускной способности, и FLOPS выше. SKU A100 на 80 ГБ имеет больше VRAM (80 vs 32 ГБ), что важно для инференса 70B. Для обучения у A100 по-прежнему есть ECC-память и надлежащий набор функций датацентрового класса, которых нет у 5090. Новые сборки в 2026 году, как правило, выбирают H100 вместо A100; 5090 заполняет потребительский разрыв.

04 Когда self-хостинг действительно дешевле OpenAI / Anthropic?

Приблизительно: одиночный H100 SXM5 за $1699/мес, запускающий Llama-3.3-70B при устойчивой пропускной способности батча-16, даёт ~30–50M output-токенов/день. По ценам GPT-4o ($10/1M output) это $300–500/день эквивалентных хостируемых расходов. Точка безубыточности — около 5–7M output-токенов в день. Ниже — хостируемые API выигрывают; выше — self-хостинг выигрывает. Точки безубыточности RTX 4090 / 5090 масштабируются вниз с меньшими моделями, которые в них помещаются.

05 Как ServPrivacy GPU сравнивается с Vast.ai или RunPod?

Vast.ai дешевле почасовом споте ($0.30–0.70/ч для 4090), но качество сильно варьируется (потребительское железо в частных домах, смешанная сеть, риск вытеснения). RunPod более стабилен ($0.69–3.99/ч по запросу), но американская юрисдикция с email/способом оплаты и KYC. ServPrivacy дороже, чем Vast.ai по споту и примерно сопоставим с RunPod по запросу в месячном пересчёте, но регистрация только по токену, нативный Monero, без вытеснения, без KYC и 4 офшорных юрисдикции. Правильный выбор зависит от того, что важнее — приватность и предсказуемость или сырые центы за час.

06 Что насчёт H200 или B200 — стоит ли ждать?

H200 (141 ГБ HBM3e) есть в каталоге гиперскейл-провайдеров, таких как CoreWeave, но поставки в сегменте приватных офшорных хостингов ограничены статусом канального партнёра NVIDIA — мы оцениваем доступность в 2026 Q3. B200 NVL72 на данный момент только для гиперскейл-фабрик и нереалистичен для аренды одиночных карт. Для большинства self-хостеров H100 SXM5 в 2026 году обладает достаточными возможностями для задач класса 70B — аргумент в пользу ожидания H200 в основном касается случаев использования мультимодального длинного контекста (200K+ токенов).

Готовы развернуть ваш AI-сервер?

RTX 4090 от $249/мес, RTX 5090 от $399/мес, H100 SXM5 от $1699/мес. Регистрация только по токену, криптовалютный чекаут, CUDA 12 + 1-кликовые AI-шаблоны.

Смотреть тарифы GPU No-KYC GPU Hosting Self-Host LLM