[Главная](https://servprivacy.com/ru) /
[Руководства по приватному хостингу](https://servprivacy.com/ru/guides) /
RTX 4090 vs H100 SXM5 для AI-инференса (и где помещается RTX 5090)






Перед покупкой


# RTX 4090 vs H100 — какой GPU для вашей AI-задачи?



Выбор правильного GPU NVIDIA для self-хостируемого AI — это не только VRAM. RTX 4090 — оптимальное соотношение цены и качества для инференса 7B–13B и генерации изображений; RTX 5090 (32 ГБ GDDR7) — новый средний уровень для 27B–32B; H100 SXM5 (80 ГБ HBM3) — для задач класса 70B, где доминирует пропускная способность памяти. Мы разбираем компромиссы по классам задач с данными о пропускной способности, экономикой $/токен и тем, что вмещается в каждый GPU-уровень ServPrivacy.


[Читать руководство](#guide-body)
[FAQ](#guide-faq)






#### На этой странице




- [Руководство](#guide-body)

- [FAQ](#guide-faq)

- [Похожие руководства](#guide-related)

- [Рекомендуемые страницы](#guide-cta)






Без KYC
Только крипто
Без логов
DMCA игнорируется
Полный root
NVMe SSD





7 мин чтения
Обновлено May 2026

На этой странице

[01Четыре уровня в одном абзаце](#Четыре-уровня-в-одном-абзаце)
[02Пропускная способность памяти доминирует в LLM-инференсе](#Пропускная-способность-памяти-доминирует-в-llm-инференсе)
[03Что помещается в 24 ГБ / 32 ГБ / 80 ГБ](#Что-помещается-в-24-ГБ-32-ГБ-80-ГБ)
[04Когда RTX 5090 — правильный ответ](#Когда-rtx-5090-правильный-ответ)
[05Когда нужен H100, а не 4090](#Когда-нужен-h100-а-не-4090)
[06Экономика $/токен](#Экономика-токен)
[07Задачи с изображениями, видео и аудио](#Задачи-с-изображениями-видео-и-аудио)
[08Что насчёт RTX 5090 vs RTX A6000 / A100?](#Что-насчёт-rtx-5090-vs-rtx-a6000-a100)
[09Что мы поставляем и что выбрать](#Что-мы-поставляем-и-что-выбрать)
[FAQЧастые вопросы](#guide-faq)
[→Рекомендуемые страницы](#guide-cta)







Выбор между RTX 4090, RTX 5090 и H100 SXM5 для self-хостируемых AI-вычислений в 2026 году редко определяется числом TFLOPS в заголовке. Правильный GPU — тот, чья VRAM, пропускная способность памяти и цена за час инференса соответствуют классу модели и форме батча, которые вы реально используете. Это руководство рассматривает четыре GPU-уровня ServPrivacy, задачи, для которых каждый из них рассчитан, и как читать данные о пропускной способности на графике.

## Четыре уровня в одном абзаце

**RTX 4090 (GPU-S, $249–329/мес)** — 24 ГБ GDDR6X при ~1 ТБ/с пропускной способности памяти и ~83 TFLOPS FP16. Правильный выбор для языковых моделей 7B–13B, генерации изображений FLUX.1 / SDXL, транскрипции Whisper и синтеза речи Bark. **RTX 5090 (GPU-M, $399–519/мес)** — 32 ГБ GDDR7 при ~1.8 ТБ/с и ~104 TFLOPS FP16; дополнительные 8 ГБ и ~80% прироста пропускной способности открывают комфортную работу с моделями 27B–32B (Gemma-3-27B, Qwen3-32B, Mistral-Small-3) и файнтюнинг небольших Llama. **H100 SXM5 (GPU-L, $1699–1899/мес)** — другая категория: 80 ГБ HBM3 при ~3.35 ТБ/с, ~989 TFLOPS FP16 (Tensor-Core), с доступной фабрикой NVLink; рассчитан на языковые модели класса 70B, инференс с длинным контекстом и более быстрое обучение. **2× H100 SXM5 (GPU-XL, $3199–3599/мес)** — для инференса 70B в полной точности, многокарточного обучения и моделей 100B+ на Q4 / Q5.

Пропускная способность vs размер батча на RTX 4090 (24 ГБ), RTX 5090 (32 ГБ) и H100 SXM5 (80 ГБ) — Llama-3.1-70B-Instruct, квантизованная до Q4_K_M, vLLM 0.7+, батч от 1 до 32.

## Пропускная способность памяти доминирует в LLM-инференсе

Для инференса трансформера только с декодером при размерах батча до примерно 16 узким местом является пропускная способность памяти, а не сырые FLOPS. Каждый генерируемый токен требует полного считывания весов модели из VRAM (фаза prefill повторно использует K-V кэш, но каждый новый токен снова читает весовые матрицы). 3.35 ТБ/с HBM3 у H100 обеспечивает ~3x более быстрый инференс на токен по сравнению с 4090 на модели класса 70B — а не числа TFLOPS. Именно поэтому переход RTX 5090 от GDDR6X до GDDR7 (~1.8 ТБ/с vs ~1 ТБ/с) важнее для инференса, чем прирост FLOPS. Если ваша задача — инференс, а не обучение, приоритизируйте пропускную способность над TFLOPS.

## Что помещается в 24 ГБ / 32 ГБ / 80 ГБ

Квантизация меняет картину. При **Q4_K_M** (типичный «хорошего качества» quant): модель 7B требует ~4.5 ГБ, 13B — ~8 ГБ, 27–32B — ~20 ГБ, 70B — ~42 ГБ, 100B — ~60 ГБ. Добавьте ~10–15% запаса для K-V кэша и CUDA workspace. Практические варианты: **24 ГБ** = 7B–13B комфортно, 27–32B с болезненным offload, 70B не реально. **32 ГБ** = 27–32B комфортно, 70B с CPU offload (медленно). **80 ГБ** = 70B комфортно на Q4–Q5, 100B с offload. **160 ГБ (двойной H100)** = 70B на FP16 / BF16, 100–180B на Q4. При **FP16 / BF16** (без квантизации) числа удваиваются: 70B на FP16 требует ~140 ГБ, поэтому 2× H100 — это точка входа для инференса флагманских моделей в полной точности.

## Когда RTX 5090 — правильный ответ

Выпуск RTX 5090 в начале 2025 года создал новую оптимальную точку. Для моделей класса 27B–32B, наиболее востребованных в 2026 году (Gemma-3-27B, Qwen3-32B, Mistral-Small-3, Phi-4, DeepSeek-R1-Distill-Qwen-32B), 5090 обеспечивает примерно в 2.5 раза большую пропускную способность, чем 4090, при половине стоимости H100. Если ваша задача — «мне нужна по-настоящему способная модель-ассистент с рассуждением, многоязычной поддержкой и 32K контекстным окном, но не 70B+», уровень GPU-M — с него следует начинать. Он также удваивается как щедрый сервер для генерации изображений — FLUX.1-dev работает комфортно с 16 ГБ запаса VRAM для высокоразрешающих батчей.

## Когда нужен H100, а не 4090

Три сигнала толкают решение о покупке к GPU-L (одиночный H100): (1) вы обслуживаете модели класса 70B или DeepSeek-R1-Distill-Llama-70B и хотите время до первого токена менее секунды при батче 1; (2) вы выполняете конкурентный инференс с большими батчами (vLLM с батчом 16+ пользователей), где пропускная способность памяти H100 является решением узкого места; (3) вы обучаете или LoRA-файнтюните на датасетах свыше ~10M токенов и хотите путь обучения FP8, которого нет у 4090 / 5090. FP8 Transformer Engine H100 примерно удваивает пропускную способность обучения по сравнению с FP16, что делает файнтюнинг 70B Llama реальным на одной карте.

## Экономика $/токен

Для высоконагруженных задач правильным сравнением является стоимость в долларах за миллион токенов при устойчивой пропускной способности. На Llama-3.1-70B Q4, vLLM 0.7+, батч 16: RTX 4090 не может хостить модель без offload (CPU-RAM offload снижает пропускную способность в ~10 раз). RTX 5090 с CPU-offload — около $X за 1M токенов (приблизительно; зависит от quant). Одиночный H100 SXM5 — около $1.40–2.20 за 1M output-токенов при нашей начальной цене $1699/мес. Сравните с OpenAI GPT-4o output по ~$10 / 1M и Claude Sonnet по ~$15 / 1M — как только ваша задача достигает примерно 30M токенов в день, self-хостинг на одиночном H100 дешевле обращения к хостируемым API, и результат в части приватности является сквозным. При меньших объёмах хостируемые API выигрывают по стоимости.

## Задачи с изображениями, видео и аудио

**Генерация изображений** редко требует более чем 4090 — FLUX.1-dev, SDXL, SD 3.5 вмещаются в 24 ГБ при производственном качестве, а ~83 TFLOPS FP16 RTX 4090 более чем достаточно. Переход к 5090 / H100 в основном даёт запас размера батча (больше параллельных генераций), а не скорость на изображение. **AI-видео** (Wan-2.1, CogVideoX-5B, рабочие процессы класса Runway) требовательнее — GPU-M является практической точкой входа, GPU-L для длинного форма производственного качества. **Whisper Large v3 ASR** и **Bark TTS** комфортно работают на 4090; H100 для них избыточен. **Файнтюнинг** с LoRA или QLoRA на 7B–13B работает на 4090; файнтюнинг 32B–70B реально хочет минимум 5090, H100 — если цените время.

## Что насчёт RTX 5090 vs RTX A6000 / A100?

Если вы изучали варианты GPU за пределами потребительской линейки, вы могли встречать RTX A6000 (48 ГБ, датацентровая карта) или A100 (40 / 80 ГБ, предыдущее поколение HBM2e). Краткий вердикт: A6000 — примерно вычисления уровня 4090 с вдвое большим VRAM, полезно, если VRAM является узким местом, но не пропускная способность (редкость); A100 на поколение позади H100 и сейчас доступна преимущественно на вторичном рынке — при дешёвой цене остаётся приемлемой картой для инференса 70B, но новые сборки в 2026 году, как правило, выбирают H100. Уровни A6000 или A100 мы сейчас не предлагаем; каталог переходит от RTX 5090 к H100.

## Что мы поставляем и что выбрать

Чтобы подытожить решение о покупке GPU в одной фразе на задачу: **чат-бот / ассистент по коду до 32B** → GPU-S (RTX 4090) для 7B–13B, GPU-M (RTX 5090) для 27B–32B; **флагманский инференс 70B (Llama-3.3-70B-Instruct, DeepSeek-R1-Distill-Llama-70B)** → GPU-L (H100 SXM5); **инференс 70B в полной точности или многокарточное обучение** → GPU-XL (2× H100 SXM5); **генерация изображений / видео / голоса** → GPU-S, если не нужен запас батча, тогда GPU-M. Все четыре уровня поставляются с предустановленными CUDA 12.4 + cuDNN и 1-кликовыми шаблонами vLLM / Ollama / ComfyUI / Stable Diffusion. Полная спецификация оборудования на [/gpu](https://servprivacy.com/ru/gpu).




FAQ

## Выбор GPU — часто задаваемые вопросы





### 01
Почему пропускная способность памяти важнее TFLOPS для инференса?



Инференс трансформера только с декодером при малых и средних размерах батча ограничен памятью: каждый генерируемый токен требует считывания всей весовой матрицы из VRAM. Вычислительные ядра достаточно быстры, чтобы GPU большую часть времени ждал загрузки из памяти. Именно поэтому 3.35 ТБ/с HBM3 у H100 примерно в 3 раза быстрее на токен, чем 1 ТБ/с GDDR6X 4090 на той же модели 70B, несмотря на то что большее число TFLOPS у H100 почти не имеет значения.





### 02
Можно ли запустить Llama-3.3-70B на RTX 4090?



Технически да, с CPU-offload через llama.cpp или KTransformers — но пропускная способность падает до ~3–5 токен/сек при длинной генерации, что неприемлемо медленно для чата. Практически 70B — это задача для H100 (или 2× RTX 5090 с NVLink, которого мы не предлагаем). Если 70B — это то, что вам нужно, и вы не хотите платить за H100, рассмотрите DeepSeek-R1-Distill-Llama-8B или DeepSeek-R1-Distill-Qwen-14B на 4090 — дистиллированные модели удивительно конкурентоспособны в рассуждении.





### 03
RTX 5090 лучше A100 для AI?



Для инференса — в основном да: GDDR7 у 5090 (~1.8 ТБ/с) превосходит HBM2e A100 40GB (~1.55 ТБ/с) по пропускной способности, и FLOPS выше. SKU A100 на 80 ГБ имеет больше VRAM (80 vs 32 ГБ), что важно для инференса 70B. Для обучения у A100 по-прежнему есть ECC-память и надлежащий набор функций датацентрового класса, которых нет у 5090. Новые сборки в 2026 году, как правило, выбирают H100 вместо A100; 5090 заполняет потребительский разрыв.





### 04
Когда self-хостинг действительно дешевле OpenAI / Anthropic?



Приблизительно: одиночный H100 SXM5 за $1699/мес, запускающий Llama-3.3-70B при устойчивой пропускной способности батча-16, даёт ~30–50M output-токенов/день. По ценам GPT-4o ($10/1M output) это $300–500/день эквивалентных хостируемых расходов. Точка безубыточности — около 5–7M output-токенов в день. Ниже — хостируемые API выигрывают; выше — self-хостинг выигрывает. Точки безубыточности RTX 4090 / 5090 масштабируются вниз с меньшими моделями, которые в них помещаются.





### 05
Как ServPrivacy GPU сравнивается с Vast.ai или RunPod?



Vast.ai дешевле почасовом споте ($0.30–0.70/ч для 4090), но качество сильно варьируется (потребительское железо в частных домах, смешанная сеть, риск вытеснения). RunPod более стабилен ($0.69–3.99/ч по запросу), но американская юрисдикция с email/способом оплаты и KYC. ServPrivacy дороже, чем Vast.ai по споту и примерно сопоставим с RunPod по запросу в месячном пересчёте, но регистрация только по токену, нативный Monero, без вытеснения, без KYC и 4 офшорных юрисдикции. Правильный выбор зависит от того, что важнее — приватность и предсказуемость или сырые центы за час.





### 06
Что насчёт H200 или B200 — стоит ли ждать?



H200 (141 ГБ HBM3e) есть в каталоге гиперскейл-провайдеров, таких как CoreWeave, но поставки в сегменте приватных офшорных хостингов ограничены статусом канального партнёра NVIDIA — мы оцениваем доступность в 2026 Q3. B200 NVL72 на данный момент только для гиперскейл-фабрик и нереалистичен для аренды одиночных карт. Для большинства self-хостеров H100 SXM5 в 2026 году обладает достаточными возможностями для задач класса 70B — аргумент в пользу ожидания H200 в основном касается случаев использования мультимодального длинного контекста (200K+ токенов).




Похожие руководства

## Читайте также


[### Как выбрать офшорную юрисдикцию для хостинга в 2026 году

Перед покупкой


Практическая система принятия решений при выборе офшорной юрисдикции: законы о хранении данных, MLAT-риски, позиция по DMCA, скорость судебных решений и реальная практика правоприменения — по каждой стране.


FAQ из 6 вопросов](https://servprivacy.com/ru/guides/choosing-an-offshore-jurisdiction)
[### VPS против выделенного сервера для задач с требованиями к конфиденциальности

Перед покупкой


Когда VPS достаточен, когда общая аренда становится уязвимостью, а когда bare metal — единственный честный ответ. Аппаратная изоляция, риски гипервизора и соотношение цены и модели угроз.


FAQ из 6 вопросов](https://servprivacy.com/ru/guides/vps-vs-dedicated-for-privacy)
[### Собственный VPN на VPS без KYC: WireGuard против OpenVPN

Эксплуатация


Почему собственный VPN превосходит коммерческих провайдеров, и как WireGuard и OpenVPN реально сравниваются по конфиденциальности, производительности и операционным рискам в 2026 году.


FAQ из 6 вопросов](https://servprivacy.com/ru/guides/self-hosted-vpn-wireguard-vs-openvpn)
[### Офшорный Windows RDP для форекс-трейдинга MT4 / MT5 / cTrader

Эксплуатация


Полное руководство: зачем нужен Windows RDP для форекс-трейдинга, как выбрать офшорную юрисдикцию с низкой латентностью, настройка MT4 / MT5 / cTrader / Expert Advisor, латентность до брокерских серверов и путь no-KYC чекаута.


FAQ из 6 вопросов](https://servprivacy.com/ru/guides/offshore-windows-rdp-for-forex-trading)
[### Криптоплатежи за хостинг: Monero против Bitcoin против USDT

Конфиденциальность


Как выбор монеты влияет на то, что провайдер узнаёт о вас. Конфиденциальность, комиссии, финальность и уязвимость к анализу блокчейна для XMR, BTC и USDT — с чёткой рекомендацией.


FAQ из 6 вопросов](https://servprivacy.com/ru/guides/crypto-payments-monero-vs-bitcoin-vs-usdt)




## Готовы развернуть ваш AI-сервер?



RTX 4090 от $249/мес, RTX 5090 от $399/мес, H100 SXM5 от $1699/мес. Регистрация только по токену, криптовалютный чекаут, CUDA 12 + 1-кликовые AI-шаблоны.


[Смотреть тарифы GPU](https://servprivacy.com/ru/gpu)
[No-KYC GPU Hosting](https://servprivacy.com/ru/no-kyc-gpu)
[Self-Host LLM](https://servprivacy.com/ru/uncensored-ai-hosting)
