Почему стоит самостоятельно размещать LLM
Когда вы обращаетесь к хостируемому AI API, каждый ваш промпт обрабатывается на чужом оборудовании. Провайдер видит полный текст ваших запросов и ответов, как правило, хранит их в течение некоторого времени и применяет собственную политику контента к тому, что модель может или не может говорить. Для чего-либо конфиденциального — проприетарного кода, закрытых документов, персональных данных или просто работы, которую вы предпочтёте не передавать третьим лицам, — это существенная угроза.
Самостоятельный хостинг LLM устраняет посредника. Вы арендуете GPU-сервер, загружаете на него модель с открытыми весами и сами выполняете инференс. Промпты никогда не покидают инфраструктуру, которую вы контролируете, ничего не сохраняется без вашего ведома, а модель — именно та, которую вы выбрали, включая открытые модели без встроенных ограничений. В сочетании с offshore GPU-сервером без KYC это даёт вам приватный AI-эндпоинт, который ни одна компания не логирует, не ограничивает по политике и не может принудить к раскрытию. В этом руководстве — выбор оборудования и модели, запуск инференса и расчёт стоимости.

Подбор GPU под модель
Единственный показатель, от которого зависит всё, — это VRAM, память GPU. Модель должна целиком помещаться в VRAM, чтобы работать эффективно, а необходимый объём зависит от количества параметров и точности загрузки. Приблизительно: квантизованной до 4 бит модели нужно чуть более половины гигабайта VRAM на миллиард параметров; при полной точности 16 бит — примерно вдвое больше, плюс запас для контекстного окна.
На практике это аккуратно укладывается в характеристики доступных карт:
- RTX 4090 / RTX 5090 (24–32 ГБ VRAM) — уверенно запускает модели до ~30B параметров в квантизованном виде и меньшие модели при полной точности. Оптимальный вариант для большинства: быстрая, доступная по цене и достаточная для лучших open-source моделей среднего размера.
- H100 SXM5 (80 ГБ VRAM) — запускает квантизованные модели класса 70B с запасом, обрабатывает большие контекстные окна и обслуживает множество одновременных запросов при высокой пропускной способности. Выбор для самых крупных открытых моделей или производственной нагрузки.
- Multi-GPU (2× H100, 160 ГБ) — для самых больших open-weight моделей и интенсивного параллельного инференса.
Начните с модели, которую хотите запустить, рассчитайте её потребность в VRAM и выберите наименьшую карту, которая вмещает её с запасом. Платить за VRAM, которую модель не использует, — значит тратить бюджет впустую.
Выбор модели
Экосистема моделей с открытыми весами в 2026 году настолько сильна, что для большинства задач self-hosted модель реально конкурирует с хостируемым API. Основные семейства, которые стоит знать:
- Модели семейства Llama — хорошо поддерживаемые универсальные модели разных размеров; безопасный выбор по умолчанию для большинства задач.
- DeepSeek — высокая производительность в рассуждениях и программировании, с размерами, которые хорошо работают на одной карте с большим объёмом VRAM.
- Qwen и Mistral — отличное соотношение возможностей и числа параметров, меньшие варианты комфортно работают на карте 24–32 ГБ.
- Нецензурированные или аблитерированные варианты — пользовательские файн-тюны перечисленных моделей с удалённым поведением отказа, для тех, кто хочет модель без политики контента стороннего провайдера.
Выбирайте наименьшую модель, которая действительно справляется с вашей задачей. Хорошо подобранная модель 14B–30B на одном 4090 или 5090 достаточна для подавляющего большинства реальных задач — помощь в написании кода, создание текстов, суммаризация, анализ — и обходится значительно дешевле, чем тянуться к модели 70B по привычке.
Шаг 1 — Разворачивание GPU-сервера
На ServPrivacy выберите тарифный план GPU с нужной вам картой и юрисдикцией, оплатите криптовалютой. Сервер разворачивается автоматически — CUDA и драйверы NVIDIA предустановлены, так что машина готова к инференсу в момент первой загрузки: никакой возни с установкой драйверов.
Подключитесь по SSH. Быстрая команда nvidia-smi подтверждает, что GPU видна, и показывает свободный объём VRAM. Отсюда до работающей модели — буквально пара команд.
Шаг 2 — Запуск инференса модели
Есть два проверенных пути, в зависимости от того, что важнее — простота или максимальная пропускная способность.
Быстрый путь: Ollama. Чтобы модель начала отвечать на промпты за несколько минут, Ollama — наипростейший вариант. Установите её однострочным инсталлятором, затем загрузите и запустите модель одной командой — например ollama run llama3.1. Ollama берёт на себя загрузку, квантизацию и выгрузку на GPU, а также предоставляет локальный API. Для личного использования и разработки большинству этого вполне достаточно.
Путь высокой нагрузки: vLLM. Если нужно эффективно обслуживать множество одновременных запросов — бэкенд приложения, а не личный ассистент — vLLM является стандартным выбором. Это высокопроизводительный сервер инференса, который извлекает значительно больше токенов в секунду из того же GPU и предоставляет OpenAI-совместимый API, поэтому существующий код, написанный для хостируемого API, можно направить на ваш собственный сервер, изменив лишь URL.
В любом случае уже через несколько минут после запуска сервера у вас есть модель, принимающая промпты.
Шаг 3 — Приватное использование и защита эндпоинта
По умолчанию сервер инференса слушает только локально. Есть два разумных способа подключиться к нему и одно правило.
Правило: не открывайте raw inference API в открытый интернет. Из коробки он не имеет аутентификации, и открытый эндпоинт будет обнаружен и использован злоумышленниками. Вместо этого либо туннелируйте соединение через SSH — чтобы API оставался привязан к localhost, а вы обращались к нему через зашифрованное SSH-соединение, — либо разместите его за обратным прокси с аутентификацией и TLS. Для личного ассистента SSH-туннель — наипростейший и наиболее приватный вариант; для приложения — аутентифицированный прокси.
При таком подходе промпты передаются только между вами и вашим собственным сервером. Ничего не логируется третьей стороной, ничего не сохраняется сверх того, что вы настроили, а модель отвечает без внешней политики контента на пути. Это — в буквальном смысле — ваш AI.
Стоимость
Экономика самостоятельного хостинга целиком определяется характером использования. Хостируемый API берёт плату за токен — это отлично для нерегулярного и лёгкого использования и дорого при интенсивной и постоянной работе. Арендованный GPU-сервер — фиксированный ежемесячный расход вне зависимости от количества обработанных токенов.
Точка окупаемости наступает быстро при реальных нагрузках. Сервер с одним RTX 4090 на ServPrivacy стоит от ~$122/месяц; если ваши расходы на хостируемый API уже находятся в этом диапазоне — а для ассистентов по программированию, пакетной обработки или любого бэкенда приложений это нередко так — выделенный GPU и дешевле, и без ограничений по объёму. Вы также получаете то, что тарификация за токен дать не может: отсутствие rate limits, никаких ограничений по политике, предсказуемые расходы и полную приватность. Для нечастых разовых вопросов API вполне подходит; для регулярного использования самостоятельный хостинг выигрывает и по стоимости, и по контролю.
Когда самостоятельный хостинг — правильное решение
Самостоятельный хостинг LLM — правильный выбор, если для вас важно хотя бы одно из трёх: приватность — промпты содержат то, что вы не хотели бы размещать на серверах третьей стороны; контроль — вам нужна конкретная модель, включая открытые модели без хостируемых ограничений; или экономика — ваша нагрузка достаточно высока, чтобы фиксированная стоимость GPU перекрыла оплату за токен.
Если вы лишь изредка задаёте модели вопросы, хостируемый API проще и дешевле. Но для постоянного использования, конфиденциальных материалов или потребности в модели, отвечающей на ваших условиях, GPU-сервер с собственной моделью — лучшее решение, а на offshore GPU-хосте без KYC — это приватный AI-эндпоинт, который принадлежит только вам.