LLMをセルフホストする理由
ホスト型AI APIを呼び出すとき、送信するすべてのプロンプトは他者のハードウェア上で処理されます。プロバイダーは入力と出力の全テキストを把握し、通常は一定期間保持したうえで、モデルが何を言うべきか・言うべきでないかについて独自のコンテンツポリシーを適用します。機密性の高いもの — 独自のコード、機密文書、個人データ、あるいは単に第者に提出したくない作業 — については、これは看過できないリスクです。
LLMのセルフホスティングは仲介者を排除します。GPUサーバーを借り、オープンウェイトモデルをロードして、自分で推論を実行します。プロンプトは自分が管理するインフラの外に出ることがなく、意図しない限り何も保持されず、使用するモデルは自分で選んだもの — 組み込みの拒否機能のないオープンモデルも含め — です。KYC不要のオフショアGPUサーバーとの組み合わせで、セルフホスティングは、いかなる企業もログを取らず、ポリシーによるレート制限もなく、強制的な情報提供も不可能なプライベートAIエンドポイントを実現します。このガイドでは、ハードウェアとモデルの選定、サービング開始の手順、そしてコストについて説明します。

GPUをモデルに合わせる
すべてを決定する唯一の数字はVRAM — GPUのメモリです。モデルは適切に動作するためにVRAMに収まる必要があり、必要な容量はパラメーター数とロード時の精度によって異なります。大まかな目安として、4ビット量子化されたモデルは10億パラメーターあたり0.5GBをやや超えるVRAMが必要で、16ビット完全精度でロードすると約2倍のメモリに加えてコンテキストウィンドウのためのヘッドルームが必要です。
実際には、利用可能なカードに次のように対応します:
- RTX 4090 / RTX 5090(24〜32GB VRAM) — 量子化された約30Bパラメーターまでのモデルを余裕で動かし、より小さなモデルは完全精度でも実行可能。ほとんどのセルフホスターにとって最適な選択肢:高速で手頃な価格、最高の中規模オープンモデルに十分なVRAM。
- H100 SXM5(80GB VRAM) — 量子化された70Bクラスのモデルを余裕を持って動かし、大きなコンテキストウィンドウを処理し、高スループットで多数の同時リクエストに対応。最大のオープンモデルや本番環境規模の負荷には最適な選択。
- マルチGPU(2x H100、160GB) — 最大規模のオープンウェイトモデルと高負荷の同時サービング用。
動かしたいモデルから出発し、必要なVRAMを算出して、ヘッドルームを確保できる最小のカードを選んでください。モデルが使用する以上のVRAMに費用をかけることは無駄です。
モデルを選ぶ
2026年のオープンウェイトエコシステムは、ほとんどのタスクにおいてセルフホストモデルがホスト型APIと真に競争できるほど成熟しています。知っておくべき主要なモデルファミリー:
- Llamaファミリーモデル — さまざまなサイズで幅広くサポートされた汎用モデル;ほとんどのワークロードで安全なデフォルト選択。
- DeepSeek — 優れた推論・コーディング性能で、単一の高VRAMカードで十分動作するサイズ展開。
- QwenとMistral — パラメーターあたりの優れた性能を持ち、24〜32GBカードで快適に動作する小型バリアントあり。
- 無検閲または非拒否化バリアント — ホスト型プロバイダーのコンテンツポリシーを適用したくないユーザー向けに、拒否動作を除去した上記モデルのコミュニティファインチューン版。
タスクを本当にこなせる最小のモデルを選んでください。単一の4090または5090上でよく選ばれた14B〜30Bモデルは、コーディング支援、文章作成、要約、分析など実際のユースケースの大多数に十分であり、習慣的に70Bモデルに手を伸ばすよりはるかに安く動かせます。
ステップ1 — GPUサーバーをプロビジョニングする
ServPrivacyで、選定したカードと希望する管轄のGPUプランを選び、暗号通貨で支払います。サーバーは自動的にプロビジョニングされ、CUDAとNVIDIAドライバーがプリインストールされているため、起動した瞬間から推論作業に使用できる状態です。ドライバーのインストール作業と格闘する必要はありません。
SSH経由で接続します。簡単な nvidia-smi でGPUが認識されていることを確認し、空きVRAMを確認できます。ここからモデルを起動するまでのコマンドはほんのわずかです。
ステップ2 — モデルをサービング状態にする
シンプルさを求めるか最大スループットを求めるかによって、2つの確立されたアプローチがあります。
高速アプローチ:Ollama。数分でモデルをプロンプトに応答させるには、Ollamaが最もシンプルな選択肢です。ワンライナーのインストーラーでインストールし、単一のコマンドでモデルをプルして実行します — 例えば ollama run llama3.1。Ollamaはダウンロード、量子化、GPUオフロードを処理し、ローカルAPIを公開します。個人利用と開発用途には、これだけで十分なことがほとんどです。
スループット重視アプローチ:vLLM。多数の同時リクエストを効率的に処理する必要がある場合 — 個人アシスタントではなくアプリケーションバックエンド向け — vLLMが標準的な選択です。同じGPUからより多くのトークン/秒を引き出す高性能推論サーバーで、OpenAI互換APIを公開するため、ホスト型API向けに書かれた既存のコードはURLを変更するだけで自分のサーバーに向けることができます。
いずれの方法でも、サーバー起動から数分以内にプロンプトを受け付けるモデルが稼働します。
ステップ3 — プライベートに使用し、エンドポイントを保護する
デフォルトでは推論サーバーはローカルでリッスンします。アクセスするための2つの合理的な方法と、1つのルールがあります。
ルール:生の推論APIをオープンインターネットに公開しないこと。標準状態では認証がなく、公開されたエンドポイントはすぐに発見され悪用されます。代わりに、SSH経由でトンネルを張る — APIをlocalhostにバインドしたまま、暗号化されたSSH接続経由でアクセスする — か、認証とTLSを強制するリバースプロキシの背後に置くかのいずれかです。個人アシスタントにはSSHトンネルが最もシンプルでプライベートな選択肢;アプリケーション用途には認証プロキシが適しています。
この方法であれば、プロンプトは自分と自分のサーバーの間のみを行き来します。第三者によるログは一切なく、設定した範囲以外では何も保持されず、外部のコンテンツポリシーを挟まずにモデルが応答します。文字通り、あなた自身のAIです。
コストについて
セルフホスティングの経済性は、使用パターンに完全に依存します。ホスト型APIはトークンごとに課金されるため、軽量・散発的な利用には優れていますが、重負荷・継続的な利用には高コストになります。レンタルGPUサーバーは、プッシュするトークン数に関わらず一定の月額コストです。
実際のワークロードを抱える人にとって、損益分岐点はすぐに訪れます。単一のRTX 4090サーバーはServPrivacyで月額約$122から利用でき、ホスト型APIの月額費用がすでにその程度 — コーディングアシスタント、バッチ処理、またはアプリケーションバックエンドではしばしばそうなります — であれば、専用GPUはより安くかつ使い放題です。さらに、トークン課金では得られないものも手に入ります:レート制限なし、ポリシーによる拒否なし、予測可能なコスト、完全なプライバシー。散発的な質問にはAPIで十分ですが、定期的な利用にはコストとコントロールの両面でセルフホスティングが勝ります。
セルフホスティングが正しい選択となる場合
LLMのセルフホスティングが適切な選択となるのは、次の3つのいずれかが重要な場合です:プライバシー — プロンプトに第三者のサーバーに置きたくないものが含まれている;コントロール — ホスト型の拒否機能のないオープンモデルを含む特定のモデルが必要;または経済性 — 利用が十分に重く、一定のGPUコストがトークン課金を下回る。
モデルに偶発的な質問をするだけであれば、ホスト型APIの方がシンプルで安価です。しかし、継続的な利用、機密性の高い素材、または自分の条件で答えるモデルが必要な場合、GPUサーバーで自分のモデルを動かすことがより優れたセットアップです — そしてKYC不要のオフショアGPUホスト上では、それはあなただけに属するプライベートAIエンドポイントです。