Stable Diffusion をセルフホストする理由
ホスト型の画像生成サービスは便利ですが、三つの根本的な制約が伴います。プロンプトと生成画像は監視され、多くの場合保存されます。コンテンツフィルターによって生成できるものが制限されます。そして、画像ごと・クレジットごとの課金が大量生成では急速に積み上がります。ライトユーザーにとってはそれでも許容できるトレードオフかもしれませんが、本格的に生成を行う人にとっては、別の選択肢を探す理由が三つ揃っています。
自分の GPU サーバーで Stable Diffusion を動かせば、この三つすべてが解消されます。プロンプトも画像も、自分が管理するサーバーの外には出ません。第三者によるログ取得やレビューは一切ありません。好きなモデルと好きな拡張機能を、外部のコンテンツポリシーに縛られることなく自由に使えます。そしてコストは、生成のたびにメーターが回るのではなく、ハードウェアの月額固定料金です。KYC 不要のオフショア GPU ホストを利用すれば、サーバー自体にも身元情報は紐づきません。本ガイドでは、GPU の選定、Web UI の起動、そして実際のコストについて解説します。

GPU の選び方
Stable Diffusion は大規模言語モデルに比べてはるかに軽量です。やはり決め手は VRAM ですが、必要なハードルははるかに低くなっています。VRAM の容量が決めるのは、実行できるモデル世代と、動作する解像度およびバッチサイズです。
- RTX 4090(VRAM 24 GB) — Stable Diffusion においてもっともバランスに優れた選択肢。SDXL クラスの大型モデルや最新の拡散モデルを含む、現行のあらゆるオープンモデルを実行でき、高解像度・適度なバッチサイズでも快適に動作します。個人ユーザーや小規模チームには、まずこれを選んでください。
- RTX 5090(VRAM 32 GB) — さらなる余裕:より大きなバッチ、最新かつ最重量のモデル、より速い反復処理。最大速度を求める場合や、もっとも負荷の高い拡散モデルを扱う場合の選択肢です。
- H100(VRAM 80 GB) — 画像生成だけを考えれば明らかにオーバースペックですが、同じサーバーで多数の同時ユーザーにサービスを提供する場合や、LLM ホストと兼用する場合には適切な選択です。
Stable Diffusion ユーザーの大多数にとって、RTX 4090 一枚が正解であり、コストパフォーマンスに優れた答えです。多数のユーザーに同時対応する場合や、異常に重いモデルを扱う場合にのみ、より上位の GPU を検討してください。
ステップ 1 — GPU サーバーをプロビジョニングする
ServPrivacy では、希望するカード(ほとんどの場合は RTX 4090)と使用したいロケーションが含まれる GPU プランを選択し、暗号通貨で支払います。サーバーは自動でプロビジョニングされ、NVIDIA ドライバーと CUDA がプリインストールされた状態で起動するため、ドライバー設定に手間取ることなく、起動直後から GPU 作業を始められます。
SSH で接続し、nvidia-smi を実行して GPU が認識されアイドル状態であることを確認してください。ここまでできれば、Stable Diffusion を動かすまでの道のりは短いものです。
ステップ 2 — Stable Diffusion の Web UI をインストールする
コマンドラインだけを使うのではなく、Web UI を導入することを強くお勧めします。プロンプト入力、各種設定、モデルの切り替え、そして Stable Diffusion をパワフルにする各種拡張機能を、ブラウザから操作できるようになります。定評のある選択肢は以下の通りです。
- AUTOMATIC1111 — 長年にわたって実績のある機能豊富な Web UI。拡張機能のエコシステムが最大で、コミュニティのドキュメントも最も充実しています。ほとんどのユーザーにとってデフォルトの選択肢です。
- ComfyUI — 生成パイプライン全体をグラフとして可視化するノードベースのインターフェース。学習曲線はやや急ですが、比類のない制御性を持ち、複雑で再現性の高いワークフローに最適です。
- Forge — AUTOMATIC1111 系統のパフォーマンス最適化フォーク。速度向上と VRAM 使用量の削減に特化しています。
いずれもドキュメント化されたセットアップスクリプトでインストールできます。CUDA が既に用意されたサーバーであれば、プロジェクトをクローンし、インストーラーを実行してモデルのチェックポイントをダウンロードするだけです。サーバー起動から一時間以内に、動作する画像生成サーバーが完成します。Web UI はローカルポートで待ち受けます。ここで一つだけ、正しく設定しなければならない点があります。
ステップ 3 — プライベートにアクセスする
Web UI をインターネットに直接公開しないでください。これらのインターフェースはデフォルトで認証機能を持たず、パブリック IP 上で公開された Stable Diffusion の UI は見つかり次第、見知らぬ人に使われてしまいます。GPU の処理時間と帯域幅が消費されることになります。
安全にアクセスする方法は二つあります。最もシンプルなのは SSH トンネルです。UI をサーバー上の localhost にバインドしたまま、SSH 接続経由でポートを転送します。これにより、インターフェースは公開されることなく、自分のブラウザ上で localhost として表示されます。複数のユーザーがアクセスする必要がある場合は、ログイン認証と TLS を強制するリバースプロキシの背後に配置するという方法もあります。個人ユーザーには SSH トンネルが最もシンプルでプライベートな選択肢です。UI にアクセスできるのは自分だけで、プロンプトは自分のマシンとサーバーの間だけを往来します。
コスト比較:GPU サーバー vs ホスト型サービス
経済的な有利不利は、生成量によってまったく異なります。ホスト型の画像サービスは画像ごと・クレジットごとの課金で、少数の画像生成には優れていますが、大量生成では高くつきます。レンタル GPU サーバーは月額固定コストで、ハードウェアが物理的に処理できる限り何枚でも生成でき、画像ごとの課金メーターはありません。
ServPrivacy の RTX 4090 サーバーは月額約 $122 から利用できます。RTX 4090 は一時間あたり非常に多くの画像を生成できるため、一ヶ月を通じて見ると、専用サーバーはその月額料金でとてつもない枚数の生成を可能にします。ホスト型サービスで継続的に画像を生成しているなら、専用 GPU のほうが一枚あたりのコストは圧倒的に安くなり、生成量が増えるほどその差は広がります。クレジット残量を気にせず無制限に反復でき、コンテンツフィルターもなく、完全なプライバシーが確保されます。ごくたまにしか生成しない場合はホスト型サービスのほうが手軽ですが、本格的な生成量であれば、コスト面でサーバーが圧倒的に有利です。
セルフホスティングが正解となる場面
Stable Diffusion のセルフホスティングが正しい選択となるのは、次の三つのうちいずれかが当てはまる場合です。大量に生成していて、画像ごとの料金がもはや割に合わなくなっている。あらゆるモデル、あらゆる拡張機能、あらゆるワークフローを、何を作ってよいかを決めるコンテンツフィルターなしに完全にコントロールしたい。または、プロンプトや画像を第三者にログ取得されたくない。
たまにしか生成しないなら、ホスト型サービスのほうが手軽です。しかし、本格的かつ継続的なプライベート画像生成には、自分専用の Stable Diffusion を動かす GPU サーバーが、より高速で、一枚あたりのコストも安く、完全に自分のものです。そして KYC 不要のオフショア GPU ホストであれば、身元もなく、フィルターもなく、課金メーターもない画像生成環境が手に入ります。