Startseite / Datenschutz-Hosting-Leitfäden / LLM auf einem GPU-Server selbst hosten — Leitfaden 2026
Betrieb

LLM auf einem GPU-Server selbst hosten

Ein praxisnaher Leitfaden zum Betrieb eines LLM auf Ihrem eigenen GPU-Server — warum es einer gehosteten API in puncto Datenschutz und Kontrolle überlegen ist, wie GPU und Modell aufeinander abgestimmt werden, der schnellste Weg zu einem laufenden Modell und die tatsächlichen Kosten.

Kein KYC
Nur Krypto
Keine Logs
DMCA ignoriert
Voller Root-Zugriff
NVMe SSD

Warum ein LLM selbst hosten

Wenn Sie eine gehostete KI-API aufrufen, wird jede Anfrage, die Sie senden, auf der Hardware eines Dritten verarbeitet. Der Anbieter sieht den vollständigen Text Ihrer Eingaben und Ausgaben, speichert diese in der Regel für einen gewissen Zeitraum und wendet seine eigene Inhaltsrichtlinie auf das an, was das Modell sagt und nicht sagt. Bei allem Sensiblen — proprietärem Code, vertraulichen Dokumenten, persönlichen Daten oder schlicht Arbeit, die Sie lieber nicht bei einem Dritten ablegen — ist das ein erhebliches Risiko.

Self-Hosting eines LLM schaltet den Mittelsmann aus. Sie mieten einen GPU-Server, laden ein Open-Weight-Modell darauf und führen die Inferenz selbst durch. Die Anfragen verlassen nie die Infrastruktur, die Sie kontrollieren, es wird nichts gespeichert, sofern Sie es nicht aktiv tun, und das Modell ist das von Ihnen gewählte — einschließlich offener Modelle ohne eingebaute Ablehnungen. In Verbindung mit einem No-KYC-GPU-Server im Offshore-Bereich ergibt Self-Hosting einen privaten KI-Endpunkt, der von keinem Unternehmen protokolliert, per Richtlinie gedrosselt oder zur Herausgabe gezwungen werden kann. Dieser Leitfaden behandelt die Wahl von Hardware und Modell, die Inbetriebnahme und die Kosten.

LLM auf einem GPU-Server selbst hosten
VRAM entscheidet alles: Wählen Sie die kleinste GPU, auf die das Modell mit ausreichend Puffer passt — für ungenutzten VRAM zu zahlen ist verschwendetes Budget.

GPU zum Modell passend auswählen

Die entscheidende Kenngröße ist VRAM — der Speicher der GPU. Ein Modell muss in den VRAM passen, um gut zu laufen; der benötigte Speicher hängt von der Parameteranzahl und der Präzision ab, mit der es geladen wird. Als Faustregel gilt: Ein auf 4-Bit quantisiertes Modell benötigt etwas mehr als ein halbes Gigabyte VRAM pro Milliarde Parameter; bei voller 16-Bit-Präzision ungefähr das Doppelte, zuzüglich Puffer für das Kontextfenster.

In der Praxis lässt sich das klar den verfügbaren Karten zuordnen:

  • RTX 4090 / RTX 5090 (24–32 GB VRAM) — läuft problemlos mit Modellen bis ca. 30 Milliarden Parameter quantisiert sowie kleineren Modellen bei voller Präzision. Die erste Wahl für die meisten Self-Hoster: schnell, erschwinglich und ausreichend für die besten mittelgroßen Open-Modelle.
  • H100 SXM5 (80 GB VRAM) — führt 70B-Modelle quantisiert mit Reserve aus, verarbeitet große Kontextfenster und bedient viele gleichzeitige Anfragen mit hohem Durchsatz. Die Wahl für die größten Open-Modelle oder produktionsreife Last.
  • Multi-GPU (2x H100, 160 GB) — für die allergrößten Open-Weight-Modelle und intensives paralleles Serving.

Gehen Sie vom gewünschten Modell aus, ermitteln Sie dessen VRAM-Bedarf und wählen Sie die kleinste Karte, die es mit ausreichend Puffer aufnimmt. Für ungenutzten VRAM zu bezahlen ist verschwendetes Budget.

Modell auswählen

Das Open-Weight-Ökosystem ist 2026 stark genug, dass ein selbst gehostetes Modell für die meisten Aufgaben einer gehosteten API ernsthaft Konkurrenz macht. Die wichtigsten Modellfamilien im Überblick:

  • Llama-Modellfamilie — gut unterstützte Allzweckmodelle in verschiedenen Größen; die sichere Standardwahl für die meisten Anwendungsfälle.
  • DeepSeek — starke Reasoning- und Coding-Leistung, in Größen verfügbar, die auf einer einzelnen Karte mit viel VRAM gut laufen.
  • Qwen und Mistral — hervorragende Leistung pro Parameter, mit kleineren Varianten, die auf einer 24–32-GB-Karte komfortabel laufen.
  • Uncensored oder abliterated Varianten — Community-Fine-Tunes der oben genannten Modelle mit entferntem Ablehnungsverhalten, für Nutzer, die ein Modell ohne die Inhaltsrichtlinie eines gehosteten Anbieters wünschen.

Wählen Sie das kleinste Modell, das Ihre Aufgabe wirklich gut erfüllt. Ein gut gewähltes 14B–30B-Modell auf einem einzelnen 4090 oder 5090 reicht für die große Mehrheit realer Anwendungsfälle — Coding-Hilfe, Textentwurf, Zusammenfassungen, Analysen — und ist deutlich günstiger zu betreiben, als gewohnheitsmäßig zu einem 70B-Modell zu greifen.

Schritt 1 — GPU-Server bereitstellen

Wählen Sie auf ServPrivacy einen GPU-Plan mit der gewünschten Karte und Jurisdiction, und zahlen Sie in Krypto. Der Server wird automatisch bereitgestellt — CUDA und die NVIDIA-Treiber sind vorinstalliert, sodass die Maschine beim ersten Start sofort für Inferenz-Aufgaben bereit ist; eine manuelle Treiberinstallation entfällt.

Verbinden Sie sich per SSH. Ein schnelles nvidia-smi bestätigt, dass die GPU erkannt wird, und zeigt den verfügbaren VRAM. Von hier sind Sie nur wenige Befehle von einem laufenden Modell entfernt.

Schritt 2 — Modell in Betrieb nehmen

Es gibt zwei bewährte Wege, je nachdem ob Ihnen Einfachheit oder maximaler Durchsatz wichtiger ist.

Der schnelle Weg: Ollama. Wer ein Modell in Minuten zum Laufen bringen möchte, ist mit Ollama am besten bedient. Installieren Sie es mit dem einzeiligen Installer, laden Sie dann ein Modell und starten Sie es mit einem einzigen Befehl — zum Beispiel ollama run llama3.1. Ollama übernimmt Download, Quantisierung und GPU-Offload und stellt eine lokale API bereit. Für den persönlichen Gebrauch und die Entwicklung ist das alles, was die meisten benötigen.

Der Durchsatz-Weg: vLLM. Wenn Sie viele gleichzeitige Anfragen effizient bedienen müssen — ein Anwendungs-Backend statt eines persönlichen Assistenten — ist vLLM die Standardwahl. Es ist ein hochperformanter Inferenz-Server, der wesentlich mehr Tokens pro Sekunde aus derselben GPU herausholt und eine OpenAI-kompatible API bereitstellt, sodass bestehender Code für eine gehostete API mit nur einer URL-Änderung auf Ihren eigenen Server umgeleitet werden kann.

Auf jedem der beiden Wege haben Sie innerhalb weniger Minuten nach dem Serverstart ein Modell, das Anfragen entgegennimmt.

Schritt 3 — Privat nutzen und Endpunkt absichern

Standardmäßig lauscht der Inferenz-Server lokal. Es gibt zwei sinnvolle Möglichkeiten, ihn zu erreichen, und eine Regel.

Die Regel: Setzen Sie die rohe Inferenz-API nicht dem offenen Internet aus. Standardmäßig verfügt sie über keine Authentifizierung, und ein offener Endpunkt wird gefunden und missbraucht. Tunneln Sie den Zugang stattdessen über SSH — damit bleibt die API an localhost gebunden und Sie erreichen sie über die verschlüsselte SSH-Verbindung — oder platzieren Sie sie hinter einem Reverse-Proxy, der Authentifizierung und TLS erzwingt. Für einen persönlichen Assistenten ist der SSH-Tunnel die einfachste und privateste Option; für eine Anwendung der authentifizierte Proxy.

Auf diese Weise reisen die Anfragen nur zwischen Ihnen und Ihrem eigenen Server. Nichts wird von einem Dritten protokolliert, nichts gespeichert außer was Sie konfigurieren, und das Modell antwortet ohne eine externe Inhaltsrichtlinie im Weg. Es ist im wörtlichen Sinne Ihre KI.

Was es kostet

Die Wirtschaftlichkeit des Self-Hosting hängt vollständig vom Nutzungsmuster ab. Eine gehostete API berechnet pro Token — hervorragend für leichte, gelegentliche Nutzung und teuer bei intensiver, dauerhafter Nutzung. Ein gemieteter GPU-Server ist ein fixer monatlicher Betrag, unabhängig davon, wie viele Tokens Sie durchleiten.

Der Break-even kommt für jeden, der echte Workloads betreibt, schnell. Ein einzelner RTX-4090-Server läuft ab ca. 122 $/Monat auf ServPrivacy; wenn Ihre Ausgaben für eine gehostete API bereits in diesem Bereich pro Monat liegen — und bei Coding-Assistenten, Stapelverarbeitung oder einem beliebigen Anwendungs-Backend ist das oft der Fall — ist eine dedizierte GPU sowohl günstiger als auch unbegrenzt. Sie gewinnen zudem, was eine tokenbasierte Abrechnung nicht bieten kann: keine Ratenbegrenzungen, keine Ablehnungen durch Richtlinien, vorhersehbare Kosten und vollständige Privatsphäre. Für gelegentliche Einzelfragen ist eine API in Ordnung; für alles Regelmäßige gewinnt Self-Hosting sowohl bei Kosten als auch bei Kontrolle.

Wann Self-Hosting die richtige Entscheidung ist

Ein LLM selbst zu hosten ist die richtige Wahl, wenn Ihnen eines von drei Dingen wichtig ist: Datenschutz — die Anfragen enthalten etwas, das Sie nicht auf den Servern eines Dritten ablegen würden; Kontrolle — Sie wollen ein bestimmtes Modell, einschließlich offener Modelle ohne gehostete Ablehnungen; oder Wirtschaftlichkeit — Ihre Nutzung ist intensiv genug, dass ein fixer GPU-Preis eine tokenbasierte Abrechnung schlägt.

Wenn Sie nur gelegentlich eine Frage an ein Modell stellen, ist eine gehostete API einfacher und günstiger. Für dauerhaften Einsatz, sensibles Material oder den Bedarf nach einem Modell, das auf Ihren Bedingungen antwortet, ist ein GPU-Server mit Ihrem eigenen Modell die bessere Lösung — und auf einem No-KYC-GPU-Host im Offshore-Bereich ist es ein privater KI-Endpunkt, der niemandem außer Ihnen gehört.

FAQ

LLM selbst hosten — häufige Fragen

01 Warum ein LLM selbst hosten statt eine API zu nutzen?

Datenschutz, Kontrolle und Kosten. Bei einer gehosteten API sieht der Anbieter jede Anfrage, speichert sie in der Regel und wendet seine eigene Inhaltsrichtlinie an. Self-Hosting hält die Anfragen auf Infrastruktur, die Sie kontrollieren, speichert nichts, sofern Sie es nicht selbst tun, und führt das offene Modell Ihrer Wahl aus. Bei sensiblem oder intensivem Einsatz ist es zudem günstiger als eine tokenbasierte Abrechnung.

02 Wie viel VRAM benötige ich, um ein LLM zu betreiben?

Das hängt von der Modellgröße und der Präzision ab. Als Faustregel gilt: Ein auf 4-Bit quantisiertes Modell benötigt etwas mehr als ein halbes Gigabyte VRAM pro Milliarde Parameter, zuzüglich Puffer für den Kontext. Eine 24–32-GB-Karte (RTX 4090 oder 5090) bewältigt Modelle bis ca. 30B quantisiert; eine 80-GB-H100 bewältigt Modelle der 70B-Klasse.

03 Was ist der schnellste Weg, ein Modell zum Laufen zu bringen?

Ollama. Auf einem GPU-Server mit vorinstalliertem CUDA installieren Sie Ollama mit dem einzeiligen Installer und starten ein Modell mit einem einzigen Befehl. Es übernimmt Download, Quantisierung und GPU-Offload und stellt eine lokale API bereit. Für die Bedienung vieler gleichzeitiger Anfragen mit hohem Durchsatz ist vLLM die bessere Wahl.

04 Kann ich ein uncensored Modell betreiben?

Ja. Da Sie den Server kontrollieren, wählen Sie das Modell — einschließlich Community-Fine-Tunes ohne Ablehnungsverhalten. Das ist einer der Kerngründe, warum Menschen Self-Hosting betreiben: Das Modell antwortet, ohne dass die Inhaltsrichtlinie eines gehosteten Anbieters im Weg steht.

05 Muss ich NVIDIA-Treiber und CUDA selbst installieren?

Nein. ServPrivacy-GPU-Server werden mit vorinstallierten NVIDIA-Treibern und CUDA geliefert, sodass die Maschine beim Start sofort inferenzbereit ist. Ein schnelles nvidia-smi bestätigt, dass die GPU erkannt wird; von dort aus sind Sie nur wenige Befehle von einem laufenden Modell entfernt.

06 Ist Self-Hosting eines LLM günstiger als eine API?

Bei dauerhafter Nutzung ja. Eine API berechnet pro Token; ein GPU-Server ist ein fixer monatlicher Betrag — ab ca. 122 $/Monat für einen RTX 4090 — unabhängig vom Volumen. Wenn Ihre monatlichen API-Kosten bereits in diesem Bereich liegen, ist eine dedizierte GPU günstiger, unbegrenzt und frei von Ratenbegrenzungen und Ablehnungen durch Richtlinien. Für gelegentliche Nutzung ist eine API in Ordnung.

Betreiben Sie Ihr eigenes Modell auf einem privaten GPU-Server

ServPrivacy-GPU-Server — RTX 4090, RTX 5090 und H100, CUDA vorinstalliert, No-KYC und Offshore, ab 122 $/Monat. Ihr Modell, Ihre Hardware, Ihre Anfragen.

Self-Host LLM GPU-Pläne ansehen No-KYC GPU