Startseite / Nicht zensiertes KI-Hosting — Self-Host Ihr eigenes LLM

Self-host DeepSeek-R1, Llama-3.3, Qwen3 — keine Inferenz-Protokollierung, keine Inhaltsrichtlinie.

Nicht zensiertes KI-Hosting — Self-Host Ihr eigenes LLM

OpenAI, Anthropic, Google und xAI setzen Inhaltsrichtlinien bei ihren gehosteten Endpunkten durch — und protokollieren jeden Prompt zur Sicherheitsklassifizierung, Modellverbesserung und Beantwortung von Behördenanfragen. Das Self-Hosting auf Ihrer eigenen GPU-Box dreht das um: Jedes Open-Weight-Modell, das Sie legal erhalten können, läuft lokal, kein Inferenzverkehr überquert unsere Netzwerkebene, keine Prompts werden protokolliert, keine Antworten werden gefiltert. ServPrivacy liefert RTX-4090-/RTX-5090-/H100-SXM5-GPU-Server in 4 Offshore-Jurisdiktionen mit 1-Klick-vLLM-, Ollama-, ComfyUI-, Whisper- und Bark-Templates.

VPS-Tarife ansehen Besten Rechtsraum finden

Was „nicht zensiert" hier tatsächlich bedeutet

Keine Inferenz-Protokollierung — Ihre Prompts werden nicht erfasst
Keine Inhaltsrichtlinie — Modellgewichte, die Sie mitbringen, laufen unverändert
Open-Weight-Modelle werden zum Bestellzeitpunkt vorab heruntergeladen
Standardmäßig air-gapped von Drittanbieter-KI-APIs
CUDA 12 + vLLM / Ollama / ComfyUI 1-Klick bereit

Kein KYC

Nur Krypto

Keine Logs

DMCA ignoriert

Voller Root-Zugriff

NVMe SSD

Gehostete Endpunkte protokollieren alles. Lokale Gewichte protokollieren nichts.

Die „nicht zensiert"-Frage ist eigentlich eine Souveränitätsfrage

Wenn Sie die OpenAI-API aufrufen, gelangen Ihre Prompts in ein US-Jurisdiktion-Protokoll, das mindestens 30 Tage lang aufbewahrt wird (länger für Sicherheitsklassifizierungen), von Sicherheitsteams überprüft wird, wenn sie markiert werden, und US-Rechtsverfahren übergeben werden können. Das Modell verweigert auch Kategorien von Ausgaben, für die das Sicherheits-RLHF trainiert wurde. Wenn Sie Llama-3.3-70B-Instruct (oder sein ablitiertes Derivat) auf Ihrer eigenen GPU ausführen, verlassen Ihre Prompts Ihre Maschine nie, das Verweigerungstraining ist das, was die zugrunde liegenden Gewichte Ihnen bieten, und die rechtliche Jurisdiktion ist dort, wo Sie die Box gehostet haben. Beide Ebenen — keine Protokollierung und Gewichte Ihrer Wahl — sind das, was Menschen mit „nicht zensierter KI" meinen. ServPrivacy liefert beides: Offshore-GPU ohne Inferenz-Netzwerk-Erfassung, plus 1-Klick-Templates, die jedes HuggingFace-Modell laden, ohne dass wir die Gewichte inspizieren.

Bringen Sie jedes Open-Weight-Modell mit

Llama-3.3, DeepSeek-R1, Qwen3, Mistral-Small-3, Gemma-3, Phi-4, ablitierte Forks, benutzerdefinierte Fine-Tunes — alles auf HuggingFace oder Ihre eigenen .safetensors-Dateien. Wir laden zum Bestellzeitpunkt vorab herunter, wenn Sie den Repo-Pfad angeben.

Keine Inferenzverkehrs-Erfassung

Inferenz findet auf Ihrer GPU in Ihrem KVM-Gast statt. Wir proxyen, spiegeln oder samplen Ihren Modellverkehr nicht. Ihre Prompts und Ihre Generierungen bleiben lokal, bis Sie sich anders entscheiden.

Offshore-Jurisdiktion

Island (Redefreiheitsoase, 100 % erneuerbare Energie), Niederlande (bestes EU-Peering), Rumänien (Anti-Retention-Gerichtspräzedenz), Moldau (leichte Regulierung, niedrige Kosten). Wählen Sie den rechtlichen Rahmen, der passt.

Öffentlicher HTTPS-Endpunkt optional

Aktivieren Sie ihn zum Bestellzeitpunkt und wir stellen Let's Encrypt + Reverse Proxy auf Port 443 bereit — Ihre vLLM-/Ollama-Instanz ist auf einer öffentlichen URL mit TLS in unter 60 Sekunden erreichbar.

Was „nicht zensierte KI" 2026 wirklich bedeutet

Der Begriff „nicht zensierte KI" hat je nach Kontext drei verschiedene Bedeutungen. (1) Verweigerungs-entfernte Gewichte — ablitierte / nicht zensierte Fine-Tunes von Basismodellen (z. B. Llama-3.3-70B-abliterated) haben das Sicherheits-RLHF durch Aktivierungsbearbeitung oder Richtungsablation entfernt. Sie erzeugen Ausgaben, die das originale Instruct-Modell verweigert. (2) Keine Inhaltsmoderation in der Serving-Schicht — dasselbe Modell ohne einen OpenAI-ähnlichen Richtlinien-Klassifizierer vor der Inferenz ausführen. (3) Keine Prompt-/Completion-Protokollierung — Ihre Eingaben und Ausgaben verlassen die Box nie und werden nirgendwo vorgelagert aufbewahrt. ServPrivacy liefert (2) und (3) standardmäßig, und Sie liefern die Modellgewichte für (1) — wir inspizieren oder filtern nicht, was auf Ihrer Hardware läuft.

Die aktuelle Landschaft der selbst hostbaren LLMs in 2026

Stand Mai 2026 konkurriert das Open-Weight-Ökosystem in vielen Aufgaben wirklich mit gehostetem GPT-4 / Claude / Gemini. DeepSeek-R1 und seine Destillation in Llama-70B erreichen GPT-4 bei Reasoning-Benchmarks zu einem Bruchteil der Inferenzkosten. Llama-3.3-70B-Instruct bleibt das Standard-Arbeitspferd für allgemeine Assistenz. Qwen3-32B ist mehrsprachig stark und reasoning-fähig. Gemma-3-27B tauscht Fähigkeiten gegen Lizenzklarheit. Mistral-Small-3 ist der Geschwindigkeits-/Qualitäts-Sweet-Spot für Code-Aufgaben. Phi-4 übersteigt seine 14B-Gewichtsklasse. FLUX.1-dev hat SDXL für die Bildgenerierung abgelöst. Whisper-Large-v3 ist immer noch der Open-Weight-ASR-Marktführer. Alle laufen auf den GPU-Stufen unten — siehe den GPU-Kaufleitfaden für die Dimensionierung.

Operative Hygiene für einen nicht zensierten KI-Host

Selbst auf einer No-KYC-GPU-Box ohne Inferenz-Protokollierung können Sie Identität in die Arbeitslast einschleusen. Praktische Hygiene für ernsthafte Selbst-Hoster: (1) Verbinden Sie sich vor SSH über Tor oder ein VPN mit der Box; (2) Verwenden Sie einen neuen SSH-Schlüssel, der nicht mit Ihrem GitHub-Konto verknüpft ist; (3) Wenn Sie einen öffentlichen HTTPS-Endpunkt freigeben, sichern Sie ihn mit einem API-Schlüssel und begrenzen Sie die Rate per Token statt per IP; (4) Laden Sie Gewichte inline zum Bestellzeitpunkt vorab herunter statt sie nach der Bereitstellung mit Ihrem HuggingFace-Konto abzurufen; (5) Führen Sie für vertrauliche Prompts llama.cpp oder vLLM hinter einem isolierten Netzwerk-Namespace aus. Wir dokumentieren diese Muster im Leitfaden-Hub.

Was im Rahmen von „nicht zensiert" liegt und was nicht

Im Rahmen: NSFW- oder politisch-sensible Ausgaben, die das Sicherheits-RLHF-Training von Basismodellen verweigern würde, fiktionale Inhalte mit Gewalt, Ausgaben, die bestimmte namentlich genannte Personen oder Regierungen kritisieren, Dual-Use-Forschungsausgaben (z. B. Cybersicherheit, Biologie, Chemie auf Lehrbuchniveau), Ausgaben in gegnerischem Prompt-Engineering-Ton. Außerhalb unserer AUP: CSAM (null Toleranz, unabhängig vom Modell), Anleitungen für Massenanschläge mit CBRN-Waffen (unabhängig vom Modell), gezielte Belästigungskampagnen gegen namentlich genannte Personen und Ausgaben, die nach dem Recht des Host-Landes ausdrücklich verboten sind. Das Modell selbst entscheidet fast alles; die AUP grenzt die härtesten Fälle aus.

Rechtsräume

Nicht zensiertes KI-Hosting in 4 Offshore-Jurisdiktionen

Russland ist aufgrund von NVIDIA-H100-/RTX-4090+-Exportsanktionen vom GPU-Angebot ausgeschlossen.

Island

Hafen der Meinungsfreiheit

Strenge Datenschutzgesetze, erneuerbare Energien, außerhalb der EU.

$19.99/mo VPS $129/mo Dedi

Panama

Keine Vorratsdatenspeicherung

Keine Vorratsdatenspeicherung, kein MLAT mit den meisten westlichen Ländern.

$16.99/mo VPS $109/mo Dedi

Moldau

Budget-Offshore

Minimale Regulierung, niedrige Preise, minimale internationale Zusammenarbeit.

$14.99/mo VPS $99/mo Dedi

Rumänien

Anti-Vorratsdatenspeicherung

Gerichte erklärten Vorratsdatenspeicherung für verfassungswidrig. Hervorragende EU-Konnektivität.

$16.99/mo VPS $109/mo Dedi

Schweiz

Premium-Datenschutz

Strenge Datenschutzgesetze, politische Neutralität, erstklassige Infrastruktur.

$21.99/mo VPS $139/mo Dedi

Niederlande

Bestes Peering

Hervorragende Konnektivität, tolerantes Hosting, AMS-IX-Peering.

$17.99/mo VPS $119/mo Dedi

Russland

Westlich unangreifbar

Außerhalb westlicher Rechtshoheit. Russischem Recht unterworfen.

$14.99/mo VPS $99/mo Dedi

FAQ

Nicht zensiertes KI-Hosting — häufig gestellte Fragen

01 Protokollieren Sie Prompts oder Modellausgaben?

Nein. Die GPU-Box ist Ihr KVM-Gast. Wir proxyen Ihren Inferenzverkehr nicht, spiegeln ihn nicht, samplen ihn nicht und leiten Prompt- oder Completion-Inhalte nirgendwo weiter. Die einzigen Protokolle, die wir führen, sind auf Netzwerkebene (Bandbreitenzähler) und Hypervisor-Ebene (Betriebszeit, GPU-Stromaufnahme).

02 Kann ich Llama-3.3-70B-abliterated oder DeepSeek-R1 hier ausführen?

Ja. Jedes Open-Weight-Modell auf HuggingFace, das Sie legal erhalten können — Llama-3.3-70B-Instruct, ablitierte Forks, DeepSeek-R1, DeepSeek-R1-Distill-Llama-70B, Qwen3-32B, Gemma-3-27B, Mistral-Small-3, Phi-4 und andere. Wir laden zum Bestellzeitpunkt vorab herunter, wenn Sie das HF-Repo angeben, oder Sie können manuell nach dem ersten SSH abrufen.

03 Welche Größen passen auf welche GPU-Stufe?

Ungefähre Dimensionierung bei Q4-Quantisierung: RTX 4090 (24 GB) passt 7B-13B komfortabel und 27-32B mit Offload-Schmerzen. RTX 5090 (32 GB) passt 27B-32B komfortabel und 70B mit CPU-Offload. H100 SXM5 (80 GB) passt 70B bei Q4-Q5 komfortabel. Dual H100 (160 GB) passt 70B bei FP16, 120-180B bei Q4. Der Kaufleitfaden unter /guides/rtx-4090-vs-h100-for-ai-inference enthält detaillierte Durchsatzzahlen.

04 Gibt es eine Inhaltsrichtlinie, auf die ich stoße?

Keine plattformseitige Inhaltsrichtlinie für das, was Ihr Modell produziert. Unsere AUP verbietet nur das, was nach dem Recht des Host-Landes illegal ist, unabhängig davon, wie es generiert wurde (CSAM, Anleitungen für Massenanschläge mit CBRN-Waffen, gezielte Belästigung bestimmter namentlich genannter Personen). Alles andere, einschließlich NSFW, politischer, Dual-Use-Forschungs- und gegnerisch-gepprompteter Ausgaben, läuft.

05 Kann ich mein LLM auf einer öffentlichen URL bereitstellen?

Ja. Aktivieren Sie „Öffentliches HTTPS" zum Bestellzeitpunkt — wir stellen ein Let's-Encrypt-Zertifikat und Reverse-Proxy auf Port 443 zu Ihrem vLLM-/Ollama-/Open-WebUI-Port bereit. Ihr Modell ist unter `https://.servprivacy.dev` (oder Ihrer eigenen Domain, wenn Sie einen A-Eintrag setzen) mit TLS erreichbar, kein zusätzliches Setup.

06 Wie verhält sich das im Vergleich zu OpenAI, Anthropic oder Open-Router-Proxies?

OpenAI / Anthropic: gehostet, vollständige Inhaltsrichtlinie, 30-Tage-Prompt-Protokollierung, US-Rechtsjurisdiktion. OpenRouter / Together / Fireworks: immer noch gehostet, anbieterdefinierte Inhaltsrichtlinie, Anbieter-Protokollierung. Self-hosted auf Offshore-GPU: keine plattformseitige Richtlinie, keine Protokollierung durch uns, Jurisdiktion des Host-Landes. Kompromiss: Sie zahlen für GPU-Zeit, egal ob Sie sie nutzen oder nicht, und Sie betreiben den Stack selbst. Bei hohem Volumen neigt die Mathematik zum Self-Hosting; bei sporadischer Nutzung gewinnen gehostete APIs beim Preis.

Self-Host Ihre eigene KI, keine Protokolle, keine Richtlinie

Llama, DeepSeek, Qwen, Mistral, Gemma — bringen Sie jedes Open-Weight-Modell mit. Offshore-GPU ab $249/Monat, CUDA 12 + 1-Klick-vLLM bereit.

Jetzt starten Besten Rechtsraum finden