Nicht zensiertes KI-Hosting — Self-Host Ihr eigenes LLM
OpenAI, Anthropic, Google und xAI setzen Inhaltsrichtlinien bei ihren gehosteten Endpunkten durch — und protokollieren jeden Prompt zur Sicherheitsklassifizierung, Modellverbesserung und Beantwortung von Behördenanfragen. Das Self-Hosting auf Ihrer eigenen GPU-Box dreht das um: Jedes Open-Weight-Modell, das Sie legal erhalten können, läuft lokal, kein Inferenzverkehr überquert unsere Netzwerkebene, keine Prompts werden protokolliert, keine Antworten werden gefiltert. ServPrivacy liefert RTX-4090-/RTX-5090-/H100-SXM5-GPU-Server in 4 Offshore-Jurisdiktionen mit 1-Klick-vLLM-, Ollama-, ComfyUI-, Whisper- und Bark-Templates.
Was „nicht zensiert" hier tatsächlich bedeutet
- Keine Inferenz-Protokollierung — Ihre Prompts werden nicht erfasst
- Keine Inhaltsrichtlinie — Modellgewichte, die Sie mitbringen, laufen unverändert
- Open-Weight-Modelle werden zum Bestellzeitpunkt vorab heruntergeladen
- Standardmäßig air-gapped von Drittanbieter-KI-APIs
- CUDA 12 + vLLM / Ollama / ComfyUI 1-Klick bereit
Die „nicht zensiert"-Frage ist eigentlich eine Souveränitätsfrage
Wenn Sie die OpenAI-API aufrufen, gelangen Ihre Prompts in ein US-Jurisdiktion-Protokoll, das mindestens 30 Tage lang aufbewahrt wird (länger für Sicherheitsklassifizierungen), von Sicherheitsteams überprüft wird, wenn sie markiert werden, und US-Rechtsverfahren übergeben werden können. Das Modell verweigert auch Kategorien von Ausgaben, für die das Sicherheits-RLHF trainiert wurde. Wenn Sie Llama-3.3-70B-Instruct (oder sein ablitiertes Derivat) auf Ihrer eigenen GPU ausführen, verlassen Ihre Prompts Ihre Maschine nie, das Verweigerungstraining ist das, was die zugrunde liegenden Gewichte Ihnen bieten, und die rechtliche Jurisdiktion ist dort, wo Sie die Box gehostet haben. Beide Ebenen — keine Protokollierung und Gewichte Ihrer Wahl — sind das, was Menschen mit „nicht zensierter KI" meinen. ServPrivacy liefert beides: Offshore-GPU ohne Inferenz-Netzwerk-Erfassung, plus 1-Klick-Templates, die jedes HuggingFace-Modell laden, ohne dass wir die Gewichte inspizieren.
Bringen Sie jedes Open-Weight-Modell mit
Llama-3.3, DeepSeek-R1, Qwen3, Mistral-Small-3, Gemma-3, Phi-4, ablitierte Forks, benutzerdefinierte Fine-Tunes — alles auf HuggingFace oder Ihre eigenen .safetensors-Dateien. Wir laden zum Bestellzeitpunkt vorab herunter, wenn Sie den Repo-Pfad angeben.
Keine Inferenzverkehrs-Erfassung
Inferenz findet auf Ihrer GPU in Ihrem KVM-Gast statt. Wir proxyen, spiegeln oder samplen Ihren Modellverkehr nicht. Ihre Prompts und Ihre Generierungen bleiben lokal, bis Sie sich anders entscheiden.
Offshore-Jurisdiktion
Island (Redefreiheitsoase, 100 % erneuerbare Energie), Niederlande (bestes EU-Peering), Rumänien (Anti-Retention-Gerichtspräzedenz), Moldau (leichte Regulierung, niedrige Kosten). Wählen Sie den rechtlichen Rahmen, der passt.
Öffentlicher HTTPS-Endpunkt optional
Aktivieren Sie ihn zum Bestellzeitpunkt und wir stellen Let's Encrypt + Reverse Proxy auf Port 443 bereit — Ihre vLLM-/Ollama-Instanz ist auf einer öffentlichen URL mit TLS in unter 60 Sekunden erreichbar.
Was „nicht zensierte KI" 2026 wirklich bedeutet
Der Begriff „nicht zensierte KI" hat je nach Kontext drei verschiedene Bedeutungen. (1) Verweigerungs-entfernte Gewichte — ablitierte / nicht zensierte Fine-Tunes von Basismodellen (z. B. Llama-3.3-70B-abliterated) haben das Sicherheits-RLHF durch Aktivierungsbearbeitung oder Richtungsablation entfernt. Sie erzeugen Ausgaben, die das originale Instruct-Modell verweigert. (2) Keine Inhaltsmoderation in der Serving-Schicht — dasselbe Modell ohne einen OpenAI-ähnlichen Richtlinien-Klassifizierer vor der Inferenz ausführen. (3) Keine Prompt-/Completion-Protokollierung — Ihre Eingaben und Ausgaben verlassen die Box nie und werden nirgendwo vorgelagert aufbewahrt. ServPrivacy liefert (2) und (3) standardmäßig, und Sie liefern die Modellgewichte für (1) — wir inspizieren oder filtern nicht, was auf Ihrer Hardware läuft.
Die aktuelle Landschaft der selbst hostbaren LLMs in 2026
Stand Mai 2026 konkurriert das Open-Weight-Ökosystem in vielen Aufgaben wirklich mit gehostetem GPT-4 / Claude / Gemini. DeepSeek-R1 und seine Destillation in Llama-70B erreichen GPT-4 bei Reasoning-Benchmarks zu einem Bruchteil der Inferenzkosten. Llama-3.3-70B-Instruct bleibt das Standard-Arbeitspferd für allgemeine Assistenz. Qwen3-32B ist mehrsprachig stark und reasoning-fähig. Gemma-3-27B tauscht Fähigkeiten gegen Lizenzklarheit. Mistral-Small-3 ist der Geschwindigkeits-/Qualitäts-Sweet-Spot für Code-Aufgaben. Phi-4 übersteigt seine 14B-Gewichtsklasse. FLUX.1-dev hat SDXL für die Bildgenerierung abgelöst. Whisper-Large-v3 ist immer noch der Open-Weight-ASR-Marktführer. Alle laufen auf den GPU-Stufen unten — siehe den GPU-Kaufleitfaden für die Dimensionierung.
Operative Hygiene für einen nicht zensierten KI-Host
Selbst auf einer No-KYC-GPU-Box ohne Inferenz-Protokollierung können Sie Identität in die Arbeitslast einschleusen. Praktische Hygiene für ernsthafte Selbst-Hoster: (1) Verbinden Sie sich vor SSH über Tor oder ein VPN mit der Box; (2) Verwenden Sie einen neuen SSH-Schlüssel, der nicht mit Ihrem GitHub-Konto verknüpft ist; (3) Wenn Sie einen öffentlichen HTTPS-Endpunkt freigeben, sichern Sie ihn mit einem API-Schlüssel und begrenzen Sie die Rate per Token statt per IP; (4) Laden Sie Gewichte inline zum Bestellzeitpunkt vorab herunter statt sie nach der Bereitstellung mit Ihrem HuggingFace-Konto abzurufen; (5) Führen Sie für vertrauliche Prompts llama.cpp oder vLLM hinter einem isolierten Netzwerk-Namespace aus. Wir dokumentieren diese Muster im Leitfaden-Hub.
Was im Rahmen von „nicht zensiert" liegt und was nicht
Im Rahmen: NSFW- oder politisch-sensible Ausgaben, die das Sicherheits-RLHF-Training von Basismodellen verweigern würde, fiktionale Inhalte mit Gewalt, Ausgaben, die bestimmte namentlich genannte Personen oder Regierungen kritisieren, Dual-Use-Forschungsausgaben (z. B. Cybersicherheit, Biologie, Chemie auf Lehrbuchniveau), Ausgaben in gegnerischem Prompt-Engineering-Ton. Außerhalb unserer AUP: CSAM (null Toleranz, unabhängig vom Modell), Anleitungen für Massenanschläge mit CBRN-Waffen (unabhängig vom Modell), gezielte Belästigungskampagnen gegen namentlich genannte Personen und Ausgaben, die nach dem Recht des Host-Landes ausdrücklich verboten sind. Das Modell selbst entscheidet fast alles; die AUP grenzt die härtesten Fälle aus.
Nicht zensiertes KI-Hosting in 4 Offshore-Jurisdiktionen
Russland ist aufgrund von NVIDIA-H100-/RTX-4090+-Exportsanktionen vom GPU-Angebot ausgeschlossen.
Island
Hafen der MeinungsfreiheitStrenge Datenschutzgesetze, erneuerbare Energien, außerhalb der EU.
Panama
Keine VorratsdatenspeicherungKeine Vorratsdatenspeicherung, kein MLAT mit den meisten westlichen Ländern.
Moldau
Budget-OffshoreMinimale Regulierung, niedrige Preise, minimale internationale Zusammenarbeit.
Rumänien
Anti-VorratsdatenspeicherungGerichte erklärten Vorratsdatenspeicherung für verfassungswidrig. Hervorragende EU-Konnektivität.
Schweiz
Premium-DatenschutzStrenge Datenschutzgesetze, politische Neutralität, erstklassige Infrastruktur.
Niederlande
Bestes PeeringHervorragende Konnektivität, tolerantes Hosting, AMS-IX-Peering.
Russland
Westlich unangreifbarAußerhalb westlicher Rechtshoheit. Russischem Recht unterworfen.
Nicht zensiertes KI-Hosting — häufig gestellte Fragen
01 Protokollieren Sie Prompts oder Modellausgaben?
Nein. Die GPU-Box ist Ihr KVM-Gast. Wir proxyen Ihren Inferenzverkehr nicht, spiegeln ihn nicht, samplen ihn nicht und leiten Prompt- oder Completion-Inhalte nirgendwo weiter. Die einzigen Protokolle, die wir führen, sind auf Netzwerkebene (Bandbreitenzähler) und Hypervisor-Ebene (Betriebszeit, GPU-Stromaufnahme).
02 Kann ich Llama-3.3-70B-abliterated oder DeepSeek-R1 hier ausführen?
Ja. Jedes Open-Weight-Modell auf HuggingFace, das Sie legal erhalten können — Llama-3.3-70B-Instruct, ablitierte Forks, DeepSeek-R1, DeepSeek-R1-Distill-Llama-70B, Qwen3-32B, Gemma-3-27B, Mistral-Small-3, Phi-4 und andere. Wir laden zum Bestellzeitpunkt vorab herunter, wenn Sie das HF-Repo angeben, oder Sie können manuell nach dem ersten SSH abrufen.
03 Welche Größen passen auf welche GPU-Stufe?
Ungefähre Dimensionierung bei Q4-Quantisierung: RTX 4090 (24 GB) passt 7B-13B komfortabel und 27-32B mit Offload-Schmerzen. RTX 5090 (32 GB) passt 27B-32B komfortabel und 70B mit CPU-Offload. H100 SXM5 (80 GB) passt 70B bei Q4-Q5 komfortabel. Dual H100 (160 GB) passt 70B bei FP16, 120-180B bei Q4. Der Kaufleitfaden unter /guides/rtx-4090-vs-h100-for-ai-inference enthält detaillierte Durchsatzzahlen.
04 Gibt es eine Inhaltsrichtlinie, auf die ich stoße?
Keine plattformseitige Inhaltsrichtlinie für das, was Ihr Modell produziert. Unsere AUP verbietet nur das, was nach dem Recht des Host-Landes illegal ist, unabhängig davon, wie es generiert wurde (CSAM, Anleitungen für Massenanschläge mit CBRN-Waffen, gezielte Belästigung bestimmter namentlich genannter Personen). Alles andere, einschließlich NSFW, politischer, Dual-Use-Forschungs- und gegnerisch-gepprompteter Ausgaben, läuft.
05 Kann ich mein LLM auf einer öffentlichen URL bereitstellen?
Ja. Aktivieren Sie „Öffentliches HTTPS" zum Bestellzeitpunkt — wir stellen ein Let's-Encrypt-Zertifikat und Reverse-Proxy auf Port 443 zu Ihrem vLLM-/Ollama-/Open-WebUI-Port bereit. Ihr Modell ist unter `https://
06 Wie verhält sich das im Vergleich zu OpenAI, Anthropic oder Open-Router-Proxies?
OpenAI / Anthropic: gehostet, vollständige Inhaltsrichtlinie, 30-Tage-Prompt-Protokollierung, US-Rechtsjurisdiktion. OpenRouter / Together / Fireworks: immer noch gehostet, anbieterdefinierte Inhaltsrichtlinie, Anbieter-Protokollierung. Self-hosted auf Offshore-GPU: keine plattformseitige Richtlinie, keine Protokollierung durch uns, Jurisdiktion des Host-Landes. Kompromiss: Sie zahlen für GPU-Zeit, egal ob Sie sie nutzen oder nicht, und Sie betreiben den Stack selbst. Bei hohem Volumen neigt die Mathematik zum Self-Hosting; bei sporadischer Nutzung gewinnen gehostete APIs beim Preis.
Self-Host Ihre eigene KI, keine Protokolle, keine Richtlinie
Llama, DeepSeek, Qwen, Mistral, Gemma — bringen Sie jedes Open-Weight-Modell mit. Offshore-GPU ab $249/Monat, CUDA 12 + 1-Klick-vLLM bereit.