Accueil / Hébergement IA non censuré — Auto-hébergez votre propre LLM

Auto-hébergez DeepSeek-R1, Llama-3.3, Qwen3 — sans journalisation d'inférence, sans politique de contenu.

Hébergement IA non censuré — Auto-hébergez votre propre LLM

OpenAI, Anthropic, Google et xAI appliquent tous des politiques de contenu sur leurs endpoints hébergés — et enregistrent chaque prompt pour la classification de sécurité, l'amélioration du modèle et les réponses aux demandes gouvernementales. L'auto-hébergement sur votre propre serveur GPU inverse cela : tout modèle à poids ouverts que vous pouvez légalement obtenir s'exécute localement, aucun trafic d'inférence ne traverse notre plan réseau, aucun prompt n'est enregistré, aucune réponse n'est filtrée. ServPrivacy fournit des serveurs GPU RTX 4090 / RTX 5090 / H100 SXM5 dans 4 juridictions offshore avec des templates vLLM, Ollama, ComfyUI, Whisper et Bark en 1 clic.

Voir les offres VPS Trouver la meilleure juridiction

Ce que « non censuré » signifie réellement ici

Aucune journalisation d'inférence — vos prompts ne sont pas capturés
Aucune politique de contenu — les poids de modèles que vous apportez s'exécutent tels quels
Modèles à poids ouverts pré-téléchargés à la commande
Isolé des API IA tierces par défaut
CUDA 12 + vLLM / Ollama / ComfyUI prêts en 1 clic

Sans KYC

Crypto uniquement

Aucun journal

DMCA ignoré

Accès root complet

SSD NVMe

Les endpoints hébergés enregistrent tout. Les poids locaux n'enregistrent rien.

La question de l'IA « non censurée » est vraiment une question de souveraineté

Lorsque vous appelez l'API OpenAI, vos prompts entrent dans un journal de juridiction américaine conservé au minimum 30 jours (plus longtemps pour les classifications de sécurité), examinés par les équipes de sécurité lorsqu'ils sont signalés, et communicables à la procédure judiciaire américaine. Le modèle refuse également des catégories de sorties sur lesquelles le RLHF de sécurité a été entraîné. Lorsque vous exécutez Llama-3.3-70B-Instruct (ou son dérivé ablitéré) sur votre propre GPU, vos prompts ne quittent jamais votre machine, la formation au refus est celle des poids sous-jacents, et la juridiction légale est celle où vous avez hébergé le serveur. Ces deux couches — pas de journalisation et poids de votre choix — sont ce que les gens entendent par « IA non censurée ». ServPrivacy fournit (2) et (3) par défaut, et vous fournissez les poids du modèle pour (1) — nous n'inspectons ni ne filtrons ce qui s'exécute sur votre matériel.

Apportez n'importe quel modèle à poids ouverts

Llama-3.3, DeepSeek-R1, Qwen3, Mistral-Small-3, Gemma-3, Phi-4, forks ablitérés, finetunes personnalisés — tout ce qui est sur HuggingFace ou vos propres .safetensors. Nous pré-téléchargeons à la commande si vous fournissez le chemin du dépôt.

Aucune capture du trafic d'inférence

L'inférence se passe sur votre GPU, dans votre hôte KVM. Nous ne mandatons pas, ne mirrorons pas et ne sondons pas votre trafic de modèle. Vos prompts et vos générations restent locaux jusqu'à ce que vous en décidiez autrement.

Juridiction offshore

Islande (havre de liberté d'expression, 100 % d'énergie renouvelable), Pays-Bas (meilleur peering UE), Roumanie (précédent judiciaire anti-rétention), Moldavie (réglementation légère, coût réduit). Choisissez le cadre juridique adapté.

Endpoint HTTPS public optionnel

Activez à la commande et nous provisionnons Let's Encrypt + reverse proxy sur le port 443 — votre instance vLLM / Ollama est accessible sur une URL publique avec TLS en moins de 60 secondes.

Ce que « IA non censurée » signifie vraiment en 2026

Le terme « IA non censurée » recouvre trois significations différentes selon le contexte. (1) Poids avec refus supprimés — les finetunes ablitérés / non censurés de modèles de base (ex. Llama-3.3-70B-abliterated) ont le RLHF de sécurité annulé via l'édition d'activation ou l'ablation directionnelle. Ils produiront des sorties que le modèle Instruct original refuse. (2) Aucune modération de contenu dans la couche de service — exécuter le même modèle sans classifieur de politique de style OpenAI devant l'inférence. (3) Aucune journalisation prompt / complétion — vos entrées et sorties ne quittent jamais le serveur et ne sont retenues nulle part en amont. ServPrivacy fournit (2) et (3) par défaut, et vous fournissez les poids du modèle pour (1) — nous n'inspectons ni ne filtrons ce qui s'exécute sur votre matériel.

Le paysage actuel 2026 des LLM auto-hébergeables

En mai 2026, l'écosystème de poids ouverts rivalise réellement avec GPT-4 / Claude / Gemini hébergés sur de nombreuses tâches. DeepSeek-R1 et sa distillation dans Llama-70B égalent GPT-4 sur les benchmarks de raisonnement à une fraction du coût d'inférence. Llama-3.3-70B-Instruct reste le cheval de bataille par défaut pour l'assistance générale. Qwen3-32B est fort en multilingue et capable de raisonnement. Gemma-3-27B échange la capacité contre la clarté de licence. Mistral-Small-3 est le point idéal vitesse/qualité pour les tâches de code. Phi-4 dépasse son gabarit de 14B. FLUX.1-dev a déplacé SDXL pour la génération d'images. Whisper-Large-v3 reste le leader ASR à poids ouverts. Tous s'exécutent sur les niveaux GPU ci-dessous — voir le guide d'achat GPU pour le dimensionnement.

Hygiène opérationnelle pour un hébergement IA non censuré

Même sur un serveur GPU sans KYC sans journalisation d'inférence, vous pouvez laisser fuiter votre identité dans la charge de travail. Bonnes pratiques pour les auto-hébergeurs sérieux : (1) connectez-vous au serveur via Tor ou un VPN avant SSH ; (2) utilisez une clé SSH fraîche non liée à votre compte GitHub ; (3) si vous exposez un endpoint HTTPS public, protégez-le avec une clé API et limitez le débit par token plutôt que par IP ; (4) pré-téléchargez les poids en ligne à la commande plutôt que de les récupérer après déploiement avec votre compte HuggingFace ; (5) pour les prompts sensibles, exécutez llama.cpp ou vLLM derrière un espace de noms réseau isolé. Nous documentons ces schémas dans le hub de guides.

Ce qui est et n'est pas dans le périmètre de « non censuré »

Dans le périmètre : sorties NSFW ou politiquement sensibles que la formation au refus RLHF des modèles de base refuserait, contenu fictionnel impliquant de la violence, sorties critiquant des individus ou gouvernements nommés, sorties de recherche à double usage (ex. cybersécurité, biologie, chimie au niveau d'un manuel), sorties en mode prompt adversarial. Hors périmètre selon notre politique d'utilisation acceptable : CSAM (tolérance zéro, quel que soit le modèle), instructions pour des attaques CBRN à victimes massives (quel que soit le modèle), campagnes de harcèlement ciblé contre des individus nommés, et sorties explicitement interdites par la loi du pays d'hébergement. Le modèle lui-même décide de presque tout ; la politique d'utilisation acceptable délimite les cas les plus extrêmes.

Juridictions

Hébergement IA non censuré dans 4 juridictions offshore

La Russie est exclue de la gamme GPU en raison des sanctions à l'exportation NVIDIA H100 / RTX 4090+.

Islande

Havre de liberté d'expression

Lois strictes sur la vie privée, énergie renouvelable, hors UE.

$19.99/mo VPS $129/mo Dédié

Panama

Aucune rétention de données

Aucune loi de rétention de données, pas de MLAT avec la plupart des pays occidentaux.

$16.99/mo VPS $109/mo Dédié

Moldavie

Offshore économique

Réglementation minimale, tarifs bas, coopération internationale minimale.

$14.99/mo VPS $99/mo Dédié

Roumanie

Anti-rétention

Les tribunaux ont invalidé les lois de rétention de données. Excellente connectivité UE.

$16.99/mo VPS $109/mo Dédié

Suisse

Confidentialité premium

Lois strictes sur la vie privée, neutralité politique, infrastructure de premier ordre.

$21.99/mo VPS $139/mo Dédié

Pays-Bas

Meilleur peering

Connectivité excellente, hébergement tolérant, peering AMS-IX.

$17.99/mo VPS $119/mo Dédié

Russie

Hors d'atteinte occidentale

Hors de portée juridique occidentale. Soumis au droit russe.

$14.99/mo VPS $99/mo Dédié

FAQ

Hébergement IA non censuré — questions fréquentes

01 Enregistrez-vous les prompts ou les sorties du modèle ?

Non. Le serveur GPU est votre hôte KVM. Nous ne mandatons pas votre trafic d'inférence, ne le mirrorons pas, ne le sondons pas et ne transmettons le contenu des prompts ou des complétions nulle part. Les seuls logs que nous conservons sont au niveau réseau (compteurs de bande passante) et hyperviseur (disponibilité, consommation GPU).

02 Puis-je exécuter Llama-3.3-70B-abliterated ou DeepSeek-R1 ici ?

Oui. Tout modèle à poids ouverts sur HuggingFace que vous pouvez légalement obtenir — Llama-3.3-70B-Instruct, forks ablitérés, DeepSeek-R1, DeepSeek-R1-Distill-Llama-70B, Qwen3-32B, Gemma-3-27B, Mistral-Small-3, Phi-4 et d'autres. Nous pré-téléchargeons à la commande lorsque vous spécifiez le dépôt HF, ou vous pouvez télécharger manuellement après la première connexion SSH.

03 Quelles tailles conviennent à quel niveau GPU ?

Dimensionnement approximatif en quantification Q4 : RTX 4090 (24 Go) convient confortablement aux 7B-13B et aux 27-32B avec difficulté d'offload. RTX 5090 (32 Go) convient confortablement aux 27B-32B et aux 70B avec offload CPU. H100 SXM5 (80 Go) convient aux 70B en Q4-Q5 confortablement. Dual H100 (160 Go) convient aux 70B en FP16, aux 120-180B en Q4. Le guide d'achat sur /guides/rtx-4090-vs-h100-for-ai-inference présente des chiffres de débit détaillés.

04 Y a-t-il une politique de contenu que je rencontrerai ?

Aucune politique de contenu au niveau de la plateforme sur ce que produit votre modèle. Notre politique d'utilisation acceptable interdit uniquement ce qui est illégal dans le pays d'hébergement quelle que soit la manière dont cela a été généré (CSAM, instructions d'attaques CBRN à victimes massives, harcèlement ciblé d'individus nommés). Tout le reste, y compris NSFW, politique, recherche à double usage et sorties en mode adversarial, fonctionne.

05 Puis-je servir mon LLM sur une URL publique ?

Oui. Activez « HTTPS public » à la commande — nous provisionnons un certificat Let's Encrypt et un reverse proxy sur le port 443 vers votre port vLLM / Ollama / Open WebUI. Votre modèle est accessible sur `https://.servprivacy.dev` (ou votre propre domaine si vous pointez un enregistrement A) avec TLS, sans configuration supplémentaire.

06 Comment cela se compare-t-il à OpenAI, Anthropic ou les proxies open-router ?

OpenAI / Anthropic : hébergé, politique de contenu complète, journalisation des prompts 30 jours, juridiction américaine. OpenRouter / Together / Fireworks : toujours hébergé, politique de contenu définie par le vendeur, journalisation par le vendeur. Auto-hébergé sur GPU offshore : aucune politique au niveau de la plateforme, aucune journalisation de notre part, juridiction du pays d'hébergement. Compromis : vous payez le temps GPU qu'il soit utilisé ou non, et vous gérez la stack vous-même. Pour une utilisation intensive, le calcul penche vers l'auto-hébergement ; pour une utilisation occasionnelle, les API hébergées gagnent sur le coût.

Auto-hébergez votre propre IA, sans logs, sans politique

Llama, DeepSeek, Qwen, Mistral, Gemma — apportez n'importe quel modèle à poids ouverts. GPU offshore à partir de $249/mois, CUDA 12 + vLLM en 1 clic.

Commencer Trouver la meilleure juridiction