Início / Hospedagem de IA Sem Censura — Auto-hospede Seu Próprio LLM
Auto-hospede DeepSeek-R1, Llama-3.3, Qwen3 — sem log de inferência, sem política de conteúdo.

Hospedagem de IA Sem Censura — Auto-hospede Seu Próprio LLM

OpenAI, Anthropic, Google e xAI aplicam políticas de conteúdo em seus endpoints hospedados — e registram cada prompt para classificação de segurança, melhoria do modelo e resposta a solicitações governamentais. Auto-hospedar em sua própria caixa de GPU inverte isso: qualquer modelo de peso aberto que você possa obter legalmente roda localmente, nenhum tráfego de inferência cruza nosso plano de rede, nenhum prompt é registrado, nenhuma resposta é filtrada. A ServPrivacy oferece servidores GPU RTX 4090 / RTX 5090 / H100 SXM5 em 4 jurisdições offshore com modelos vLLM, Ollama, ComfyUI, Whisper e Bark com 1 clique.

Sem KYC
Somente Cripto
Sem Logs
DMCA ignorado
Root Completo
NVMe SSD
Endpoints hospedados registram tudo. Pesos locais não registram nada.

A questão da "IA sem censura" é realmente uma questão de soberania

Quando você chama a API da OpenAI, seus prompts entram em um log de jurisdição dos EUA retido por no mínimo 30 dias (mais tempo para classificações de segurança), revisados por equipes de segurança quando sinalizados e passíveis de entrega a processos legais dos EUA. O modelo também recusa categorias de output para as quais o RLHF de segurança foi treinado. Quando você roda Llama-3.3-70B-Instruct (ou seu derivado abliterado) em sua própria GPU, seus prompts nunca saem da sua máquina, o treinamento de recusa é o que os pesos subjacentes oferecem, e a jurisdição legal é onde você hospedou a caixa. Ambas as camadas — sem log e pesos à sua escolha — são o que as pessoas querem dizer com "IA sem censura". A ServPrivacy entrega as duas: GPU offshore sem captura de rede de inferência, mais modelos com 1 clique que carregam qualquer modelo do HuggingFace sem que inspecionemos os pesos.

01

Traga qualquer modelo de peso aberto

Llama-3.3, DeepSeek-R1, Qwen3, Mistral-Small-3, Gemma-3, Phi-4, forks abliterados, ajustes finos personalizados — qualquer coisa no HuggingFace ou seus próprios .safetensors. Pré-baixamos no momento do pedido se você fornecer o caminho do repositório.

02

Sem captura de tráfego de inferência

A inferência acontece na sua GPU, no seu guest KVM. Não fazemos proxy, espelhamento ou amostragem do seu tráfego de modelo. Seus prompts e suas gerações ficam locais até você decidir o contrário.

03

Jurisdição offshore

Islândia (refúgio de liberdade de expressão, 100% energia renovável), Países Baixos (melhor interconexão na UE), Romênia (precedente judicial contra retenção de dados), Moldávia (regulação simples, baixo custo). Escolha o marco legal que se encaixa.

04

Endpoint HTTPS público opcional

Ative no momento do pedido e provisionamos Let's Encrypt + proxy reverso na porta 443 — sua instância vLLM / Ollama fica acessível em uma URL pública com TLS em menos de 60 segundos.

O que "IA sem censura" realmente significa em 2026

O termo "IA sem censura" tem três significados diferentes dependendo do contexto. (1) Pesos com recusa removida — ajustes finos abliterados / sem censura de modelos base (ex.: Llama-3.3-70B-abliterated) têm o RLHF de segurança removido via edição de ativação ou ablação direcional. Eles produzem outputs que o modelo Instruct original recusa. (2) Sem moderação de conteúdo na camada de serviço — rodar o mesmo modelo sem um classificador de política no estilo OpenAI na frente da inferência. (3) Sem log de prompt / conclusão — suas entradas e saídas nunca saem da caixa e não são retidas em nenhum upstream. A ServPrivacy entrega (2) e (3) por padrão, e você fornece os pesos do modelo para (1) — não inspecionamos nem filtramos o que roda no seu hardware.

O cenário atual de 2026 dos LLMs auto-hospedáveis

Em maio de 2026, o ecossistema de peso aberto genuinamente compete com GPT-4 / Claude / Gemini hospedados em muitas tarefas. DeepSeek-R1 e sua destilação em Llama-70B correspondem ao GPT-4 em benchmarks de raciocínio a uma fração do custo de inferência. Llama-3.3-70B-Instruct permanece o motor padrão para assistência geral. Qwen3-32B é forte em multilinguismo e capaz de raciocínio. Gemma-3-27B troca capacidade por clareza de licença. Mistral-Small-3 é o ponto ideal de velocidade/qualidade para tarefas de código. Phi-4 supera sua classe de 14B. FLUX.1-dev substituiu o SDXL para geração de imagem. Whisper-Large-v3 ainda é o líder de ASR de peso aberto. Todos eles rodam nos níveis de GPU abaixo — veja o guia de compra de GPU para dimensionamento.

Higiene operacional para um host de IA sem censura

Mesmo em uma caixa de GPU sem KYC sem log de inferência, você pode vazar identidade na carga de trabalho. Higiene prática para auto-hospedeiros sérios: (1) conecte-se à caixa via Tor ou VPN antes do SSH; (2) use uma chave SSH nova não vinculada à sua conta GitHub; (3) se você expuser um endpoint HTTPS público, proteja-o com uma chave de API e limite de taxa por token em vez de por IP; (4) pré-baixe os pesos inline no momento do pedido em vez de buscá-los após a implantação com sua conta do HuggingFace; (5) para prompts sensíveis, rode llama.cpp ou vLLM atrás de um namespace de rede isolado. Documentamos esses padrões no hub de guias.

O que está e o que não está no escopo de "sem censura"

Em escopo: output NSFW ou politicamente sensível que o treinamento RLHF de segurança dos modelos base recusaria, conteúdo fictício envolvendo violência, output que critica indivíduos ou governos específicos nomeados, output de pesquisa de duplo uso (ex.: cibersegurança, biologia, química em nível de livro didático), output em tom de engenharia de prompt adversarial. Fora do escopo pela nossa AUP: CSAM (tolerância zero, independentemente do modelo), instruções para ataques CBRN com vítimas em massa (independentemente do modelo), campanhas de assédio direcionadas contra indivíduos nomeados, e outputs explicitamente proibidos pela lei do país do host. O próprio modelo decide quase tudo; a AUP recorta os casos mais graves.

Perguntas frequentes

Hospedagem de IA sem censura — perguntas frequentes

01 Vocês registram prompts ou outputs do modelo?

Não. A caixa de GPU é o seu guest KVM. Não fazemos proxy do seu tráfego de inferência, não o espelhamos, não o amostamos e não encaminhamos conteúdo de prompt ou conclusão a lugar nenhum. Os únicos logs que mantemos são de nível de rede (contadores de largura de banda) e de nível de hypervisor (uptime, consumo de energia da GPU).

02 Posso rodar Llama-3.3-70B-abliterated ou DeepSeek-R1 aqui?

Sim. Qualquer modelo de peso aberto no HuggingFace que você possa obter legalmente — Llama-3.3-70B-Instruct, forks abliterados, DeepSeek-R1, DeepSeek-R1-Distill-Llama-70B, Qwen3-32B, Gemma-3-27B, Mistral-Small-3, Phi-4 e outros. Pré-baixamos no momento do pedido quando você especifica o repositório HF, ou você pode baixar manualmente após o primeiro SSH.

03 Quais tamanhos cabem em qual nível de GPU?

Dimensionamento aproximado em quantização Q4: RTX 4090 (24 GB) comporta 7B-13B confortavelmente e 27-32B com dificuldade de offload. RTX 5090 (32 GB) comporta 27B-32B confortavelmente e 70B com offload de CPU. H100 SXM5 (80 GB) comporta 70B em Q4-Q5 confortavelmente. H100 dual (160 GB) comporta 70B em FP16, 120-180B em Q4. O guia de compra em /guides/rtx-4090-vs-h100-for-ai-inference tem números detalhados de throughput.

04 Existe alguma política de conteúdo que eu vou encontrar?

Sem política de conteúdo em nível de plataforma sobre o que seu modelo produz. Nossa AUP proíbe apenas o que é ilegal no país do host independentemente de como foi gerado (CSAM, instruções de ataques CBRN com vítimas em massa, assédio direcionado de indivíduos nomeados específicos). Todo o resto, incluindo NSFW, político, pesquisa de duplo uso e output com prompt adversarial, roda.

05 Posso servir meu LLM em uma URL pública?

Sim. Ative "HTTPS Público" no momento do pedido — provisionamos um certificado Let's Encrypt e proxy reverso na porta 443 para sua porta vLLM / Ollama / Open WebUI. Seu modelo fica acessível em `https://.servprivacy.dev` (ou seu próprio domínio se você apontar um registro A) com TLS, sem configuração adicional.

06 Como isso se compara a OpenAI, Anthropic ou proxies de open-router?

OpenAI / Anthropic: hospedado, política de conteúdo completa, log de prompts por 30 dias, jurisdição legal dos EUA. OpenRouter / Together / Fireworks: ainda hospedado, política de conteúdo definida pelo fornecedor, log pelo fornecedor. Auto-hospedado em GPU offshore: sem política em nível de plataforma, sem log por nós, jurisdição do país do host. Troca: você paga pelo tempo de GPU quer use ou não, e opera a stack por conta própria. Para uso de alto volume a matemática pende para o auto-hospedado; para uso esporádico as APIs hospedadas vencem no custo.

Auto-hospede sua própria IA, sem logs, sem política

Llama, DeepSeek, Qwen, Mistral, Gemma — traga qualquer modelo de peso aberto. GPU offshore a partir de $249/mês, CUDA 12 + vLLM com 1 clique pronto.

Começar Agora Encontre a melhor jurisdição