无审查AI主机——自托管您自己的LLM
OpenAI、Anthropic、Google和xAI都在其托管端点上执行内容政策——并记录每一个提示用于安全分类、模型改进和响应政府请求。在您自己的GPU服务器上进行自托管则完全相反:任何您能合法获取的开放权重模型都在本地运行,没有推理流量穿越我们的网络平面,没有提示被记录,没有回复被过滤。ServPrivacy在4个离岸司法管辖区提供RTX 4090 / RTX 5090 / H100 SXM5 GPU服务器,配备一键vLLM、Ollama、ComfyUI、Whisper和Bark模板。
"无审查"在这里的真正含义
- 无推理日志——您的提示不被捕获
- 无内容政策——您带来的模型权重原样运行
- 开放权重模型在下单时预下载
- 默认与第三方AI API隔离
- CUDA 12 + vLLM / Ollama / ComfyUI一键就绪
"无审查"问题实质上是主权问题
当您调用OpenAI API时,您的提示进入美国司法管辖区的日志,至少保留30天(安全分类保留更长),被标记时由安全团队审查,并可依美国法律程序提交。模型还会拒绝安全RLHF训练所针对的某些输出类别。当您在自己的GPU上运行Llama-3.3-70B-Instruct(或其abliterated衍生版本)时,您的提示永远不会离开您的机器,拒绝训练取决于底层权重给您的,法律司法管辖区在于您托管服务器的地方。这两个层面——无日志和您选择的权重——就是人们所说的"无审查AI"。ServPrivacy提供两者:无推理网络捕获的离岸GPU,加上无需我们检查权重即可加载任何HuggingFace模型的一键模板。
携带任何开放权重模型
Llama-3.3、DeepSeek-R1、Qwen3、Mistral-Small-3、Gemma-3、Phi-4、abliterated分支、自定义微调版本——任何在HuggingFace或您自己的.safetensors上的模型。如果您提供仓库路径,我们在下单时预下载。
无推理流量捕获
推理在您的GPU、您的KVM虚拟机上进行。我们不代理、不镜像或抽样您的模型流量。您的提示和您的生成结果保持本地,直到您选择其他方式。
离岸司法管辖区
冰岛(言论自由避风港,100%可再生电力)、荷兰(最佳欧盟对等互联)、罗马尼亚(反数据保留法院先例)、摩尔多瓦(监管宽松,成本低廉)。选择适合的法律框架。
可选公共HTTPS端点
在下单时启用,我们将在443端口预配Let's Encrypt + 反向代理——您的vLLM / Ollama实例可在60秒内通过公共URL + TLS访问。
"无审查AI"在2026年的真正含义
"无审查AI"一词根据上下文有三种不同含义。(1) 移除拒绝的权重——基础模型的abliterated/未审查微调版本(例如Llama-3.3-70B-abliterated)通过激活编辑或定向消融撤销了安全RLHF。它们会产生原始Instruct模型拒绝的输出。(2) 服务层中无内容审核——在推理前没有OpenAI式策略分类器的情况下运行相同模型。(3) 无提示/完成日志——您的输入和输出永远不会离开服务器,也不会在上游任何地方保留。ServPrivacy默认提供(2)和(3),而您提供(1)的模型权重——我们不检查或过滤在您硬件上运行的内容。
2026年可自托管LLM的当前格局
截至2026年5月,开放权重生态系统在许多任务上真正与托管GPT-4 / Claude / Gemini竞争。DeepSeek-R1及其对Llama-70B的蒸馏版在推理基准测试中以极低的推理成本匹敌GPT-4。Llama-3.3-70B-Instruct仍是通用辅助的默认主力。Qwen3-32B多语言能力强,具备推理能力。Gemma-3-27B以许可清晰度换取能力。Mistral-Small-3是代码任务的速度/质量最佳平衡点。Phi-4在14B参数级别表现超群。FLUX.1-dev已取代SDXL用于图像生成。Whisper-Large-v3仍是开放权重ASR领导者。所有这些都能在以下GPU级别上运行——有关规格调整,请参阅GPU购买指南。
无审查AI主机的操作卫生
即使在无KYC GPU服务器上且无推理日志,您也可能将身份泄露到工作负载中。严肃自托管用户的实用卫生习惯:(1) 在SSH之前通过Tor或VPN连接到服务器;(2) 使用未与您的GitHub账户关联的全新SSH密钥;(3) 如果您暴露公共HTTPS端点,使用API密钥保护它,并按令牌而非IP进行速率限制;(4) 在下单时内联预下载权重,而非在部署后使用您的HuggingFace账户获取;(5) 对于敏感提示,在隔离网络命名空间后运行llama.cpp或vLLM。我们在指南中心记录了这些模式。
"无审查"范围内的内容
在范围内:安全RLHF训练基础模型会拒绝的NSFW或政治敏感输出、涉及暴力的虚构内容、批评特定具名个人或政府的输出、双重用途研究输出(例如教科书级别的网络安全、生物、化学),以及对抗性提示工程语气的输出。根据我们的AUP超出范围:CSAM(零容忍,无论何种模型)、大规模伤亡CBRN攻击指令(无论何种模型)、针对具名个人的定向骚扰活动,以及在主机所在国法律明确禁止的输出。模型本身决定几乎所有内容;AUP划定了最硬性的情况。
4个离岸司法管辖区提供无审查AI主机
由于NVIDIA H100 / RTX 4090+出口制裁,俄罗斯不在GPU产品线中。
冰岛
言论自由港严格的隐私法律,可再生能源,欧盟以外。
巴拿马
无数据留存无数据留存法律,与大多数西方国家无司法互助协定。
摩尔多瓦
经济型离岸监管宽松,价格低廉,国际合作极少。
罗马尼亚
反数据留存法院裁定数据留存法违宪。与欧盟连接优良。
瑞士
高端隐私保护严格的隐私法律,政治中立,顶级基础设施。
荷兰
最佳对等互联优质网络连接,宽容的托管政策,AMS-IX对等互联。
俄罗斯
西方司法豁免不受西方司法管辖。受俄罗斯法律约束。
无审查AI主机——常见问题
01 您会记录提示或模型输出吗?
不会。GPU服务器是您的KVM虚拟机。我们不代理您的推理流量,不镜像它,不抽样它,也不将提示或完成内容转发到任何地方。我们保留的唯一日志是网络级别(带宽计数器)和虚拟机管理程序级别(正常运行时间、GPU功耗)。
02 我可以在这里运行Llama-3.3-70B-abliterated或DeepSeek-R1吗?
可以。您能合法获取的HuggingFace上的任何开放权重模型——Llama-3.3-70B-Instruct、abliterated分支、DeepSeek-R1、DeepSeek-R1-Distill-Llama-70B、Qwen3-32B、Gemma-3-27B、Mistral-Small-3、Phi-4等。我们在您指定HF仓库时下单时预下载,或者您可以在首次SSH后手动拉取。
03 哪些规格适合哪个GPU级别?
Q4量化的大致规格:RTX 4090(24 GB)舒适运行7B-13B,27-32B需要卸载会有痛苦。RTX 5090(32 GB)舒适运行27B-32B,70B需要CPU卸载(较慢)。H100 SXM5(80 GB)在Q4-Q5舒适运行70B。双H100(160 GB)以FP16运行70B,以Q4运行100-180B。/guides/rtx-4090-vs-h100-for-ai-inference的购买指南有详细的吞吐量数字。
04 是否有我会触及的内容政策?
平台层面对您的模型产出没有内容政策。我们的AUP仅禁止在主机所在国违法的内容,无论其生成方式(CSAM、大规模伤亡CBRN攻击指令、针对特定具名个人的定向骚扰)。其他所有内容,包括NSFW、政治、双重用途研究和对抗性提示输出,均可运行。
05 我可以在公共URL上提供我的LLM服务吗?
可以。在下单时启用"Public HTTPS"——我们在443端口为您的vLLM / Ollama / Open WebUI端口预配Let's Encrypt证书和反向代理。您的模型可通过`https://
06 这与OpenAI、Anthropic或open-router代理相比如何?
OpenAI / Anthropic:托管,完整内容政策,30天提示日志,美国法律司法管辖。OpenRouter / Together / Fireworks:仍然托管,供应商定义的内容政策,供应商日志。在离岸GPU上自托管:无平台级政策,我们不记录日志,主机所在国司法管辖。权衡:无论是否使用,您都为GPU时间付费,并且您自己操作技术栈。对于大量使用,自托管的经济效益更优;对于零散使用,托管API在成本上占优。