为什么要自托管 LLM
当你调用托管的 AI API 时,你发送的每一条提示词都在他人的硬件上处理。服务提供商能看到你输入与输出的全部内容,通常会保留一段时间,并对模型的回答内容施加自己的内容政策。对于任何敏感场景——专有代码、机密文件、个人数据,或者你不希望交由第三方存档的工作——这都是不可忽视的隐私风险。
自托管 LLM 可以彻底消除中间商。你租用一台 GPU 服务器,将开放权重模型加载到其上,自行运行推理。提示词永远不会离开你掌控的基础设施,除非你主动选择保留,否则什么都不会被留存,而且运行的是你亲自挑选的模型——包括没有内置拒绝机制的开放模型。结合无 KYC 的离岸 GPU 服务器,自托管为你提供了一个私密的 AI 端点,没有任何公司对其记录日志、按策略限速,也没有人能被强制要求交出数据。本指南涵盖硬件与模型的选择、模型的启动部署,以及实际成本。

根据模型匹配 GPU
决定一切的核心指标只有一个:VRAM——即 GPU 的显存。模型必须能装入 VRAM 才能流畅运行,所需显存量取决于模型的参数规模和加载精度。粗略估算:以 4-bit 量化加载的模型,每十亿参数需要略超过半吉字节的 VRAM;以完整 16-bit 精度加载则大约需要双倍,加上上下文窗口的额外开销。
在实践中,这与现有显卡的对应关系相当清晰:
- RTX 4090 / RTX 5090(24–32 GB VRAM) — 可轻松运行量化后约 30B 参数以内的模型,以及更小模型的全精度推理。对大多数自托管用户而言性价比最佳:速度快、价格合理,足以驾驭最优秀的中等规模开放模型。
- H100 SXM5(80 GB VRAM) — 可量化运行 70B 级别模型且游刃有余,支持大上下文窗口,并能以高吞吐量处理大量并发请求。适合最大规模的开放模型或生产级负载。
- 多卡配置(2x H100,160 GB) — 适用于最大规模的开放权重模型及高并发推理场景。
从你想运行的模型出发,计算其 VRAM 需求,然后选择能容纳该模型且留有余量的最小显卡。为超出模型需求的显存额外付费只是在浪费预算。
选择你的模型
2026 年的开放权重生态已足够成熟,对大多数任务而言,自托管模型的能力完全可以与托管 API 一较高下。以下是值得关注的主要模型系列:
- Llama 系列模型 — 涵盖多种规格、支持广泛的通用模型,是大多数工作负载的稳妥之选。
- DeepSeek — 推理与编程能力突出,有适合单张高 VRAM 显卡运行的规格。
- Qwen 与 Mistral — 单位参数能力优异,较小的变体可在 24–32 GB 显卡上流畅运行。
- 无审查或消融版变体 — 上述模型的社区微调版,移除了拒绝行为,适合不希望受托管服务内容政策约束的用户。
选择能切实完成你的任务的最小模型。在单张 4090 或 5090 上运行一个精心选择的 14B–30B 模型,已足以应对绝大多数实际需求——代码辅助、文案起草、内容摘要、数据分析——其运行成本也远低于随手选用 70B 模型的方案。
第一步 — 配置 GPU 服务器
在 ServPrivacy 上,选择配备你所需显卡和目标司法管辖区的 GPU 套餐,并以加密货币付款。服务器将自动完成配置——CUDA 与 NVIDIA 驱动程序均已预装,服务器一启动即可投入推理工作,无需自行安装驱动。
通过 SSH 连接服务器。执行 nvidia-smi 可快速确认 GPU 是否可见,并查看其可用 VRAM。从这里开始,只需几条命令即可让模型跑起来。
第二步 — 启动模型服务
有两条成熟的路径可供选择,取决于你优先追求简便性还是最大吞吐量。
快速路径:Ollama。如果你想在几分钟内让模型开始响应提示词,Ollama 是最简单的选择。使用其一行安装命令完成安装,然后用单条命令拉取并运行模型——例如 ollama run llama3.1。Ollama 负责处理下载、量化和 GPU 卸载,并提供本地 API。对于个人使用和开发场景,这已满足大多数人的需求。
高吞吐路径:vLLM。如果你需要高效处理大量并发请求——作为应用后端而非个人助手——vLLM 是标准选择。它是一款高性能推理服务器,能从相同的 GPU 中榨取远超普通方式的每秒 token 数,并提供与 OpenAI 兼容的 API,因此为托管 API 编写的现有代码只需修改 URL 即可指向你自己的服务器。
无论选择哪条路径,服务器启动后几分钟内,你就拥有了一个接受提示词的模型。
第三步 — 私密使用并保护端点安全
默认情况下,推理服务器仅在本地监听。你有两种合理的访问方式,以及一条必须遵守的规则。
这条规则是:不要将原始推理 API 直接暴露在公网上。开箱即用的状态下没有任何认证机制,开放的端点迟早会被发现并遭到滥用。正确的做法是:通过 SSH 隧道访问——让 API 绑定在本地,通过加密 SSH 连接访问——或者在其前面放置一个强制认证与 TLS 的反向代理。对于个人助手场景,SSH 隧道是最简单、最私密的选择;对于应用场景,则选择带认证的代理。
按此配置后,提示词仅在你与你自己的服务器之间传输。没有第三方记录日志,除非你主动配置,否则不会留存任何内容,模型的回答也不受任何外部内容政策的干预。这在字面意义上,就是属于你自己的 AI。
费用成本
自托管的经济账完全取决于使用模式。托管 API 按 token 计费,对轻量、偶发性使用极为友好,但对重度、持续性使用则代价高昂。租用 GPU 服务器是固定的月费,无论你推送多少 token,费用不变。
对于任何承载实际工作负载的用户而言,盈亏平衡点来得很快。ServPrivacy 上的单张 RTX 4090 服务器起价约为每月 $122;如果你在托管 API 上的月均支出已达到这一水平——对于代码助手、批处理任务或任何应用后端来说,往往如此——那么一台专用 GPU 不仅更便宜,还不限量。你还将获得按 token 计费所无法给你的东西:无限速限制、无内容政策拒绝、可预测的成本,以及完整的隐私保障。对于偶尔的一次性提问,API 固然方便;但对于任何常规使用,自托管在成本与控制权两方面都更胜一筹。
何时选择自托管
当以下三个条件中的任意一个对你重要时,自托管 LLM 就是正确选择:隐私——提示词中包含你不愿存放于第三方服务器的内容;控制权——你需要特定模型,包括无托管拒绝机制的开放模型;或者经济性——你的使用量足够大,以至于固定的 GPU 费用优于按 token 计费。
如果你只是偶尔向模型提问,托管 API 更简单也更经济。但对于持续使用、涉及敏感内容,或需要一个按你的规则回答的模型的场景,运行自有模型的 GPU 服务器是更优方案——在无 KYC 的离岸 GPU 主机上,这是一个只属于你的私密 AI 端点。