Trang chủ / Hosting AI Không Kiểm Duyệt — Tự Lưu Trữ LLM Của Riêng Bạn
Tự lưu trữ DeepSeek-R1, Llama-3.3, Qwen3 — không ghi nhật ký suy luận, không chính sách nội dung.

Hosting AI Không Kiểm Duyệt — Tự Lưu Trữ LLM Của Riêng Bạn

OpenAI, Anthropic, Google và xAI đều áp dụng chính sách nội dung trên các endpoint được lưu trữ — và ghi lại mọi prompt để phân loại an toàn, cải thiện model và phản hồi yêu cầu của chính phủ. Tự lưu trữ trên hộp GPU của riêng bạn đảo ngược điều đó: bất kỳ model open-weight nào bạn có thể hợp pháp lấy được đều chạy cục bộ, không có lưu lượng suy luận nào đi qua lớp mạng của chúng tôi, không có prompt nào được ghi lại, không có đầu ra nào bị lọc. ServPrivacy cung cấp máy chủ GPU RTX 4090 / RTX 5090 / H100 SXM5 tại 4 vùng pháp lý nước ngoài với template vLLM, Ollama, ComfyUI, Whisper và Bark 1 click.

Không KYC
Chỉ crypto
Không logs
Bỏ qua DMCA
Full root
NVMe SSD
Endpoint được lưu trữ ghi lại mọi thứ. Trọng số cục bộ không ghi lại gì.

Câu hỏi về "AI không kiểm duyệt" thực ra là câu hỏi về chủ quyền

Khi bạn gọi OpenAI API, prompt của bạn vào nhật ký thuộc vùng pháp lý Mỹ được lưu giữ ít nhất 30 ngày (lâu hơn với phân loại an toàn), được xem xét bởi các nhóm an toàn khi bị gắn cờ, và chịu quy trình pháp lý của Mỹ. Model cũng từ chối các danh mục đầu ra mà RLHF an toàn của nó được huấn luyện. Khi bạn chạy Llama-3.3-70B-Instruct (hoặc nhánh abliterated của nó) trên GPU của riêng bạn, prompt của bạn không bao giờ rời khỏi máy, việc từ chối đào tạo là bất cứ điều gì mà trọng số cơ bản cung cấp, và vùng pháp lý là nơi bạn đặt hộp. Cả hai lớp — không ghi nhật ký và trọng số theo lựa chọn của bạn — là điều mọi người hiểu bằng "AI không kiểm duyệt". ServPrivacy cung cấp cả hai: GPU nước ngoài không có ghi lại lưu lượng suy luận, cộng với template 1-click tải bất kỳ model HuggingFace nào mà không cần chúng tôi kiểm tra trọng số.

01

Mang Bất Kỳ Model Open-Weight Nào

Llama-3.3, DeepSeek-R1, Qwen3, Mistral-Small-3, Gemma-3, Phi-4, các nhánh abliterated, fine-tune tùy chỉnh — bất cứ thứ gì trên HuggingFace hoặc các file .safetensors của bạn. Chúng tôi tải trước khi đặt hàng nếu bạn cung cấp đường dẫn repo.

02

Không Ghi Lại Lưu Lượng Suy Luận

Suy luận chạy trên GPU của bạn, bên trong KVM guest của bạn. Chúng tôi không proxy, phản chiếu hay lấy mẫu lưu lượng model của bạn. Prompt và kết quả của bạn ở lại cục bộ cho đến khi bạn quyết định khác.

03

Vùng Pháp Lý Nước Ngoài

Iceland (thiên đường tự do ngôn luận, 100% năng lượng tái tạo), Netherlands (peering EU tốt nhất), Romania (tiền lệ tư pháp chống lưu giữ), Moldova (quy định nhẹ, chi phí thấp). Chọn khung pháp lý phù hợp.

04

Endpoint HTTPS Công Khai — Tùy Chọn

Bật khi đặt hàng và chúng tôi cung cấp Let's Encrypt + reverse proxy trên cổng 443 — instance vLLM / Ollama của bạn có thể truy cập trên URL công khai với TLS trong vòng 60 giây.

"AI không kiểm duyệt" thực sự có nghĩa gì vào năm 2026

Thuật ngữ "AI không kiểm duyệt" mang ba nghĩa khác nhau tùy theo ngữ cảnh. (1) Trọng số đã xóa từ chối — fine-tune abliterated / không kiểm duyệt của các model nền (ví dụ: Llama-3.3-70B-abliterated) đã loại bỏ RLHF an toàn thông qua chỉnh sửa kích hoạt hoặc ablation định hướng. Chúng sẽ tạo ra đầu ra mà model instruct gốc từ chối. (2) Không có kiểm duyệt nội dung trong lớp phục vụ — chạy cùng một model mà không có bộ phân loại chính sách kiểu OpenAI phía trước suy luận. (3) Không ghi nhật ký prompt/completion — đầu vào và đầu ra của bạn không bao giờ rời khỏi hộp và không được lưu giữ ở bất kỳ đâu phía trên. ServPrivacy cung cấp (2) và (3) theo mặc định, và bạn cung cấp trọng số model cho (1) — chúng tôi không kiểm tra hay lọc những gì chạy trên phần cứng của bạn.

Bối cảnh năm 2026 hiện tại của các LLM có thể tự lưu trữ

Tính đến tháng 5 năm 2026, hệ sinh thái open-weight thực sự cạnh tranh với GPT-4 / Claude / Gemini được lưu trữ trên nhiều tác vụ. DeepSeek-R1 và chưng cất của nó vào Llama-70B sánh ngang GPT-4 trên các benchmark lý luận với một phần nhỏ chi phí suy luận. Llama-3.3-70B-Instruct vẫn là công cụ mặc định cho hỗ trợ tổng quát. Qwen3-32B mạnh về đa ngôn ngữ và có khả năng lý luận. Gemma-3-27B đánh đổi khả năng để lấy sự rõ ràng về giấy phép. Mistral-Small-3 là điểm cân bằng tốc độ/chất lượng cho các tác vụ code. Phi-4 vượt trội hơn so với trọng lượng 14B của nó. FLUX.1-dev đã thay thế SDXL cho tạo ảnh. Whisper-Large-v3 vẫn là dẫn đầu ASR open-weight. Tất cả đều chạy trên các phân khúc GPU bên dưới — xem hướng dẫn mua GPU để định cỡ.

Vệ sinh vận hành cho máy chủ AI không kiểm duyệt

Ngay cả trên hộp GPU không KYC với không ghi nhật ký suy luận, bạn vẫn có thể rò rỉ danh tính vào workload. Vệ sinh thực tế cho người tự lưu trữ nghiêm túc: (1) kết nối với hộp qua Tor hoặc VPN trước SSH; (2) sử dụng khóa SSH mới không liên kết với tài khoản GitHub của bạn; (3) nếu bạn mở endpoint HTTPS công khai, bảo vệ nó bằng khóa API và giới hạn tốc độ theo token thay vì theo IP; (4) tải trước trọng số ngay khi đặt hàng thay vì lấy chúng sau khi triển khai bằng tài khoản HuggingFace của bạn; (5) cho các prompt nhạy cảm, chạy llama.cpp hoặc vLLM đằng sau network namespace cô lập. Chúng tôi ghi lại các mẫu này trong hub hướng dẫn.

Những gì nằm trong và ngoài phạm vi của "không kiểm duyệt"

Trong phạm vi: đầu ra NSFW hoặc nhạy cảm về chính trị mà RLHF an toàn của model nền sẽ từ chối, nội dung hư cấu liên quan đến bạo lực, đầu ra chỉ trích các cá nhân hoặc chính phủ được nêu tên, đầu ra nghiên cứu lưỡng dụng (ví dụ: an ninh mạng, sinh học, hóa học ở cấp độ sách giáo khoa), đầu ra ở giọng điệu prompt-engineering đối kháng. Ngoài AUP của chúng tôi: CSAM (không khoan nhượng, bất kể model nào), hướng dẫn tấn công CBRN gây thương vong hàng loạt (bất kể model nào), chiến dịch quấy rối có mục tiêu nhắm vào các cá nhân được nêu tên, và đầu ra bị cấm rõ ràng bởi luật của quốc gia lưu trữ. Bản thân model quyết định hầu hết mọi thứ; AUP chỉ loại trừ các trường hợp ngoại lệ khó nhất.

FAQ

Hosting AI Không Kiểm Duyệt — câu hỏi thường gặp

01 Bạn có ghi nhật ký prompt hay đầu ra model không?

Không. Hộp GPU là KVM guest của bạn. Chúng tôi không proxy lưu lượng suy luận, không phản chiếu, không lấy mẫu, và không chuyển tiếp nội dung prompt hay completion bất kỳ đâu. Các nhật ký duy nhất chúng tôi giữ là ở cấp mạng (bộ đếm băng thông) và cấp hypervisor (uptime, mức tiêu thụ điện GPU).

02 Tôi có thể chạy Llama-3.3-70B-abliterated hay DeepSeek-R1 ở đây không?

Có. Bất kỳ model open-weight nào trên HuggingFace mà bạn có thể hợp pháp lấy — Llama-3.3-70B-Instruct, các nhánh abliterated, DeepSeek-R1, DeepSeek-R1-Distill-Llama-70B, Qwen3-32B, Gemma-3-27B, Mistral-Small-3, Phi-4 và những model khác. Chúng tôi tải trước khi đặt hàng khi bạn chỉ định repo HF, hoặc bạn có thể kéo thủ công sau lần đăng nhập SSH đầu tiên.

03 Kích thước model nào phù hợp với phân khúc GPU nào?

Định cỡ sơ bộ ở lượng tử hóa Q4: RTX 4090 (24 GB) phù hợp 7B–13B thoải mái và 27–32B với offload đau đớn. RTX 5090 (32 GB) phù hợp 27B–32B thoải mái và 70B với CPU offload. H100 SXM5 (80 GB) phù hợp 70B ở Q4–Q5 thoải mái. Dual H100 (160 GB) phù hợp 70B ở FP16, 120–180B ở Q4. Hướng dẫn mua tại /guides/rtx-4090-vs-h100-for-ai-inference có số liệu throughput chi tiết.

04 Có chính sách nội dung nào tôi sẽ gặp phải không?

Không có chính sách nội dung từ phía nền tảng về những gì model của bạn tạo ra. AUP của chúng tôi chỉ cấm những gì bất hợp pháp ở quốc gia lưu trữ bất kể cách tạo ra (CSAM, hướng dẫn tấn công CBRN gây thương vong hàng loạt, quấy rối có mục tiêu nhắm vào các cá nhân được nêu tên). Mọi thứ khác — bao gồm NSFW, chính trị, nghiên cứu lưỡng dụng và đầu ra được prompt đối kháng — đều chạy được.

05 Tôi có thể phục vụ LLM của mình trên URL công khai không?

Có. Bật "Public HTTPS" khi đặt hàng — chúng tôi cung cấp chứng chỉ Let's Encrypt và reverse proxy trên cổng 443 đến cổng vLLM / Ollama / Open WebUI của bạn. Model của bạn có thể truy cập tại `https://.servprivacy.dev` (hoặc tên miền của riêng bạn nếu bạn trỏ bản ghi A) với TLS, không cần cài đặt thêm.

06 So sánh với OpenAI, Anthropic hay proxy OpenRouter như thế nào?

OpenAI / Anthropic: được lưu trữ, chính sách nội dung đầy đủ, ghi nhật ký prompt 30 ngày, vùng pháp lý Mỹ. OpenRouter / Together / Fireworks: vẫn được lưu trữ, chính sách nội dung do nhà cung cấp định nghĩa, ghi nhật ký của nhà cung cấp. Tự lưu trữ trên GPU nước ngoài: không có chính sách từ phía nền tảng, chúng tôi không ghi nhật ký, vùng pháp lý của quốc gia lưu trữ. Đánh đổi: bạn trả tiền cho thời gian GPU dù sử dụng hay không, và bạn tự vận hành stack. Ở khối lượng cao, toán học có lợi cho tự lưu trữ; ở mức sử dụng thưa thớt, API được lưu trữ thắng về giá.

Tự lưu trữ AI của bạn — không log, không chính sách

Llama, DeepSeek, Qwen, Mistral, Gemma — mang bất kỳ model open-weight nào. GPU nước ngoài từ $122,00/tháng, CUDA 12 + vLLM 1-click sẵn sàng.

Bắt đầu Tìm Vùng Pháp Lý Tốt Nhất