Tại sao nên tự host LLM
Khi bạn gọi một API AI có sẵn, mọi prompt bạn gửi đều được xử lý trên phần cứng của người khác. Nhà cung cấp thấy toàn bộ nội dung input và output của bạn, thường lưu giữ chúng trong một khoảng thời gian, và áp dụng chính sách nội dung riêng về những gì mô hình sẽ và sẽ không nói. Với bất kỳ thứ gì nhạy cảm — code độc quyền, tài liệu mật, dữ liệu cá nhân, hay đơn giản là công việc bạn không muốn lưu vào tay bên thứ ba — đó là một mức độ phơi lộ đáng kể.
Tự host LLM loại bỏ người trung gian. Bạn thuê GPU server, tải mô hình open-weight lên đó, và tự chạy inference. Các prompt không bao giờ rời khỏi cơ sở hạ tầng bạn kiểm soát, không có gì được lưu giữ trừ khi bạn chọn lưu, và mô hình là mô hình bạn chọn — kể cả các mô hình mở không có giới hạn nội dung tích hợp. Kết hợp với GPU server offshore không KYC, tự host cho bạn một endpoint AI riêng tư mà không công ty nào ghi log, giới hạn tốc độ theo chính sách, hay có thể bị ép buộc phải giao nộp. Hướng dẫn này bao gồm việc chọn phần cứng và mô hình, đưa mô hình vào hoạt động, và chi phí là bao nhiêu.

Chọn GPU phù hợp với mô hình
Con số duy nhất quyết định tất cả là VRAM — bộ nhớ của GPU. Một mô hình phải vừa với VRAM để chạy tốt, và lượng VRAM cần thiết phụ thuộc vào số lượng tham số và độ chính xác khi tải. Ước tính đơn giản: mô hình quantised 4-bit cần hơn nửa gigabyte VRAM mỗi tỷ tham số; tải ở độ chính xác đầy đủ 16-bit cần gấp đôi, cộng thêm dung lượng cho cửa sổ ngữ cảnh.
Trên thực tế, điều này ánh xạ rõ ràng lên các card hiện có:
- RTX 4090 / RTX 5090 (24-32 GB VRAM) — chạy thoải mái các mô hình lên đến khoảng 30B tham số khi quantised, và các mô hình nhỏ hơn ở độ chính xác đầy đủ. Điểm ngọt ngào cho hầu hết người tự host: nhanh, giá hợp lý, và đủ cho các mô hình mở tầm trung tốt nhất.
- H100 SXM5 (80 GB VRAM) — chạy mô hình 70B class khi quantised còn dư, xử lý cửa sổ ngữ cảnh lớn, và phục vụ nhiều yêu cầu đồng thời với thông lượng cao. Lựa chọn cho các mô hình mở lớn nhất hoặc tải cấp production.
- Multi-GPU (2x H100, 160 GB) — cho các mô hình open-weight lớn nhất và phục vụ đồng thời nặng.
Bắt đầu từ mô hình bạn muốn chạy, tính toán nhu cầu VRAM, và chọn card nhỏ nhất vừa đủ với dung lượng dự phòng. Trả tiền cho VRAM nhiều hơn mô hình sử dụng là lãng phí ngân sách.
Chọn mô hình của bạn
Hệ sinh thái open-weight năm 2026 đã đủ mạnh để, với hầu hết các tác vụ, một mô hình tự host thực sự cạnh tranh được với API có sẵn. Các họ mô hình chính đáng chú ý:
- Mô hình họ Llama — mô hình đa năng được hỗ trợ tốt trên nhiều kích cỡ; lựa chọn an toàn mặc định cho hầu hết các workload.
- DeepSeek — hiệu năng suy luận và lập trình mạnh, với các kích cỡ chạy tốt trên một card VRAM cao.
- Qwen và Mistral — khả năng xuất sắc trên mỗi tham số, với các biến thể nhỏ hơn chạy thoải mái trên card 24-32 GB.
- Các biến thể uncensored hoặc abliterated — fine-tune cộng đồng từ các mô hình trên với hành vi từ chối đã bị loại bỏ, cho người dùng muốn mô hình không áp dụng chính sách nội dung của nhà cung cấp có sẵn.
Chọn mô hình nhỏ nhất thực sự đáp ứng tốt tác vụ của bạn. Một mô hình 14B-30B được chọn tốt trên một card 4090 hoặc 5090 đơn là đủ cho đại đa số người dùng thực tế — hỗ trợ lập trình, soạn thảo, tóm tắt, phân tích — và rẻ hơn nhiều so với việc chọn mô hình 70B chỉ vì thói quen.
Bước 1 — Cấu hình GPU server
Trên ServPrivacy, chọn gói GPU với card bạn đã quyết định và khu vực tư pháp bạn muốn, rồi thanh toán bằng crypto. Server được cấu hình tự động — CUDA và driver NVIDIA được cài sẵn, vì vậy máy đã sẵn sàng cho công việc inference ngay khi khởi động; không cần vật lộn với việc cài driver.
Kết nối qua SSH. Một lệnh nvidia-smi nhanh xác nhận GPU đang hiển thị và cho thấy VRAM trống của nó. Từ đây bạn chỉ còn vài lệnh nữa là có mô hình đang chạy.
Bước 2 — Đưa mô hình vào phục vụ
Có hai con đường đã được kiểm chứng, tùy thuộc vào việc bạn muốn đơn giản hay thông lượng tối đa.
Con đường nhanh: Ollama. Để có mô hình trả lời prompt trong vài phút, Ollama là lựa chọn đơn giản nhất. Cài bằng trình cài một dòng của nó, sau đó kéo và chạy mô hình bằng một lệnh duy nhất — ví dụ ollama run llama3.1. Ollama xử lý việc tải xuống, quantisation và GPU offload, và mở một API cục bộ. Cho sử dụng cá nhân và phát triển, đây là tất cả những gì hầu hết mọi người cần.
Con đường thông lượng: vLLM. Nếu bạn cần phục vụ nhiều yêu cầu đồng thời hiệu quả — backend ứng dụng thay vì trợ lý cá nhân — vLLM là lựa chọn tiêu chuẩn. Đây là inference server hiệu năng cao trích xuất nhiều token hơn nhiều mỗi giây từ cùng một GPU, và nó mở một API tương thích OpenAI, vì vậy code hiện có viết cho API có sẵn có thể trỏ đến server của riêng bạn chỉ với một thay đổi URL.
Dù theo cách nào, trong vài phút sau khi server khởi động bạn đã có mô hình nhận prompt.
Bước 3 — Sử dụng riêng tư và bảo mật endpoint
Mặc định, inference server lắng nghe cục bộ. Bạn có hai cách hợp lý để truy cập, và một quy tắc.
Quy tắc: không để lộ API inference thô ra internet mở. Mặc định nó không có xác thực, và endpoint mở sẽ bị phát hiện và bị lạm dụng. Thay vào đó, hoặc là tạo tunnel đến nó qua SSH — để API vẫn gắn với localhost và bạn truy cập qua kết nối SSH mã hóa — hoặc đặt nó sau một reverse proxy bắt buộc xác thực và TLS. Cho trợ lý cá nhân, SSH tunnel là lựa chọn đơn giản và riêng tư nhất; cho ứng dụng, proxy có xác thực.
Làm theo cách đó, các prompt chỉ di chuyển giữa bạn và server của riêng bạn. Không có bên thứ ba nào ghi log, không có gì được lưu giữ ngoài những gì bạn cấu hình, và mô hình trả lời mà không có chính sách nội dung bên ngoài nào trong đường dẫn. Theo nghĩa đen, đó là AI của bạn.
Chi phí là bao nhiêu
Kinh tế của tự host hoàn toàn phụ thuộc vào mô hình sử dụng. API có sẵn tính phí theo token, rất tốt cho sử dụng nhẹ, không thường xuyên và đắt cho sử dụng nặng, liên tục. GPU server thuê là chi phí cố định hàng tháng bất kể bạn đẩy qua bao nhiêu token.
Điểm hòa vốn đến nhanh chóng cho bất kỳ ai chạy workload thực. Một server RTX 4090 đơn chạy từ khoảng $122/mo trên ServPrivacy; nếu chi tiêu hàng tháng của bạn cho API có sẵn đã ở mức đó — và với trợ lý lập trình, xử lý hàng loạt hay bất kỳ backend ứng dụng nào thường là vậy — GPU chuyên dụng vừa rẻ hơn vừa không giới hạn. Bạn cũng nhận được thứ mà hóa đơn theo token không thể cho: không giới hạn tốc độ, không từ chối theo chính sách, chi phí dự đoán được và quyền riêng tư hoàn toàn. Cho các câu hỏi đơn lẻ không thường xuyên, API ổn; cho bất kỳ thứ gì thường xuyên, tự host thắng về cả chi phí lẫn kiểm soát.
Khi nào tự host là lựa chọn đúng
Tự host LLM là lựa chọn đúng khi bất kỳ điều nào trong ba điều quan trọng với bạn: quyền riêng tư — các prompt chứa bất cứ thứ gì bạn không muốn đặt trên server của bên thứ ba; kiểm soát — bạn muốn một mô hình cụ thể, kể cả các mô hình mở không có giới hạn khi host; hoặc kinh tế — sử dụng của bạn đủ nặng để chi phí GPU cố định vượt trội hơn hóa đơn theo token.
Nếu bạn chỉ hỏi mô hình câu hỏi thi thoảng, API có sẵn đơn giản và rẻ hơn. Nhưng cho sử dụng liên tục, tài liệu nhạy cảm, hay nhu cầu về mô hình trả lời theo điều khoản của bạn, GPU server chạy mô hình của riêng bạn là cách thiết lập tốt hơn — và trên host GPU offshore không KYC, đó là endpoint AI riêng tư không thuộc về ai ngoài bạn.