Trang chủ / GPU AI Hosting
RTX 4090 · RTX 5090 · H100 SXM5 · CUDA 12

GPU AI Hosting Offshore Ẩn Danh, Không KYC

Máy chủ GPU NVIDIA RTX 4090, RTX 5090 và H100 SXM5 cho huấn luyện AI, inference, tạo ảnh và video. CUDA 12 và cuDNN được cài sẵn, cộng với các preset image PyTorch / ComfyUI / Ollama sẵn sàng ssh vào. Máy chủ Threadripper Pro trên tầng H100 để có số lane PCIe Gen 5 đầy đủ. Có tại 4 vùng tài phán offshore, không KYC, thanh toán chỉ bằng crypto với 20 coin bao gồm Monero.

Không KYC
Chỉ crypto
CUDA 12
IP sạch
Full root
Monero accepted
Tất cả gói GPU

Các gói GPU theo vị trí

Cùng phần cứng NVIDIA trên mọi vùng tài phán với băng thông không giới hạn trên mọi gói. Giá thay đổi theo vùng tài phán — Iceland là tùy chọn carbon thấp nhất, Moldova rẻ nhất.

Iceland Thiên đường tự do ngôn luận

GóiGPUVRAMCPURAMNVMeBăng thôngGiá
IS-S 1× NVIDIA RTX 4090 24 GB GDDR6X 12 vCPU 64 GB DDR5 1 TB NVMe Không giới hạn $146.50/mo Đặt hàng
IS-M Phổ biến 1× NVIDIA RTX 5090 32 GB GDDR7 16 vCPU 96 GB DDR5 1.5 TB NVMe Không giới hạn $234.50/mo Đặt hàng
IS-L 1× NVIDIA H100 SXM5 80 GB HBM3 24 vCPU 192 GB DDR5 2 TB NVMe Không giới hạn $906.00/mo Đặt hàng
IS-XL 2× NVIDIA H100 SXM5 160 GB HBM3 32 vCPU 384 GB DDR5 4 TB NVMe Không giới hạn $1714.50/mo Đặt hàng

Moldova Offshore giá rẻ

GóiGPUVRAMCPURAMNVMeBăng thôngGiá
MD-S 1× NVIDIA RTX 4090 24 GB GDDR6X 12 vCPU 64 GB DDR5 1 TB NVMe Không giới hạn $122.00/mo Đặt hàng
MD-M Phổ biến 1× NVIDIA RTX 5090 32 GB GDDR7 16 vCPU 96 GB DDR5 1.5 TB NVMe Không giới hạn $195.50/mo Đặt hàng
MD-L 1× NVIDIA H100 SXM5 80 GB HBM3 24 vCPU 192 GB DDR5 2 TB NVMe Không giới hạn $832.50/mo Đặt hàng
MD-XL 2× NVIDIA H100 SXM5 160 GB HBM3 32 vCPU 384 GB DDR5 4 TB NVMe Không giới hạn $1567.50/mo Đặt hàng

Romania Chống lưu giữ dữ liệu

GóiGPUVRAMCPURAMNVMeBăng thôngGiá
RO-S 1× NVIDIA RTX 4090 24 GB GDDR6X 12 vCPU 64 GB DDR5 1 TB NVMe Không giới hạn $132.00/mo Đặt hàng
RO-M Phổ biến 1× NVIDIA RTX 5090 32 GB GDDR7 16 vCPU 96 GB DDR5 1.5 TB NVMe Không giới hạn $210.00/mo Đặt hàng
RO-L 1× NVIDIA H100 SXM5 80 GB HBM3 24 vCPU 192 GB DDR5 2 TB NVMe Không giới hạn $857.00/mo Đặt hàng
RO-XL 2× NVIDIA H100 SXM5 160 GB HBM3 32 vCPU 384 GB DDR5 4 TB NVMe Không giới hạn $1616.50/mo Đặt hàng

Netherlands Kết nối tốt nhất

GóiGPUVRAMCPURAMNVMeBăng thôngGiá
NL-S 1× NVIDIA RTX 4090 24 GB GDDR6X 12 vCPU 64 GB DDR5 1 TB NVMe Không giới hạn $136.50/mo Đặt hàng
NL-M Phổ biến 1× NVIDIA RTX 5090 32 GB GDDR7 16 vCPU 96 GB DDR5 1.5 TB NVMe Không giới hạn $220.00/mo Đặt hàng
NL-L 1× NVIDIA H100 SXM5 80 GB HBM3 24 vCPU 192 GB DDR5 2 TB NVMe Không giới hạn $881.50/mo Đặt hàng
NL-XL 2× NVIDIA H100 SXM5 160 GB HBM3 32 vCPU 384 GB DDR5 4 TB NVMe Không giới hạn $1665.50/mo Đặt hàng

GPU hosting có tại 4 vùng tài phán khi ra mắt (Iceland, Netherlands, Romania, Moldova). Russia bị loại trừ do lệnh cấm xuất khẩu NVIDIA; Switzerland và Panama hiện chỉ dùng Linux.

Có sẵn trên mọi máy chủ GPU

CUDA 12

CUDA 12.4/12.6 + cuDNN được cài sẵn. Boot, ssh vào, chạy nvidia-smi.

Triển khai trong 60 giây

Từ đơn hàng đã thanh toán đến output nvidia-smi trong dưới 60 giây.

NVMe SSD

Lên đến 4 TB NVMe SSD, kết hợp với DDR5 RAM để I/O dataset nhanh.

SSH + Jupyter

Full root SSH, cộng với JupyterLab được bind sẵn trên cổng 8888 với xác thực token.

Trường hợp sử dụng

What GPU AI Hosting is Used For

Tinh chỉnh & inference LLM

Tinh chỉnh Llama, Mistral, Qwen, DeepSeek với LoRA / QLoRA / full FT trên H100. Hoặc inference tự host với vLLM / TGI / Ollama cho serving mô hình production.

Tạo ảnh

Stable Diffusion, FLUX.1, SDXL với ComfyUI hoặc Forge. Huấn luyện LoRA riêng, tạo hàng loạt theo quy mô, hoặc tự host endpoint inference.

Tạo video AI

OpenSora, CogVideoX, Wan-2.1, AnimateDiff. Tạo video cần VRAM nghiêm túc — bắt đầu từ RTX 5090 (32 GB) hoặc H100 (80 GB).

Inference production

Triển khai các mô hình đã tinh chỉnh sau API riêng của bạn. Chi phí dự đoán được, không phí theo token, không dữ liệu rời khỏi vùng tài phán của bạn. Đã bao gồm JupyterLab + FastAPI.

Triển khai 1-click

Template AI cài sẵn

Chọn các tùy chọn bạn muốn khi đặt hàng và máy chủ GPU của bạn khởi động với stack đã được cài đặt, cấu hình và khởi chạy qua systemd. Bật tính năng tải sẵn model bên dưới để bỏ qua luôn 30–60 phút tải từ HuggingFace.

Inference LLM

vLLM (OpenAI-compatible)

Production-grade LLM serving with continuous batching and paged attention. Exposes an /v1/completions endpoint compatible with the OpenAI SDK.

LLMOpenAI APIproduction 16 GB+
Inference LLM

Ollama + Open WebUI

Self-hosted ChatGPT-style web UI. Pulls Ollama-native quantized weights; easiest path to "talk to my LLM in a browser".

LLMchat UIbeginner 8 GB+
Inference LLM

text-generation-webui (Oobabooga)

Gradio UI with broad backend support — Transformers, ExLlamaV2, llama.cpp, AWQ, GPTQ. Power-user choice for benchmarking quantizations.

LLMmulti-backendpower user 16 GB+
Inference LLM

HuggingFace TGI

HuggingFace Text Generation Inference — production server with token streaming, tensor parallelism, paged attention.

LLMproductionHuggingFace 24 GB+
Finetune

Axolotl (LLM finetuning)

YAML-config driven finetuning. Supports LoRA, QLoRA, full FT, DPO, ORPO. Pre-cloned to /opt/axolotl with starter configs for Llama / Qwen / Mistral.

finetuneLoRAQLoRA 24 GB+
Finetune

Unsloth (2× faster finetune)

2× faster + 70% less VRAM finetuning via custom Triton kernels. Ideal for budget runs on RTX 4090. Pre-installed in /opt/unsloth.

finetunefastlow VRAM 16 GB+
Finetune

LLaMA-Factory

WebUI-driven finetuning platform. SFT / RLHF / DPO / KTO. Good entry point for non-coders who want to finetune on a UI.

finetuneGUI 24 GB+
Tạo ảnh

ComfyUI + FLUX.1

Node-graph image-gen interface, ships with FLUX.1-schnell + Kontext workflows. Power-user image generation pipeline.

imageFLUXworkflow 24 GB+
Tạo ảnh

Automatic1111 + SD 3.5

The mainstream Stable Diffusion WebUI. Stable Diffusion 3.5 + extensions ecosystem. Familiar UI for users coming from civitai.

imageSD 3.5 16 GB+
Tạo ảnh

Forge (faster A1111)

A1111 fork optimized for FLUX, faster sampling, lower VRAM. Drop-in replacement for users coming from Auto1111.

imageFLUXfast 16 GB+
Tạo ảnh

Kohya SS (LoRA training)

GUI for training Stable Diffusion / FLUX LoRA, DreamBooth, textual inversion. Trains a custom-style LoRA on RTX 4090 in 30-90 min.

LoRA trainingimageGUI 16 GB+
Video AI

ComfyUI + Wan 2.2 / HunyuanVideo

ComfyUI with video-gen workflows preloaded — Wan 2.2 T2V, HunyuanVideo, LTX-Video. Needs 40+ GB VRAM for usable speed at 720p.

videoWan 2.2HunyuanVideo 40 GB+
Video AI

ComfyUI Video Lite (CogVideoX / LTX)

Lightweight video workflows — CogVideoX-5B, Wan 2.1 1.3B, LTX-Video. Runs on a single RTX 4090.

videoCogVideoXlow VRAM 16 GB+
Âm thanh

Whisper Large v3 Turbo server

OpenAI Whisper Large v3 Turbo with faster-whisper backend behind a /transcribe HTTP API. 8× faster than v3, 99 langs, real-time on any GPU.

audiospeech-to-textAPI 6 GB+
Âm thanh

TTS server (Kokoro + CSM-1B)

Multi-model TTS endpoint serving Kokoro 82M (54 voices, 8 langs) and Sesame CSM-1B (conversational with context). REST + WebSocket streaming.

audiotext-to-speechAPI 6 GB+
Notebooks & Phát triển

JupyterLab + PyTorch baseline

Always installed. PyTorch 2.5 + CUDA 12.4 + Transformers + diffusers + accelerate + bitsandbytes + xformers + flash-attn. The universal AI dev baseline.

notebookbaselinealways-on 0 GB+
Notebooks & Phát triển

code-server (VSCode in browser)

VSCode running in your browser, full Python/IPython/extensions. For users who prefer IDE workflow over notebooks.

IDEVSCodedev 0 GB+

Kết hợp nhiều stack trên cùng một GPU — script triển khai tự giải quyết xung đột dependency và gán cổng không trùng nhau.

Bỏ qua bước tải xuống

Model open-weight tải sẵn

Chọn các model bạn cần khi đặt hàng và chúng sẽ được cache vào /root/.cache/huggingface trước khi bạn đăng nhập. 🔒 Các model có hạn chế (Llama, Mistral, Gemma, FLUX-dev, SD 3.5) yêu cầu token HuggingFace của bạn (cũng được yêu cầu khi đặt hàng).

Model HuggingFace Kích thước VRAM tối thiểu Gói GPU tối thiểu Loại
Llama 3.3 70B Instruct 🔒 Có hạn chế meta-llama/Llama-3.3-70B-Instruct 140 GB 160 GB GPU-L LLM
Qwen3 32B Qwen/Qwen3-32B 64 GB 80 GB GPU-L LLM
Qwen3 14B Qwen/Qwen3-14B 28 GB 32 GB GPU-S LLM
Qwen3 8B Qwen/Qwen3-8B 16 GB 20 GB GPU-S LLM
DeepSeek-R1 Distill Qwen 32B deepseek-ai/DeepSeek-R1-Distill-Qwen-32B 64 GB 80 GB GPU-S LLM
DeepSeek-R1 Distill Llama 70B deepseek-ai/DeepSeek-R1-Distill-Llama-70B 140 GB 160 GB GPU-S LLM
Mistral Small 3.2 24B (multimodal) mistralai/Mistral-Small-3.2-24B-Instruct-2506 48 GB 60 GB GPU-S LLM
Gemma 3 27B (multimodal) 🔒 Có hạn chế google/gemma-3-27b-it 54 GB 64 GB GPU-L LLM
Gemma 3 12B (multimodal) 🔒 Có hạn chế google/gemma-3-12b-it 24 GB 28 GB GPU-S LLM
Phi-4 (14B) microsoft/phi-4 28 GB 32 GB GPU-S LLM
Phi-4 Mini Instruct (3.8B) microsoft/Phi-4-mini-instruct 8 GB 10 GB GPU-S LLM
FLUX.1 [dev] 🔒 Có hạn chế black-forest-labs/FLUX.1-dev 24 GB 24 GB GPU-S Hình ảnh
FLUX.1 [schnell] black-forest-labs/FLUX.1-schnell 24 GB 24 GB GPU-S Hình ảnh
FLUX.1 Kontext [dev] (image editing) 🔒 Có hạn chế black-forest-labs/FLUX.1-Kontext-dev 24 GB 24 GB GPU-S Hình ảnh
Stable Diffusion 3.5 Large 🔒 Có hạn chế stabilityai/stable-diffusion-3.5-large 16 GB 18 GB GPU-S Hình ảnh
Stable Diffusion 3.5 Medium 🔒 Có hạn chế stabilityai/stable-diffusion-3.5-medium 5 GB 10 GB GPU-S Hình ảnh
HiDream-I1 Full HiDream-ai/HiDream-I1-Full 34 GB 40 GB GPU-S Hình ảnh
Wan 2.2 T2V A14B Wan-AI/Wan2.2-T2V-A14B 28 GB 40 GB GPU-S Video
Wan 2.1 T2V 1.3B (low VRAM) Wan-AI/Wan2.1-T2V-1.3B 3 GB 8 GB GPU-S Video
HunyuanVideo 1.5 (8.3B) tencent/HunyuanVideo-1.5 17 GB 24 GB GPU-S Video
LTX-Video 0.9.8 13B Lightricks/LTX-Video 26 GB 24 GB GPU-S Video
CogVideoX-5B zai-org/CogVideoX-5b 10 GB 16 GB GPU-S Video
Whisper Large v3 Turbo openai/whisper-large-v3-turbo 2 GB 4 GB GPU-S Âm thanh
Whisper Large v3 openai/whisper-large-v3 3 GB 6 GB GPU-S Âm thanh
Kokoro 82M (TTS) hexgrad/Kokoro-82M 1 GB 2 GB GPU-S Âm thanh
Sesame CSM-1B (conversational TTS) sesame/csm-1b 2 GB 6 GB GPU-S Âm thanh
Stable Audio Open 1.0 🔒 Có hạn chế stabilityai/stable-audio-open-1.0 3 GB 8 GB GPU-S Âm thanh

Kích thước là trọng số FP16. Với RTX 4090 (24 GB VRAM) và model 70B, biến thể lượng tử hóa AWQ được tải xuống tự động song song.

So sánh của chúng tôi

ServPrivacy vs Vast.ai · RunPod · Paperspace · Lambda Labs · TensorDock

Thanh toán chỉ crypto, Monero trực tiếp, đăng ký chỉ bằng token, AI stack cài sẵn, model HuggingFace tải sẵn, token HF mã hóa, endpoint Let's Encrypt tự động, băng thông không giới hạn, và 100% năng lượng tái tạo ở Iceland — đọc dòng ServPrivacy và tự đánh giá.

Tính năng ServPrivacy Vast.ai RunPod Paperspace Lambda TensorDock
Thanh toán chỉ crypto ✅ 20 coins⚠️ BTC⚠️ Gateway⚠️ BTC/ETH/USDT
Monero (XMR) trực tiếp
Không KYC, không đăng ký email ✅ Token-only⚠️ Email + ID for trust⚠️ Email + payment❌ Full KYC❌ Enterprise KYC⚠️ Email + light KYC
AI stack cài sẵn ✅ 17 templates⚠️ Docker BYO✅ 100+⚠️ Notebooks only⚠️ Lambda Stack only⚠️ Docker BYO
Model tải sẵn khi đặt hàng ✅ 27 models
Token HuggingFace khi đặt hàng ✅ Encrypted, used once
Khóa SSH khi đặt hàng ⚠️⚠️
Bộ hẹn giờ tự tắt ✅ 6h-7d⚠️ Spot only
Endpoint HTTPS công khai (Let's Encrypt) ✅ Auto⚠️ Manual✅ Pods⚠️ Manual
Băng thông không giới hạn ⚠️ Per host⚠️ Capped⚠️ Capped⚠️ Capped⚠️ Per host
Trung tâm dữ liệu năng lượng tái tạo ✅ Iceland 100% geo+hydro❌ Variable⚠️ US grid⚠️ US grid⚠️ US grid⚠️ Variable
Vùng tài phán offshore ✅ IS / NL / RO / MD❌ Distributed P2P❌ US-centric❌ US❌ US-only⚠️ Multi-region
Chế độ thử nghiệm sandbox ✅ ?dry_run=1⚠️ Trial credit⚠️ Limited⚠️ Free GPU tier
Ưu tiên AI-agent / MCP ✅ MCP + REST + x402⚠️ REST⚠️ REST⚠️ REST⚠️ REST⚠️ REST
RTX 4090 entry / tháng $122.00~$216 spot~$396 on-demandn/an/a~$252 spot

Dữ liệu so sánh lấy từ trang giá công khai và quy trình đăng ký của đối thủ tính đến 2026-05. ServPrivacy entry RTX 4090 = $249/tháng Moldova; giá "spot" của đối thủ là mức trung bình cho phần cứng tương đương.

FAQ

Câu hỏi thường gặp về GPU AI Hosting

01 GPU có được passthrough với toàn quyền truy cập phần cứng, hay bị chia sẻ / cắt vGPU?

Passthrough phần cứng toàn phần. Bạn có toàn bộ card NVIDIA vật lý với truy cập VRAM trực tiếp — không phải vGPU slice, không phải phân vùng MIG time-shared. nvidia-smi trong VM của bạn hiển thị cùng số liệu như máy chủ bare-metal. Toàn quyền truy cập driver, CUDA đầy đủ, stack PyTorch / TensorFlow đầy đủ — không có SR-IOV reservation.

02 Phiên bản CUDA / driver nào được cài sẵn?

Image mặc định: Ubuntu 22.04 + CUDA 12.4 + cuDNN 9 + NVIDIA driver 550. Các image sẵn sàng dùng khác: Ubuntu 24.04 + CUDA 12.6, Ubuntu 22 + PyTorch 2.5, Ubuntu 22 + ComfyUI + Flux, Ubuntu 22 + Ollama + Open WebUI. Ubuntu / Debian / AlmaLinux / Rocky thuần cũng được cung cấp nếu bạn muốn tự cài stack riêng. Bạn có thể chuyển phiên bản driver bất cứ lúc nào với full root.

03 Tôi có thể chạy inference production của startup AI của mình trên các GPU này không?

Có. Nhiều khách hàng GPU của chúng tôi chạy API inference công khai trên vLLM / TGI / FastAPI. Máy chủ GPU đi kèm full root, thanh toán hàng tháng dự đoán được (không có bất ngờ theo token) và IP vùng tài phán cố định. Băng thông không giới hạn trên mọi gói GPU, nên bạn có thể phục vụ endpoint công khai lưu lượng cao mà không lo đồng hồ đo hay phí vượt mức.

04 Tại sao Russia bị loại trừ khỏi vị trí GPU?

NVIDIA H100, A100 và các card RTX cao cấp (4090 trở lên) chịu kiểm soát xuất khẩu của Bộ Thương mại Mỹ (15 CFR Part 744) và các quy định dual-use của EU cấm vận chuyển đến datacenter ở Nga. Chúng tôi không cung cấp chúng tại Nga để tuân thủ các quy định áp dụng cho chuỗi cung ứng của chúng tôi. Nếu bạn cần Linux VPS hoặc Dedicated offshore tại Nga, các dòng sản phẩm đó không bị ảnh hưởng.

05 Tại sao Iceland được định vị là địa điểm GPU cao cấp?

Các trung tâm dữ liệu ở Iceland vận hành hoàn toàn bằng năng lượng tái tạo từ địa nhiệt và thủy điện, đồng thời nhiệt độ môi trường thấp giúp giảm đáng kể chi phí làm mát cho các máy chủ H100 tiêu thụ tới 700W liên tục. Kết quả là hạ tầng GPU offshore có lượng carbon thấp nhất trên thị trường. Mức giá cao hơn phản ánh chi phí trung tâm dữ liệu ở Iceland và nguồn năng lượng sạch — đối với các nhóm AI chú trọng ESG, đây là lựa chọn offshore duy nhất đáng tin cậy.

06 Tôi có thể dùng nhiều GPU để huấn luyện phân tán (DDP / FSDP) không?

Được — gói GPU-XL gồm 2× H100 SXM5 kết nối NVLink trong cùng một máy, lý tưởng cho FSDP / DeepSpeed Zero-3 / DDP trên cùng một node. Để huấn luyện đa node, bạn có thể thuê nhiều máy chủ GPU-XL trong cùng một trung tâm dữ liệu và kết nối qua đường uplink 10 Gbps. Hiện tại chúng tôi chưa cung cấp cụm 8× H100 — hãy liên hệ nếu tác vụ huấn luyện của bạn cần quy mô lớn hơn.

Triển khai máy chủ GPU Offshore của bạn

Chọn vùng tài phán, chọn GPU NVIDIA, thanh toán bằng bất kỳ 20 crypto nào. JupyterLab trực tiếp trong dưới 60 giây. Không KYC, không email, không điện thoại — chỉ cần một token.

Xem các gói GPU