CUDA 12
CUDA 12.4/12.6 + cuDNN được cài sẵn. Boot, ssh vào, chạy nvidia-smi.
Máy chủ GPU NVIDIA RTX 4090, RTX 5090 và H100 SXM5 cho huấn luyện AI, inference, tạo ảnh và video. CUDA 12 và cuDNN được cài sẵn, cộng với các preset image PyTorch / ComfyUI / Ollama sẵn sàng ssh vào. Máy chủ Threadripper Pro trên tầng H100 để có số lane PCIe Gen 5 đầy đủ. Có tại 4 vùng tài phán offshore, không KYC, thanh toán chỉ bằng crypto với 20 coin bao gồm Monero.
Cùng phần cứng NVIDIA trên mọi vùng tài phán với băng thông không giới hạn trên mọi gói. Giá thay đổi theo vùng tài phán — Iceland là tùy chọn carbon thấp nhất, Moldova rẻ nhất.
| Gói | GPU | VRAM | CPU | RAM | NVMe | Băng thông | Giá | |
|---|---|---|---|---|---|---|---|---|
| IS-S | 1× NVIDIA RTX 4090 | 24 GB GDDR6X | 12 vCPU | 64 GB DDR5 | 1 TB NVMe | Không giới hạn | $146.50/mo | Đặt hàng |
| IS-M Phổ biến | 1× NVIDIA RTX 5090 | 32 GB GDDR7 | 16 vCPU | 96 GB DDR5 | 1.5 TB NVMe | Không giới hạn | $234.50/mo | Đặt hàng |
| IS-L | 1× NVIDIA H100 SXM5 | 80 GB HBM3 | 24 vCPU | 192 GB DDR5 | 2 TB NVMe | Không giới hạn | $906.00/mo | Đặt hàng |
| IS-XL | 2× NVIDIA H100 SXM5 | 160 GB HBM3 | 32 vCPU | 384 GB DDR5 | 4 TB NVMe | Không giới hạn | $1714.50/mo | Đặt hàng |
| Gói | GPU | VRAM | CPU | RAM | NVMe | Băng thông | Giá | |
|---|---|---|---|---|---|---|---|---|
| MD-S | 1× NVIDIA RTX 4090 | 24 GB GDDR6X | 12 vCPU | 64 GB DDR5 | 1 TB NVMe | Không giới hạn | $122.00/mo | Đặt hàng |
| MD-M Phổ biến | 1× NVIDIA RTX 5090 | 32 GB GDDR7 | 16 vCPU | 96 GB DDR5 | 1.5 TB NVMe | Không giới hạn | $195.50/mo | Đặt hàng |
| MD-L | 1× NVIDIA H100 SXM5 | 80 GB HBM3 | 24 vCPU | 192 GB DDR5 | 2 TB NVMe | Không giới hạn | $832.50/mo | Đặt hàng |
| MD-XL | 2× NVIDIA H100 SXM5 | 160 GB HBM3 | 32 vCPU | 384 GB DDR5 | 4 TB NVMe | Không giới hạn | $1567.50/mo | Đặt hàng |
| Gói | GPU | VRAM | CPU | RAM | NVMe | Băng thông | Giá | |
|---|---|---|---|---|---|---|---|---|
| RO-S | 1× NVIDIA RTX 4090 | 24 GB GDDR6X | 12 vCPU | 64 GB DDR5 | 1 TB NVMe | Không giới hạn | $132.00/mo | Đặt hàng |
| RO-M Phổ biến | 1× NVIDIA RTX 5090 | 32 GB GDDR7 | 16 vCPU | 96 GB DDR5 | 1.5 TB NVMe | Không giới hạn | $210.00/mo | Đặt hàng |
| RO-L | 1× NVIDIA H100 SXM5 | 80 GB HBM3 | 24 vCPU | 192 GB DDR5 | 2 TB NVMe | Không giới hạn | $857.00/mo | Đặt hàng |
| RO-XL | 2× NVIDIA H100 SXM5 | 160 GB HBM3 | 32 vCPU | 384 GB DDR5 | 4 TB NVMe | Không giới hạn | $1616.50/mo | Đặt hàng |
| Gói | GPU | VRAM | CPU | RAM | NVMe | Băng thông | Giá | |
|---|---|---|---|---|---|---|---|---|
| NL-S | 1× NVIDIA RTX 4090 | 24 GB GDDR6X | 12 vCPU | 64 GB DDR5 | 1 TB NVMe | Không giới hạn | $136.50/mo | Đặt hàng |
| NL-M Phổ biến | 1× NVIDIA RTX 5090 | 32 GB GDDR7 | 16 vCPU | 96 GB DDR5 | 1.5 TB NVMe | Không giới hạn | $220.00/mo | Đặt hàng |
| NL-L | 1× NVIDIA H100 SXM5 | 80 GB HBM3 | 24 vCPU | 192 GB DDR5 | 2 TB NVMe | Không giới hạn | $881.50/mo | Đặt hàng |
| NL-XL | 2× NVIDIA H100 SXM5 | 160 GB HBM3 | 32 vCPU | 384 GB DDR5 | 4 TB NVMe | Không giới hạn | $1665.50/mo | Đặt hàng |
GPU hosting có tại 4 vùng tài phán khi ra mắt (Iceland, Netherlands, Romania, Moldova). Russia bị loại trừ do lệnh cấm xuất khẩu NVIDIA; Switzerland và Panama hiện chỉ dùng Linux.
CUDA 12.4/12.6 + cuDNN được cài sẵn. Boot, ssh vào, chạy nvidia-smi.
Từ đơn hàng đã thanh toán đến output nvidia-smi trong dưới 60 giây.
Lên đến 4 TB NVMe SSD, kết hợp với DDR5 RAM để I/O dataset nhanh.
Full root SSH, cộng với JupyterLab được bind sẵn trên cổng 8888 với xác thực token.
Tinh chỉnh Llama, Mistral, Qwen, DeepSeek với LoRA / QLoRA / full FT trên H100. Hoặc inference tự host với vLLM / TGI / Ollama cho serving mô hình production.
Stable Diffusion, FLUX.1, SDXL với ComfyUI hoặc Forge. Huấn luyện LoRA riêng, tạo hàng loạt theo quy mô, hoặc tự host endpoint inference.
OpenSora, CogVideoX, Wan-2.1, AnimateDiff. Tạo video cần VRAM nghiêm túc — bắt đầu từ RTX 5090 (32 GB) hoặc H100 (80 GB).
Triển khai các mô hình đã tinh chỉnh sau API riêng của bạn. Chi phí dự đoán được, không phí theo token, không dữ liệu rời khỏi vùng tài phán của bạn. Đã bao gồm JupyterLab + FastAPI.
Chọn các tùy chọn bạn muốn khi đặt hàng và máy chủ GPU của bạn khởi động với stack đã được cài đặt, cấu hình và khởi chạy qua systemd. Bật tính năng tải sẵn model bên dưới để bỏ qua luôn 30–60 phút tải từ HuggingFace.
Production-grade LLM serving with continuous batching and paged attention. Exposes an /v1/completions endpoint compatible with the OpenAI SDK.
Self-hosted ChatGPT-style web UI. Pulls Ollama-native quantized weights; easiest path to "talk to my LLM in a browser".
Gradio UI with broad backend support — Transformers, ExLlamaV2, llama.cpp, AWQ, GPTQ. Power-user choice for benchmarking quantizations.
HuggingFace Text Generation Inference — production server with token streaming, tensor parallelism, paged attention.
YAML-config driven finetuning. Supports LoRA, QLoRA, full FT, DPO, ORPO. Pre-cloned to /opt/axolotl with starter configs for Llama / Qwen / Mistral.
2× faster + 70% less VRAM finetuning via custom Triton kernels. Ideal for budget runs on RTX 4090. Pre-installed in /opt/unsloth.
WebUI-driven finetuning platform. SFT / RLHF / DPO / KTO. Good entry point for non-coders who want to finetune on a UI.
Node-graph image-gen interface, ships with FLUX.1-schnell + Kontext workflows. Power-user image generation pipeline.
The mainstream Stable Diffusion WebUI. Stable Diffusion 3.5 + extensions ecosystem. Familiar UI for users coming from civitai.
A1111 fork optimized for FLUX, faster sampling, lower VRAM. Drop-in replacement for users coming from Auto1111.
GUI for training Stable Diffusion / FLUX LoRA, DreamBooth, textual inversion. Trains a custom-style LoRA on RTX 4090 in 30-90 min.
ComfyUI with video-gen workflows preloaded — Wan 2.2 T2V, HunyuanVideo, LTX-Video. Needs 40+ GB VRAM for usable speed at 720p.
Lightweight video workflows — CogVideoX-5B, Wan 2.1 1.3B, LTX-Video. Runs on a single RTX 4090.
OpenAI Whisper Large v3 Turbo with faster-whisper backend behind a /transcribe HTTP API. 8× faster than v3, 99 langs, real-time on any GPU.
Multi-model TTS endpoint serving Kokoro 82M (54 voices, 8 langs) and Sesame CSM-1B (conversational with context). REST + WebSocket streaming.
Always installed. PyTorch 2.5 + CUDA 12.4 + Transformers + diffusers + accelerate + bitsandbytes + xformers + flash-attn. The universal AI dev baseline.
VSCode running in your browser, full Python/IPython/extensions. For users who prefer IDE workflow over notebooks.
Kết hợp nhiều stack trên cùng một GPU — script triển khai tự giải quyết xung đột dependency và gán cổng không trùng nhau.
Chọn các model bạn cần khi đặt hàng và chúng sẽ được cache vào /root/.cache/huggingface trước khi bạn đăng nhập. 🔒 Các model có hạn chế (Llama, Mistral, Gemma, FLUX-dev, SD 3.5) yêu cầu token HuggingFace của bạn (cũng được yêu cầu khi đặt hàng).
| Model | HuggingFace | Kích thước | VRAM tối thiểu | Gói GPU tối thiểu | Loại |
|---|---|---|---|---|---|
| Llama 3.3 70B Instruct 🔒 Có hạn chế | meta-llama/Llama-3.3-70B-Instruct |
140 GB | 160 GB | GPU-L | LLM |
| Qwen3 32B | Qwen/Qwen3-32B |
64 GB | 80 GB | GPU-L | LLM |
| Qwen3 14B | Qwen/Qwen3-14B |
28 GB | 32 GB | GPU-S | LLM |
| Qwen3 8B | Qwen/Qwen3-8B |
16 GB | 20 GB | GPU-S | LLM |
| DeepSeek-R1 Distill Qwen 32B | deepseek-ai/DeepSeek-R1-Distill-Qwen-32B |
64 GB | 80 GB | GPU-S | LLM |
| DeepSeek-R1 Distill Llama 70B | deepseek-ai/DeepSeek-R1-Distill-Llama-70B |
140 GB | 160 GB | GPU-S | LLM |
| Mistral Small 3.2 24B (multimodal) | mistralai/Mistral-Small-3.2-24B-Instruct-2506 |
48 GB | 60 GB | GPU-S | LLM |
| Gemma 3 27B (multimodal) 🔒 Có hạn chế | google/gemma-3-27b-it |
54 GB | 64 GB | GPU-L | LLM |
| Gemma 3 12B (multimodal) 🔒 Có hạn chế | google/gemma-3-12b-it |
24 GB | 28 GB | GPU-S | LLM |
| Phi-4 (14B) | microsoft/phi-4 |
28 GB | 32 GB | GPU-S | LLM |
| Phi-4 Mini Instruct (3.8B) | microsoft/Phi-4-mini-instruct |
8 GB | 10 GB | GPU-S | LLM |
| FLUX.1 [dev] 🔒 Có hạn chế | black-forest-labs/FLUX.1-dev |
24 GB | 24 GB | GPU-S | Hình ảnh |
| FLUX.1 [schnell] | black-forest-labs/FLUX.1-schnell |
24 GB | 24 GB | GPU-S | Hình ảnh |
| FLUX.1 Kontext [dev] (image editing) 🔒 Có hạn chế | black-forest-labs/FLUX.1-Kontext-dev |
24 GB | 24 GB | GPU-S | Hình ảnh |
| Stable Diffusion 3.5 Large 🔒 Có hạn chế | stabilityai/stable-diffusion-3.5-large |
16 GB | 18 GB | GPU-S | Hình ảnh |
| Stable Diffusion 3.5 Medium 🔒 Có hạn chế | stabilityai/stable-diffusion-3.5-medium |
5 GB | 10 GB | GPU-S | Hình ảnh |
| HiDream-I1 Full | HiDream-ai/HiDream-I1-Full |
34 GB | 40 GB | GPU-S | Hình ảnh |
| Wan 2.2 T2V A14B | Wan-AI/Wan2.2-T2V-A14B |
28 GB | 40 GB | GPU-S | Video |
| Wan 2.1 T2V 1.3B (low VRAM) | Wan-AI/Wan2.1-T2V-1.3B |
3 GB | 8 GB | GPU-S | Video |
| HunyuanVideo 1.5 (8.3B) | tencent/HunyuanVideo-1.5 |
17 GB | 24 GB | GPU-S | Video |
| LTX-Video 0.9.8 13B | Lightricks/LTX-Video |
26 GB | 24 GB | GPU-S | Video |
| CogVideoX-5B | zai-org/CogVideoX-5b |
10 GB | 16 GB | GPU-S | Video |
| Whisper Large v3 Turbo | openai/whisper-large-v3-turbo |
2 GB | 4 GB | GPU-S | Âm thanh |
| Whisper Large v3 | openai/whisper-large-v3 |
3 GB | 6 GB | GPU-S | Âm thanh |
| Kokoro 82M (TTS) | hexgrad/Kokoro-82M |
1 GB | 2 GB | GPU-S | Âm thanh |
| Sesame CSM-1B (conversational TTS) | sesame/csm-1b |
2 GB | 6 GB | GPU-S | Âm thanh |
| Stable Audio Open 1.0 🔒 Có hạn chế | stabilityai/stable-audio-open-1.0 |
3 GB | 8 GB | GPU-S | Âm thanh |
Kích thước là trọng số FP16. Với RTX 4090 (24 GB VRAM) và model 70B, biến thể lượng tử hóa AWQ được tải xuống tự động song song.
Thanh toán chỉ crypto, Monero trực tiếp, đăng ký chỉ bằng token, AI stack cài sẵn, model HuggingFace tải sẵn, token HF mã hóa, endpoint Let's Encrypt tự động, băng thông không giới hạn, và 100% năng lượng tái tạo ở Iceland — đọc dòng ServPrivacy và tự đánh giá.
| Tính năng | ServPrivacy | Vast.ai | RunPod | Paperspace | Lambda | TensorDock |
|---|---|---|---|---|---|---|
| Thanh toán chỉ crypto | ✅ 20 coins | ⚠️ BTC | ⚠️ Gateway | ❌ | ❌ | ⚠️ BTC/ETH/USDT |
| Monero (XMR) trực tiếp | ✅ | ❌ | ❌ | ❌ | ❌ | ❌ |
| Không KYC, không đăng ký email | ✅ Token-only | ⚠️ Email + ID for trust | ⚠️ Email + payment | ❌ Full KYC | ❌ Enterprise KYC | ⚠️ Email + light KYC |
| AI stack cài sẵn | ✅ 17 templates | ⚠️ Docker BYO | ✅ 100+ | ⚠️ Notebooks only | ⚠️ Lambda Stack only | ⚠️ Docker BYO |
| Model tải sẵn khi đặt hàng | ✅ 27 models | ❌ | ❌ | ❌ | ❌ | ❌ |
| Token HuggingFace khi đặt hàng | ✅ Encrypted, used once | ❌ | ❌ | ❌ | ❌ | ❌ |
| Khóa SSH khi đặt hàng | ✅ | ✅ | ✅ | ⚠️ | ✅ | ⚠️ |
| Bộ hẹn giờ tự tắt | ✅ 6h-7d | ✅ | ⚠️ Spot only | ❌ | ❌ | ❌ |
| Endpoint HTTPS công khai (Let's Encrypt) | ✅ Auto | ⚠️ Manual | ✅ Pods | ✅ | ❌ | ⚠️ Manual |
| Băng thông không giới hạn | ✅ | ⚠️ Per host | ⚠️ Capped | ⚠️ Capped | ⚠️ Capped | ⚠️ Per host |
| Trung tâm dữ liệu năng lượng tái tạo | ✅ Iceland 100% geo+hydro | ❌ Variable | ⚠️ US grid | ⚠️ US grid | ⚠️ US grid | ⚠️ Variable |
| Vùng tài phán offshore | ✅ IS / NL / RO / MD | ❌ Distributed P2P | ❌ US-centric | ❌ US | ❌ US-only | ⚠️ Multi-region |
| Chế độ thử nghiệm sandbox | ✅ ?dry_run=1 | ⚠️ Trial credit | ⚠️ Limited | ⚠️ Free GPU tier | ❌ | ❌ |
| Ưu tiên AI-agent / MCP | ✅ MCP + REST + x402 | ⚠️ REST | ⚠️ REST | ⚠️ REST | ⚠️ REST | ⚠️ REST |
| RTX 4090 entry / tháng | $122.00 | ~$216 spot | ~$396 on-demand | n/a | n/a | ~$252 spot |
Dữ liệu so sánh lấy từ trang giá công khai và quy trình đăng ký của đối thủ tính đến 2026-05. ServPrivacy entry RTX 4090 = $249/tháng Moldova; giá "spot" của đối thủ là mức trung bình cho phần cứng tương đương.
Passthrough phần cứng toàn phần. Bạn có toàn bộ card NVIDIA vật lý với truy cập VRAM trực tiếp — không phải vGPU slice, không phải phân vùng MIG time-shared. nvidia-smi trong VM của bạn hiển thị cùng số liệu như máy chủ bare-metal. Toàn quyền truy cập driver, CUDA đầy đủ, stack PyTorch / TensorFlow đầy đủ — không có SR-IOV reservation.
Image mặc định: Ubuntu 22.04 + CUDA 12.4 + cuDNN 9 + NVIDIA driver 550. Các image sẵn sàng dùng khác: Ubuntu 24.04 + CUDA 12.6, Ubuntu 22 + PyTorch 2.5, Ubuntu 22 + ComfyUI + Flux, Ubuntu 22 + Ollama + Open WebUI. Ubuntu / Debian / AlmaLinux / Rocky thuần cũng được cung cấp nếu bạn muốn tự cài stack riêng. Bạn có thể chuyển phiên bản driver bất cứ lúc nào với full root.
Có. Nhiều khách hàng GPU của chúng tôi chạy API inference công khai trên vLLM / TGI / FastAPI. Máy chủ GPU đi kèm full root, thanh toán hàng tháng dự đoán được (không có bất ngờ theo token) và IP vùng tài phán cố định. Băng thông không giới hạn trên mọi gói GPU, nên bạn có thể phục vụ endpoint công khai lưu lượng cao mà không lo đồng hồ đo hay phí vượt mức.
NVIDIA H100, A100 và các card RTX cao cấp (4090 trở lên) chịu kiểm soát xuất khẩu của Bộ Thương mại Mỹ (15 CFR Part 744) và các quy định dual-use của EU cấm vận chuyển đến datacenter ở Nga. Chúng tôi không cung cấp chúng tại Nga để tuân thủ các quy định áp dụng cho chuỗi cung ứng của chúng tôi. Nếu bạn cần Linux VPS hoặc Dedicated offshore tại Nga, các dòng sản phẩm đó không bị ảnh hưởng.
Các trung tâm dữ liệu ở Iceland vận hành hoàn toàn bằng năng lượng tái tạo từ địa nhiệt và thủy điện, đồng thời nhiệt độ môi trường thấp giúp giảm đáng kể chi phí làm mát cho các máy chủ H100 tiêu thụ tới 700W liên tục. Kết quả là hạ tầng GPU offshore có lượng carbon thấp nhất trên thị trường. Mức giá cao hơn phản ánh chi phí trung tâm dữ liệu ở Iceland và nguồn năng lượng sạch — đối với các nhóm AI chú trọng ESG, đây là lựa chọn offshore duy nhất đáng tin cậy.
Được — gói GPU-XL gồm 2× H100 SXM5 kết nối NVLink trong cùng một máy, lý tưởng cho FSDP / DeepSpeed Zero-3 / DDP trên cùng một node. Để huấn luyện đa node, bạn có thể thuê nhiều máy chủ GPU-XL trong cùng một trung tâm dữ liệu và kết nối qua đường uplink 10 Gbps. Hiện tại chúng tôi chưa cung cấp cụm 8× H100 — hãy liên hệ nếu tác vụ huấn luyện của bạn cần quy mô lớn hơn.
Chọn vùng tài phán, chọn GPU NVIDIA, thanh toán bằng bất kỳ 20 crypto nào. JupyterLab trực tiếp trong dưới 60 giây. Không KYC, không email, không điện thoại — chỉ cần một token.
Xem các gói GPU