首页 / GPU AI 托管
RTX 4090 · RTX 5090 · H100 SXM5 · CUDA 12

离岸 GPU AI 托管

NVIDIA RTX 4090、RTX 5090 及 H100 SXM5 GPU 服务器,适用于 AI 训练、推理、图像与视频生成。预装 CUDA 12 与 cuDNN,以及 PyTorch / ComfyUI / Ollama 镜像预设,ssh 直连即用。H100 层级搭载 Threadripper Pro 宿主机,提供完整 PCIe Gen 5 通道数。在 4 个离岸司法管辖区可用,无 KYC,支持含 Monero 在内的 14 种链上加密货币支付。

无需KYC
仅限加密货币
CUDA 12
NVMe SSD
完整Root权限
Monero accepted
全部 GPU 方案

按地区选择 GPU 方案

所有司法管辖区使用相同 NVIDIA 硬件,所有方案均提供无限带宽。定价因地区而异——Iceland 碳排放最低,Moldova 价格最优。

冰岛 言论自由港

方案GPUVRAMCPU内存NVMe带宽价格
IS-S 1× NVIDIA RTX 4090 24 GB GDDR6X 12 vCPU 64 GB DDR5 1 TB NVMe 无限 $299/mo 订购
IS-M 热门 1× NVIDIA RTX 5090 32 GB GDDR7 16 vCPU 96 GB DDR5 1.5 TB NVMe 无限 $479/mo 订购
IS-L 1× NVIDIA H100 SXM5 80 GB HBM3 24 vCPU 192 GB DDR5 2 TB NVMe 无限 $1849/mo 订购
IS-XL 2× NVIDIA H100 SXM5 160 GB HBM3 32 vCPU 384 GB DDR5 4 TB NVMe 无限 $3499/mo 订购

摩尔多瓦 经济型离岸

方案GPUVRAMCPU内存NVMe带宽价格
MD-S 1× NVIDIA RTX 4090 24 GB GDDR6X 12 vCPU 64 GB DDR5 1 TB NVMe 无限 $249/mo 订购
MD-M 热门 1× NVIDIA RTX 5090 32 GB GDDR7 16 vCPU 96 GB DDR5 1.5 TB NVMe 无限 $399/mo 订购
MD-L 1× NVIDIA H100 SXM5 80 GB HBM3 24 vCPU 192 GB DDR5 2 TB NVMe 无限 $1699/mo 订购
MD-XL 2× NVIDIA H100 SXM5 160 GB HBM3 32 vCPU 384 GB DDR5 4 TB NVMe 无限 $3199/mo 订购

罗马尼亚 反数据留存

方案GPUVRAMCPU内存NVMe带宽价格
RO-S 1× NVIDIA RTX 4090 24 GB GDDR6X 12 vCPU 64 GB DDR5 1 TB NVMe 无限 $269/mo 订购
RO-M 热门 1× NVIDIA RTX 5090 32 GB GDDR7 16 vCPU 96 GB DDR5 1.5 TB NVMe 无限 $429/mo 订购
RO-L 1× NVIDIA H100 SXM5 80 GB HBM3 24 vCPU 192 GB DDR5 2 TB NVMe 无限 $1749/mo 订购
RO-XL 2× NVIDIA H100 SXM5 160 GB HBM3 32 vCPU 384 GB DDR5 4 TB NVMe 无限 $3299/mo 订购

荷兰 最佳对等互联

方案GPUVRAMCPU内存NVMe带宽价格
NL-S 1× NVIDIA RTX 4090 24 GB GDDR6X 12 vCPU 64 GB DDR5 1 TB NVMe 无限 $279/mo 订购
NL-M 热门 1× NVIDIA RTX 5090 32 GB GDDR7 16 vCPU 96 GB DDR5 1.5 TB NVMe 无限 $449/mo 订购
NL-L 1× NVIDIA H100 SXM5 80 GB HBM3 24 vCPU 192 GB DDR5 2 TB NVMe 无限 $1799/mo 订购
NL-XL 2× NVIDIA H100 SXM5 160 GB HBM3 32 vCPU 384 GB DDR5 4 TB NVMe 无限 $3399/mo 订购

GPU 托管在上线时提供 4 个司法管辖区(Iceland、Netherlands、Romania、Moldova)。Russia 因 NVIDIA 出口制裁被排除;Switzerland 和 Panama 目前仅提供 Linux 方案。

每台 GPU 服务器标配

CUDA 12

预装 CUDA 12.4/12.6 + cuDNN。启动后 ssh 进入,运行 nvidia-smi。

60 秒部署

从付款到 nvidia-smi 输出,60 秒内完成。

NVMe SSD

最高 4 TB NVMe SSD,搭配 DDR5 内存,实现快速数据集 I/O。

SSH + Jupyter

完全 root SSH,以及预绑定在 8888 端口、使用令牌认证的 JupyterLab。

用例

What GPU AI Hosting is Used For

LLM 微调与推理

在 H100 上使用 LoRA / QLoRA / 全量微调对 Llama、Mistral、Qwen、DeepSeek 进行微调。或使用 vLLM / TGI / Ollama 进行自托管推理,用于生产模型服务。

图像生成

使用 ComfyUI 或 Forge 运行 Stable Diffusion、FLUX.1、SDXL。训练自己的 LoRA,大规模批量生成,或自托管推理端点。

AI 视频生成

OpenSora、CogVideoX、Wan-2.1、AnimateDiff。视频生成需要充足 VRAM — 从 RTX 5090(32 GB)或 H100(80 GB)起步。

生产推理

在您自己的 API 后端部署微调模型。成本可预测,无按 token 计费,数据不离开您的司法管辖区。含 JupyterLab + FastAPI。

一键部署

预装 AI 模板

下单时勾选任意模板,GPU 服务器启动时即完成安装、配置并通过 systemd 启动。在下方添加预下载模型,跳过 HuggingFace 30-60 分钟的下载等待。

LLM 推理

vLLM (OpenAI-compatible)

Production-grade LLM serving with continuous batching and paged attention. Exposes an /v1/completions endpoint compatible with the OpenAI SDK.

LLMOpenAI APIproduction +
LLM 推理

Ollama + Open WebUI

Self-hosted ChatGPT-style web UI. Pulls Ollama-native quantized weights; easiest path to "talk to my LLM in a browser".

LLMchat UIbeginner +
LLM 推理

text-generation-webui (Oobabooga)

Gradio UI with broad backend support — Transformers, ExLlamaV2, llama.cpp, AWQ, GPTQ. Power-user choice for benchmarking quantizations.

LLMmulti-backendpower user +
LLM 推理

HuggingFace TGI

HuggingFace Text Generation Inference — production server with token streaming, tensor parallelism, paged attention.

LLMproductionHuggingFace +
微调

Axolotl (LLM finetuning)

YAML-config driven finetuning. Supports LoRA, QLoRA, full FT, DPO, ORPO. Pre-cloned to /opt/axolotl with starter configs for Llama / Qwen / Mistral.

finetuneLoRAQLoRA +
微调

Unsloth (2× faster finetune)

2× faster + 70% less VRAM finetuning via custom Triton kernels. Ideal for budget runs on RTX 4090. Pre-installed in /opt/unsloth.

finetunefastlow VRAM +
微调

LLaMA-Factory

WebUI-driven finetuning platform. SFT / RLHF / DPO / KTO. Good entry point for non-coders who want to finetune on a UI.

finetuneGUI +
图像生成

ComfyUI + FLUX.1

Node-graph image-gen interface, ships with FLUX.1-schnell + Kontext workflows. Power-user image generation pipeline.

imageFLUXworkflow +
图像生成

Automatic1111 + SD 3.5

The mainstream Stable Diffusion WebUI. Stable Diffusion 3.5 + extensions ecosystem. Familiar UI for users coming from civitai.

imageSD 3.5 +
图像生成

Forge (faster A1111)

A1111 fork optimized for FLUX, faster sampling, lower VRAM. Drop-in replacement for users coming from Auto1111.

imageFLUXfast +
图像生成

Kohya SS (LoRA training)

GUI for training Stable Diffusion / FLUX LoRA, DreamBooth, textual inversion. Trains a custom-style LoRA on RTX 4090 in 30-90 min.

LoRA trainingimageGUI +
AI 视频

ComfyUI + Wan 2.2 / HunyuanVideo

ComfyUI with video-gen workflows preloaded — Wan 2.2 T2V, HunyuanVideo, LTX-Video. Needs 40+ GB VRAM for usable speed at 720p.

videoWan 2.2HunyuanVideo +
AI 视频

ComfyUI Video Lite (CogVideoX / LTX)

Lightweight video workflows — CogVideoX-5B, Wan 2.1 1.3B, LTX-Video. Runs on a single RTX 4090.

videoCogVideoXlow VRAM +
音频

Whisper Large v3 Turbo server

OpenAI Whisper Large v3 Turbo with faster-whisper backend behind a /transcribe HTTP API. 8× faster than v3, 99 langs, real-time on any GPU.

audiospeech-to-textAPI +
音频

TTS server (Kokoro + CSM-1B)

Multi-model TTS endpoint serving Kokoro 82M (54 voices, 8 langs) and Sesame CSM-1B (conversational with context). REST + WebSocket streaming.

audiotext-to-speechAPI +
Notebooks 与开发

JupyterLab + PyTorch baseline

Always installed. PyTorch 2.5 + CUDA 12.4 + Transformers + diffusers + accelerate + bitsandbytes + xformers + flash-attn. The universal AI dev baseline.

notebookbaselinealways-on +
Notebooks 与开发

code-server (VSCode in browser)

VSCode running in your browser, full Python/IPython/extensions. For users who prefer IDE workflow over notebooks.

IDEVSCodedev +

在同一 GPU 上组合多个技术栈——部署脚本自动解决依赖冲突并分配不冲突的端口。

跳过下载

预下载开放权重模型

下单时勾选所需模型,登录前即已缓存至 /root/.cache/huggingface。🔒 受限模型(Llama、Mistral、Gemma、FLUX-dev、SD 3.5)需要您的 HuggingFace Token(下单时一并填写)。

模型 HuggingFace 大小 最低 VRAM 最低 GPU 档位 类型
Llama 3.3 70B Instruct 🔒 受限 meta-llama/Llama-3.3-70B-Instruct 140 GB 160 GB GPU-L LLM
Qwen3 32B Qwen/Qwen3-32B 64 GB 80 GB GPU-L LLM
Qwen3 14B Qwen/Qwen3-14B 28 GB 32 GB GPU-S LLM
Qwen3 8B Qwen/Qwen3-8B 16 GB 20 GB GPU-S LLM
DeepSeek-R1 Distill Qwen 32B deepseek-ai/DeepSeek-R1-Distill-Qwen-32B 64 GB 80 GB GPU-S LLM
DeepSeek-R1 Distill Llama 70B deepseek-ai/DeepSeek-R1-Distill-Llama-70B 140 GB 160 GB GPU-S LLM
Mistral Small 3.2 24B (multimodal) mistralai/Mistral-Small-3.2-24B-Instruct-2506 48 GB 60 GB GPU-S LLM
Gemma 3 27B (multimodal) 🔒 受限 google/gemma-3-27b-it 54 GB 64 GB GPU-L LLM
Gemma 3 12B (multimodal) 🔒 受限 google/gemma-3-12b-it 24 GB 28 GB GPU-S LLM
Phi-4 (14B) microsoft/phi-4 28 GB 32 GB GPU-S LLM
Phi-4 Mini Instruct (3.8B) microsoft/Phi-4-mini-instruct 8 GB 10 GB GPU-S LLM
FLUX.1 [dev] 🔒 受限 black-forest-labs/FLUX.1-dev 24 GB 24 GB GPU-S 图像
FLUX.1 [schnell] black-forest-labs/FLUX.1-schnell 24 GB 24 GB GPU-S 图像
FLUX.1 Kontext [dev] (image editing) 🔒 受限 black-forest-labs/FLUX.1-Kontext-dev 24 GB 24 GB GPU-S 图像
Stable Diffusion 3.5 Large 🔒 受限 stabilityai/stable-diffusion-3.5-large 16 GB 18 GB GPU-S 图像
Stable Diffusion 3.5 Medium 🔒 受限 stabilityai/stable-diffusion-3.5-medium 5 GB 10 GB GPU-S 图像
HiDream-I1 Full HiDream-ai/HiDream-I1-Full 34 GB 40 GB GPU-S 图像
Wan 2.2 T2V A14B Wan-AI/Wan2.2-T2V-A14B 28 GB 40 GB GPU-S 视频
Wan 2.1 T2V 1.3B (low VRAM) Wan-AI/Wan2.1-T2V-1.3B 3 GB 8 GB GPU-S 视频
HunyuanVideo 1.5 (8.3B) tencent/HunyuanVideo-1.5 17 GB 24 GB GPU-S 视频
LTX-Video 0.9.8 13B Lightricks/LTX-Video 26 GB 24 GB GPU-S 视频
CogVideoX-5B zai-org/CogVideoX-5b 10 GB 16 GB GPU-S 视频
Whisper Large v3 Turbo openai/whisper-large-v3-turbo 2 GB 4 GB GPU-S 音频
Whisper Large v3 openai/whisper-large-v3 3 GB 6 GB GPU-S 音频
Kokoro 82M (TTS) hexgrad/Kokoro-82M 1 GB 2 GB GPU-S 音频
Sesame CSM-1B (conversational TTS) sesame/csm-1b 2 GB 6 GB GPU-S 音频
Stable Audio Open 1.0 🔒 受限 stabilityai/stable-audio-open-1.0 3 GB 8 GB GPU-S 音频

大小为 FP16 权重。RTX 4090(24 GB VRAM)运行 70B 模型时,AWQ 量化版本将并行自动下载。

横向对比

ServPrivacy vs Vast.ai · RunPod · Paperspace · Lambda Labs · TensorDock

纯加密货币结账、原生 Monero、仅 Token 注册、预装 AI 技术栈、预下载 HuggingFace 模型、加密 HF Token、自动 Let's Encrypt 端点、无限带宽及冰岛 100% 可再生能源——查看"ServPrivacy"那行,自行判断。

功能 ServPrivacy Vast.ai RunPod Paperspace Lambda TensorDock
纯加密货币结账 ✅ 14 chains⚠️ BTC⚠️ Gateway⚠️ BTC/ETH/USDT
原生 Monero (XMR)
无 KYC,无需邮箱注册 ✅ Token-only⚠️ Email + ID for trust⚠️ Email + payment❌ Full KYC❌ Enterprise KYC⚠️ Email + light KYC
预装 AI 技术栈 ✅ 17 templates⚠️ Docker BYO✅ 100+⚠️ Notebooks only⚠️ Lambda Stack only⚠️ Docker BYO
下单时预下载模型 ✅ 27 models
下单时提交 HuggingFace Token ✅ Encrypted, used once
下单时提交 SSH 密钥 ⚠️⚠️
自动关机计时器 ✅ 6h-7d⚠️ Spot only
公共 HTTPS 端点(Let's Encrypt) ✅ Auto⚠️ Manual✅ Pods⚠️ Manual
无限带宽 ⚠️ Per host⚠️ Capped⚠️ Capped⚠️ Capped⚠️ Per host
可再生能源数据中心 ✅ Iceland 100% geo+hydro❌ Variable⚠️ US grid⚠️ US grid⚠️ US grid⚠️ Variable
离岸司法管辖 ✅ IS / NL / RO / MD❌ Distributed P2P❌ US-centric❌ US❌ US-only⚠️ Multi-region
沙盒演练模式 ✅ ?dry_run=1⚠️ Trial credit⚠️ Limited⚠️ Free GPU tier
AI 代理 / MCP 优先 ✅ MCP + REST + x402⚠️ REST⚠️ REST⚠️ REST⚠️ REST⚠️ REST
入门款 RTX 4090 / 月 $249~$216 spot~$396 on-demandn/an/a~$252 spot

比较数据来源于竞争对手 2026-05 公开定价页面及注册流程。ServPrivacy 入门款 RTX 4090 = 摩尔多瓦 $249/月;竞争对手"现货"价格为同等硬件的平均费率。

常见问题

GPU AI 托管常见问题

01 GPU 是完整硬件直通,还是共享 / vGPU 切片?

完整硬件直通。您独占整块物理 NVIDIA 显卡,直接访问 VRAM — 不是 vGPU 切片,不是时分复用的 MIG 分区。虚拟机内的 nvidia-smi 显示与裸金属宿主机相同的数据。完整驱动访问,完整 CUDA,完整 PyTorch / TensorFlow 栈 — 无 SR-IOV 保留。

02 预装了哪些 CUDA / 驱动版本?

默认镜像:Ubuntu 22.04 + CUDA 12.4 + cuDNN 9 + NVIDIA 驱动 550。其他即用镜像:Ubuntu 24.04 + CUDA 12.6、Ubuntu 22 + PyTorch 2.5、Ubuntu 22 + ComfyUI + Flux、Ubuntu 22 + Ollama + Open WebUI。如需自行安装,也提供原版 Ubuntu / Debian / AlmaLinux / Rocky。您可以随时以完全 root 权限切换驱动版本。

03 我可以在这些 GPU 上运行自己 AI 初创公司的生产推理吗?

可以。我们许多 GPU 客户在 vLLM / TGI / FastAPI 之上运行公共推理 API。GPU 服务器提供完全 root、可预测的月度账单(无按 token 计费意外)及固定的司法管辖区 IP。所有 GPU 方案均提供无限带宽,您可以提供高流量公共端点,无需监控流量计或支付超额费用。

04 为何 Russia 被排除在 GPU 地区之外?

NVIDIA H100、A100 及高端 RTX 显卡(4090 及以上)受美国商务部出口管制(15 CFR Part 744)及欧盟两用品法规约束,禁止运往俄罗斯数据中心。为遵守适用于我们供应链的管制规定,我们不在 Russia 部署这些产品。如果您需要在 Russia 部署离岸 Linux VPS 或独立服务器,这些产品线不受影响。

05 为何 Iceland 被定位为高端 GPU 地区?

Iceland 数据中心 100% 使用可再生地热与水力发电,寒冷的环境温度在持续满载时显著降低了每台 700W H100 机器的冷却开销。最终提供市场上碳排放最低的离岸 GPU 算力。溢价涵盖了 Iceland 较高的数据中心成本与更清洁的能源来源 — 对于 ESG 意识 AI 团队,这是唯一可信的离岸选择。

06 我可以使用多块 GPU 进行分布式训练(DDP / FSDP)吗?

可以 — GPU-XL 层级配备 2× H100 SXM5,通过 NVLink 互联于同一机箱内,非常适合在同一台机器上运行 FSDP / DeepSpeed Zero-3 / DDP。对于多节点训练,您可以在同一数据中心租用多台 GPU-XL 服务器,并通过 10 Gbps 上行链路互联。我们目前不提供 8× H100 集群节点 — 如您的训练规模需要更大容量,请联系我们。

部署您的离岸 GPU 服务器

选择司法管辖区,选择 NVIDIA GPU,以 14 种加密货币之一付款。60 秒内获得实时 JupyterLab。无 KYC,无邮箱,无手机 — 仅需一个令牌。

查看 GPU 方案