LLM 微调与推理
在 H100 上使用 LoRA / QLoRA / 全量微调对 Llama、Mistral、Qwen、DeepSeek 进行微调。或使用 vLLM / TGI / Ollama 进行自托管推理,用于生产模型服务。
Netherlands 借助 AMS-IX 对等互联,提供我们网络中延迟最低的 GPU 算力。如果您向欧洲用户提供 AI 模型服务(对西欧推理延迟低于 10ms),或从欧洲模型注册表拉取大型数据集,这里是最佳选择。AMS-IX 带宽也是我们网络中每 TB 价格最低的。
所有方案均含预装 CUDA 12 + cuDNN、NVMe SSD、DDR5 内存、完全 root 权限、SSH + JupyterLab 和无限带宽。
| 方案 | GPU | VRAM | CPU | 内存 | NVMe | 带宽 | 价格 | |
|---|---|---|---|---|---|---|---|---|
| NL-S | 1× NVIDIA RTX 4090 | 24 GB GDDR6X | 12 vCPU | 64 GB DDR5 | 1 TB NVMe | 无限 | $279/mo | 订购 |
| NL-M 热门 | 1× NVIDIA RTX 5090 | 32 GB GDDR7 | 16 vCPU | 96 GB DDR5 | 1.5 TB NVMe | 无限 | $449/mo | 订购 |
| NL-L | 1× NVIDIA H100 SXM5 | 80 GB HBM3 | 24 vCPU | 192 GB DDR5 | 2 TB NVMe | 无限 | $1799/mo | 订购 |
| NL-XL | 2× NVIDIA H100 SXM5 | 160 GB HBM3 | 32 vCPU | 384 GB DDR5 | 4 TB NVMe | 无限 | $3399/mo | 订购 |
GPU 服务器在随 VRAM 和张量核心扩展的工作负载上表现突出 — LLM 微调与推理、扩散图像生成、AI 视频及高吞吐模型服务。
在 H100 上使用 LoRA / QLoRA / 全量微调对 Llama、Mistral、Qwen、DeepSeek 进行微调。或使用 vLLM / TGI / Ollama 进行自托管推理,用于生产模型服务。
使用 ComfyUI 或 Forge 运行 Stable Diffusion、FLUX.1、SDXL。训练自己的 LoRA,大规模批量生成,或自托管推理端点。
OpenSora、CogVideoX、Wan-2.1、AnimateDiff。视频生成需要充足 VRAM — 从 RTX 5090(32 GB)或 H100(80 GB)起步。
在您自己的 API 后端部署微调模型。成本可预测,无按 token 计费,数据不离开您的司法管辖区。含 JupyterLab + FastAPI。
RTX 4090(24 GB)、RTX 5090(32 GB)、H100 SXM5(80 GB)、2× H100(160 GB)。
最高 4 TB NVMe SSD,搭配 DDR5 内存,实现快速数据集 I/O。
从付款到 nvidia-smi 输出,60 秒内完成。
完全 root SSH,以及预绑定在 8888 端口、使用令牌认证的 JupyterLab。
荷兰通过AMS-IX提供欧洲最佳的网络对等互联。到大部分西欧地区的延迟低于10毫秒,带宽容量出色,托管环境历来宽容。
荷兰是欧盟成员国,因此GDPR适用。然而,ServPrivacy不收集个人数据,因此GDPR合规性已内置于我们的零数据架构中。没有个人数据就没有GDPR风险。
极快。AMS-IX对等互联提供到西欧低于10毫秒的延迟和出色的全球连接。我们的荷兰服务器配备高达10 Gbps上行链路和无限带宽。