CUDA 12
CUDA 12.4/12.6 + cuDNN preinstalados. Arranca, conéctate por SSH, ejecuta nvidia-smi.
Servidores GPU NVIDIA RTX 4090, RTX 5090 y H100 SXM5 para entrenamiento de IA, inferencia, generación de imágenes y video. CUDA 12 y cuDNN preinstalados, más presets de PyTorch / ComfyUI / Ollama listos para conectarse por SSH. Hosts Threadripper Pro en los niveles H100 para el conteo completo de canales PCIe Gen 5. Disponible en 4 jurisdicciones offshore, sin KYC, pago solo en cripto en 14 cadenas incluyendo Monero.
El mismo hardware NVIDIA en todas las jurisdicciones, con ancho de banda ilimitado en cada plan. Los precios varían por jurisdicción — Iceland es la opción de menor huella de carbono, Moldova la más económica.
| Plan | GPU | VRAM | CPU | RAM | NVMe | Ancho de banda | Precio | |
|---|---|---|---|---|---|---|---|---|
| IS-S | 1× NVIDIA RTX 4090 | 24 GB GDDR6X | 12 vCPU | 64 GB DDR5 | 1 TB NVMe | Ilimitado | $299/mo | Pedir |
| IS-M Popular | 1× NVIDIA RTX 5090 | 32 GB GDDR7 | 16 vCPU | 96 GB DDR5 | 1.5 TB NVMe | Ilimitado | $479/mo | Pedir |
| IS-L | 1× NVIDIA H100 SXM5 | 80 GB HBM3 | 24 vCPU | 192 GB DDR5 | 2 TB NVMe | Ilimitado | $1849/mo | Pedir |
| IS-XL | 2× NVIDIA H100 SXM5 | 160 GB HBM3 | 32 vCPU | 384 GB DDR5 | 4 TB NVMe | Ilimitado | $3499/mo | Pedir |
| Plan | GPU | VRAM | CPU | RAM | NVMe | Ancho de banda | Precio | |
|---|---|---|---|---|---|---|---|---|
| MD-S | 1× NVIDIA RTX 4090 | 24 GB GDDR6X | 12 vCPU | 64 GB DDR5 | 1 TB NVMe | Ilimitado | $249/mo | Pedir |
| MD-M Popular | 1× NVIDIA RTX 5090 | 32 GB GDDR7 | 16 vCPU | 96 GB DDR5 | 1.5 TB NVMe | Ilimitado | $399/mo | Pedir |
| MD-L | 1× NVIDIA H100 SXM5 | 80 GB HBM3 | 24 vCPU | 192 GB DDR5 | 2 TB NVMe | Ilimitado | $1699/mo | Pedir |
| MD-XL | 2× NVIDIA H100 SXM5 | 160 GB HBM3 | 32 vCPU | 384 GB DDR5 | 4 TB NVMe | Ilimitado | $3199/mo | Pedir |
| Plan | GPU | VRAM | CPU | RAM | NVMe | Ancho de banda | Precio | |
|---|---|---|---|---|---|---|---|---|
| RO-S | 1× NVIDIA RTX 4090 | 24 GB GDDR6X | 12 vCPU | 64 GB DDR5 | 1 TB NVMe | Ilimitado | $269/mo | Pedir |
| RO-M Popular | 1× NVIDIA RTX 5090 | 32 GB GDDR7 | 16 vCPU | 96 GB DDR5 | 1.5 TB NVMe | Ilimitado | $429/mo | Pedir |
| RO-L | 1× NVIDIA H100 SXM5 | 80 GB HBM3 | 24 vCPU | 192 GB DDR5 | 2 TB NVMe | Ilimitado | $1749/mo | Pedir |
| RO-XL | 2× NVIDIA H100 SXM5 | 160 GB HBM3 | 32 vCPU | 384 GB DDR5 | 4 TB NVMe | Ilimitado | $3299/mo | Pedir |
| Plan | GPU | VRAM | CPU | RAM | NVMe | Ancho de banda | Precio | |
|---|---|---|---|---|---|---|---|---|
| NL-S | 1× NVIDIA RTX 4090 | 24 GB GDDR6X | 12 vCPU | 64 GB DDR5 | 1 TB NVMe | Ilimitado | $279/mo | Pedir |
| NL-M Popular | 1× NVIDIA RTX 5090 | 32 GB GDDR7 | 16 vCPU | 96 GB DDR5 | 1.5 TB NVMe | Ilimitado | $449/mo | Pedir |
| NL-L | 1× NVIDIA H100 SXM5 | 80 GB HBM3 | 24 vCPU | 192 GB DDR5 | 2 TB NVMe | Ilimitado | $1799/mo | Pedir |
| NL-XL | 2× NVIDIA H100 SXM5 | 160 GB HBM3 | 32 vCPU | 384 GB DDR5 | 4 TB NVMe | Ilimitado | $3399/mo | Pedir |
El hosting GPU está disponible en 4 jurisdicciones al lanzamiento (Iceland, Netherlands, Romania, Moldova). Russia está excluida por las sanciones de exportación de NVIDIA; Switzerland y Panama se mantienen solo con Linux por ahora.
CUDA 12.4/12.6 + cuDNN preinstalados. Arranca, conéctate por SSH, ejecuta nvidia-smi.
Del pedido pagado al resultado de nvidia-smi en menos de 60 segundos.
Hasta 4 TB NVMe SSD, junto con RAM DDR5 para I/O rápido de conjuntos de datos.
SSH con root completo, más JupyterLab preconfigurado en el puerto 8888 con autenticación por token.
Finetuning de Llama, Mistral, Qwen, DeepSeek con LoRA / QLoRA / FT completo en H100. O inferencia auto-hospedada con vLLM / TGI / Ollama para serving de modelos en producción.
Stable Diffusion, FLUX.1, SDXL con ComfyUI o Forge. Entrena tu propio LoRA, genera en lote a escala o auto-hospeda un endpoint de inferencia.
OpenSora, CogVideoX, Wan-2.1, AnimateDiff. La generación de video exige mucha VRAM — empieza con RTX 5090 (32 GB) o H100 (80 GB).
Despliega modelos ajustados detrás de tu propia API. Costos predecibles, sin cobros por token, sin datos saliendo de tu jurisdicción. JupyterLab + FastAPI incluidos.
Marca cualquiera de estas al ordenar y tu servidor GPU arranca con el stack ya instalado, configurado e iniciado vía systemd. Agrega modelos predescargados abajo para omitir también la descarga de HuggingFace de 30-60 min.
Production-grade LLM serving with continuous batching and paged attention. Exposes an /v1/completions endpoint compatible with the OpenAI SDK.
Self-hosted ChatGPT-style web UI. Pulls Ollama-native quantized weights; easiest path to "talk to my LLM in a browser".
Gradio UI with broad backend support — Transformers, ExLlamaV2, llama.cpp, AWQ, GPTQ. Power-user choice for benchmarking quantizations.
HuggingFace Text Generation Inference — production server with token streaming, tensor parallelism, paged attention.
YAML-config driven finetuning. Supports LoRA, QLoRA, full FT, DPO, ORPO. Pre-cloned to /opt/axolotl with starter configs for Llama / Qwen / Mistral.
2× faster + 70% less VRAM finetuning via custom Triton kernels. Ideal for budget runs on RTX 4090. Pre-installed in /opt/unsloth.
WebUI-driven finetuning platform. SFT / RLHF / DPO / KTO. Good entry point for non-coders who want to finetune on a UI.
Node-graph image-gen interface, ships with FLUX.1-schnell + Kontext workflows. Power-user image generation pipeline.
The mainstream Stable Diffusion WebUI. Stable Diffusion 3.5 + extensions ecosystem. Familiar UI for users coming from civitai.
A1111 fork optimized for FLUX, faster sampling, lower VRAM. Drop-in replacement for users coming from Auto1111.
GUI for training Stable Diffusion / FLUX LoRA, DreamBooth, textual inversion. Trains a custom-style LoRA on RTX 4090 in 30-90 min.
ComfyUI with video-gen workflows preloaded — Wan 2.2 T2V, HunyuanVideo, LTX-Video. Needs 40+ GB VRAM for usable speed at 720p.
Lightweight video workflows — CogVideoX-5B, Wan 2.1 1.3B, LTX-Video. Runs on a single RTX 4090.
OpenAI Whisper Large v3 Turbo with faster-whisper backend behind a /transcribe HTTP API. 8× faster than v3, 99 langs, real-time on any GPU.
Multi-model TTS endpoint serving Kokoro 82M (54 voices, 8 langs) and Sesame CSM-1B (conversational with context). REST + WebSocket streaming.
Always installed. PyTorch 2.5 + CUDA 12.4 + Transformers + diffusers + accelerate + bitsandbytes + xformers + flash-attn. The universal AI dev baseline.
VSCode running in your browser, full Python/IPython/extensions. For users who prefer IDE workflow over notebooks.
Combina múltiples stacks en la misma GPU — el script de despliegue resuelve conflictos de dependencias y asigna puertos sin colisiones.
Marca los modelos que necesitas al ordenar y estarán en caché en /root/.cache/huggingface antes de que inicies sesión. 🔒 Los modelos restringidos (Llama, Mistral, Gemma, FLUX-dev, SD 3.5) requieren tu token de HuggingFace (también se solicita al ordenar).
| Modelo | HuggingFace | Tamaño | VRAM mín. | Nivel GPU mín. | Tipo |
|---|---|---|---|---|---|
| Llama 3.3 70B Instruct 🔒 Restringido | meta-llama/Llama-3.3-70B-Instruct |
140 GB | 160 GB | GPU-L | LLM |
| Qwen3 32B | Qwen/Qwen3-32B |
64 GB | 80 GB | GPU-L | LLM |
| Qwen3 14B | Qwen/Qwen3-14B |
28 GB | 32 GB | GPU-S | LLM |
| Qwen3 8B | Qwen/Qwen3-8B |
16 GB | 20 GB | GPU-S | LLM |
| DeepSeek-R1 Distill Qwen 32B | deepseek-ai/DeepSeek-R1-Distill-Qwen-32B |
64 GB | 80 GB | GPU-S | LLM |
| DeepSeek-R1 Distill Llama 70B | deepseek-ai/DeepSeek-R1-Distill-Llama-70B |
140 GB | 160 GB | GPU-S | LLM |
| Mistral Small 3.2 24B (multimodal) | mistralai/Mistral-Small-3.2-24B-Instruct-2506 |
48 GB | 60 GB | GPU-S | LLM |
| Gemma 3 27B (multimodal) 🔒 Restringido | google/gemma-3-27b-it |
54 GB | 64 GB | GPU-L | LLM |
| Gemma 3 12B (multimodal) 🔒 Restringido | google/gemma-3-12b-it |
24 GB | 28 GB | GPU-S | LLM |
| Phi-4 (14B) | microsoft/phi-4 |
28 GB | 32 GB | GPU-S | LLM |
| Phi-4 Mini Instruct (3.8B) | microsoft/Phi-4-mini-instruct |
8 GB | 10 GB | GPU-S | LLM |
| FLUX.1 [dev] 🔒 Restringido | black-forest-labs/FLUX.1-dev |
24 GB | 24 GB | GPU-S | Imagen |
| FLUX.1 [schnell] | black-forest-labs/FLUX.1-schnell |
24 GB | 24 GB | GPU-S | Imagen |
| FLUX.1 Kontext [dev] (image editing) 🔒 Restringido | black-forest-labs/FLUX.1-Kontext-dev |
24 GB | 24 GB | GPU-S | Imagen |
| Stable Diffusion 3.5 Large 🔒 Restringido | stabilityai/stable-diffusion-3.5-large |
16 GB | 18 GB | GPU-S | Imagen |
| Stable Diffusion 3.5 Medium 🔒 Restringido | stabilityai/stable-diffusion-3.5-medium |
5 GB | 10 GB | GPU-S | Imagen |
| HiDream-I1 Full | HiDream-ai/HiDream-I1-Full |
34 GB | 40 GB | GPU-S | Imagen |
| Wan 2.2 T2V A14B | Wan-AI/Wan2.2-T2V-A14B |
28 GB | 40 GB | GPU-S | Video |
| Wan 2.1 T2V 1.3B (low VRAM) | Wan-AI/Wan2.1-T2V-1.3B |
3 GB | 8 GB | GPU-S | Video |
| HunyuanVideo 1.5 (8.3B) | tencent/HunyuanVideo-1.5 |
17 GB | 24 GB | GPU-S | Video |
| LTX-Video 0.9.8 13B | Lightricks/LTX-Video |
26 GB | 24 GB | GPU-S | Video |
| CogVideoX-5B | zai-org/CogVideoX-5b |
10 GB | 16 GB | GPU-S | Video |
| Whisper Large v3 Turbo | openai/whisper-large-v3-turbo |
2 GB | 4 GB | GPU-S | Audio |
| Whisper Large v3 | openai/whisper-large-v3 |
3 GB | 6 GB | GPU-S | Audio |
| Kokoro 82M (TTS) | hexgrad/Kokoro-82M |
1 GB | 2 GB | GPU-S | Audio |
| Sesame CSM-1B (conversational TTS) | sesame/csm-1b |
2 GB | 6 GB | GPU-S | Audio |
| Stable Audio Open 1.0 🔒 Restringido | stabilityai/stable-audio-open-1.0 |
3 GB | 8 GB | GPU-S | Audio |
Los tamaños son pesos FP16. Para RTX 4090 (24 GB VRAM) con modelos de 70B, la variante cuantizada AWQ se descarga en paralelo automáticamente.
Pago solo en cripto, Monero nativo, registro solo con token, stacks de IA preinstalados, modelos HuggingFace predescargados, tokens HF cifrados, endpoints Let's Encrypt automáticos, ancho de banda ilimitado y 100% energía renovable en Islandia — lee la fila "ServPrivacy" y juzga por ti mismo.
| Característica | ServPrivacy | Vast.ai | RunPod | Paperspace | Lambda | TensorDock |
|---|---|---|---|---|---|---|
| Pago solo en cripto | ✅ 14 chains | ⚠️ BTC | ⚠️ Gateway | ❌ | ❌ | ⚠️ BTC/ETH/USDT |
| Monero (XMR) nativo | ✅ | ❌ | ❌ | ❌ | ❌ | ❌ |
| Sin KYC, sin registro por email | ✅ Token-only | ⚠️ Email + ID for trust | ⚠️ Email + payment | ❌ Full KYC | ❌ Enterprise KYC | ⚠️ Email + light KYC |
| Stacks de IA preinstalados | ✅ 17 templates | ⚠️ Docker BYO | ✅ 100+ | ⚠️ Notebooks only | ⚠️ Lambda Stack only | ⚠️ Docker BYO |
| Modelos predescargados al ordenar | ✅ 27 models | ❌ | ❌ | ❌ | ❌ | ❌ |
| Token HuggingFace al ordenar | ✅ Encrypted, used once | ❌ | ❌ | ❌ | ❌ | ❌ |
| Clave SSH al ordenar | ✅ | ✅ | ✅ | ⚠️ | ✅ | ⚠️ |
| Temporizador de apagado automático | ✅ 6h-7d | ✅ | ⚠️ Spot only | ❌ | ❌ | ❌ |
| Endpoint HTTPS público (Let's Encrypt) | ✅ Auto | ⚠️ Manual | ✅ Pods | ✅ | ❌ | ⚠️ Manual |
| Ancho de banda ilimitado | ✅ | ⚠️ Per host | ⚠️ Capped | ⚠️ Capped | ⚠️ Capped | ⚠️ Per host |
| Datacenter con energía renovable | ✅ Iceland 100% geo+hydro | ❌ Variable | ⚠️ US grid | ⚠️ US grid | ⚠️ US grid | ⚠️ Variable |
| Jurisdicción offshore | ✅ IS / NL / RO / MD | ❌ Distributed P2P | ❌ US-centric | ❌ US | ❌ US-only | ⚠️ Multi-region |
| Modo sandbox de prueba en seco | ✅ ?dry_run=1 | ⚠️ Trial credit | ⚠️ Limited | ⚠️ Free GPU tier | ❌ | ❌ |
| Agente IA / MCP primero | ✅ MCP + REST + x402 | ⚠️ REST | ⚠️ REST | ⚠️ REST | ⚠️ REST | ⚠️ REST |
| RTX 4090 entrada / mes | $249 | ~$216 spot | ~$396 on-demand | n/a | n/a | ~$252 spot |
Datos de comparación obtenidos de las páginas públicas de precios y flujos de registro de competidores en 2026-05. Entrada de ServPrivacy RTX 4090 = $249/mes Moldavia; precios "spot" de competidores son tarifas promedio para hardware equivalente.
Passthrough completo de hardware. Obtienes la tarjeta física NVIDIA completa con acceso directo a la VRAM — no un segmento vGPU, no una partición MIG de tiempo compartido. nvidia-smi dentro de tu VM muestra los mismos números que el host bare-metal. Acceso completo al driver, CUDA completo, stack completo de PyTorch / TensorFlow — sin reservas SR-IOV.
Imagen predeterminada: Ubuntu 22.04 + CUDA 12.4 + cuDNN 9 + driver NVIDIA 550. Otras imágenes listas para usar: Ubuntu 24.04 + CUDA 12.6, Ubuntu 22 + PyTorch 2.5, Ubuntu 22 + ComfyUI + Flux, Ubuntu 22 + Ollama + Open WebUI. También se ofrecen Ubuntu / Debian / AlmaLinux / Rocky estándar si quieres instalar tu propio stack. Puedes cambiar las versiones del driver en cualquier momento con root completo.
Sí. Muchos de nuestros clientes GPU ejecutan APIs de inferencia pública sobre vLLM / TGI / FastAPI. Los servidores GPU vienen con root completo, facturación mensual predecible (sin sorpresas por token) y una IP jurisdiccional fija. El ancho de banda es ilimitado en todos los planes GPU, así que puedes servir endpoints públicos de alto tráfico sin vigilar medidores ni pagar cargos por exceso.
Las tarjetas NVIDIA H100, A100 y RTX de alta gama (4090 y superiores) están sujetas a los controles de exportación del Departamento de Comercio de EE. UU. (15 CFR Part 744) y a las regulaciones europeas de doble uso que prohíben su envío a centros de datos en Russia. No las aprovisionamos allí para cumplir con los controles que aplican a nuestra cadena de suministro. Si necesitas Linux VPS o Dedicado offshore en Russia, esas líneas de producto no están afectadas.
Los centros de datos de Iceland funcionan con 100% de energía renovable geotérmica e hidroeléctrica, y la baja temperatura ambiente reduce de forma significativa la sobrecarga de refrigeración en los servidores H100 que consumen 700W cada uno bajo carga sostenida. El resultado es el cómputo GPU offshore con menor huella de carbono en el mercado. El precio premium cubre el mayor costo del centro de datos en Iceland y el uso de energía más limpia — para equipos de IA con criterios ESG, esta es la única respuesta offshore creíble.
Sí — el nivel GPU-XL tiene 2× H100 SXM5 con interconexión NVLink dentro de una misma máquina, ideal para FSDP / DeepSpeed Zero-3 / DDP en el mismo servidor. Para entrenamiento multi-nodo puedes alquilar varios servidores GPU-XL en el mismo centro de datos y conectarlos por el enlace de 10 Gbps. Aún no ofrecemos nodos de clúster 8× H100 — contáctanos si tu proceso de entrenamiento necesita mayor escala.
Elige tu jurisdicción, elige tu GPU NVIDIA, paga con cualquiera de las 14 criptos. JupyterLab en vivo en menos de 60 segundos. Sin KYC, sin email, sin teléfono — solo un token.
Ver planes GPU