Inicio / GPU AI Hosting
RTX 4090 · RTX 5090 · H100 SXM5 · CUDA 12

GPU AI Hosting Offshore

Servidores GPU NVIDIA RTX 4090, RTX 5090 y H100 SXM5 para entrenamiento de IA, inferencia, generación de imágenes y video. CUDA 12 y cuDNN preinstalados, más presets de PyTorch / ComfyUI / Ollama listos para conectarse por SSH. Hosts Threadripper Pro en los niveles H100 para el conteo completo de canales PCIe Gen 5. Disponible en 4 jurisdicciones offshore, sin KYC, pago solo en cripto en 14 cadenas incluyendo Monero.

Sin KYC
Solo cripto
CUDA 12
NVMe SSD
Root completo
Monero accepted
Todos los planes GPU

Planes GPU por ubicación

El mismo hardware NVIDIA en todas las jurisdicciones, con ancho de banda ilimitado en cada plan. Los precios varían por jurisdicción — Iceland es la opción de menor huella de carbono, Moldova la más económica.

Islandia Refugio de libertad de expresión

PlanGPUVRAMCPURAMNVMeAncho de bandaPrecio
IS-S 1× NVIDIA RTX 4090 24 GB GDDR6X 12 vCPU 64 GB DDR5 1 TB NVMe Ilimitado $299/mo Pedir
IS-M Popular 1× NVIDIA RTX 5090 32 GB GDDR7 16 vCPU 96 GB DDR5 1.5 TB NVMe Ilimitado $479/mo Pedir
IS-L 1× NVIDIA H100 SXM5 80 GB HBM3 24 vCPU 192 GB DDR5 2 TB NVMe Ilimitado $1849/mo Pedir
IS-XL 2× NVIDIA H100 SXM5 160 GB HBM3 32 vCPU 384 GB DDR5 4 TB NVMe Ilimitado $3499/mo Pedir

Moldavia Offshore económico

PlanGPUVRAMCPURAMNVMeAncho de bandaPrecio
MD-S 1× NVIDIA RTX 4090 24 GB GDDR6X 12 vCPU 64 GB DDR5 1 TB NVMe Ilimitado $249/mo Pedir
MD-M Popular 1× NVIDIA RTX 5090 32 GB GDDR7 16 vCPU 96 GB DDR5 1.5 TB NVMe Ilimitado $399/mo Pedir
MD-L 1× NVIDIA H100 SXM5 80 GB HBM3 24 vCPU 192 GB DDR5 2 TB NVMe Ilimitado $1699/mo Pedir
MD-XL 2× NVIDIA H100 SXM5 160 GB HBM3 32 vCPU 384 GB DDR5 4 TB NVMe Ilimitado $3199/mo Pedir

Rumanía Anti-retención

PlanGPUVRAMCPURAMNVMeAncho de bandaPrecio
RO-S 1× NVIDIA RTX 4090 24 GB GDDR6X 12 vCPU 64 GB DDR5 1 TB NVMe Ilimitado $269/mo Pedir
RO-M Popular 1× NVIDIA RTX 5090 32 GB GDDR7 16 vCPU 96 GB DDR5 1.5 TB NVMe Ilimitado $429/mo Pedir
RO-L 1× NVIDIA H100 SXM5 80 GB HBM3 24 vCPU 192 GB DDR5 2 TB NVMe Ilimitado $1749/mo Pedir
RO-XL 2× NVIDIA H100 SXM5 160 GB HBM3 32 vCPU 384 GB DDR5 4 TB NVMe Ilimitado $3299/mo Pedir

Países Bajos Mejor peering

PlanGPUVRAMCPURAMNVMeAncho de bandaPrecio
NL-S 1× NVIDIA RTX 4090 24 GB GDDR6X 12 vCPU 64 GB DDR5 1 TB NVMe Ilimitado $279/mo Pedir
NL-M Popular 1× NVIDIA RTX 5090 32 GB GDDR7 16 vCPU 96 GB DDR5 1.5 TB NVMe Ilimitado $449/mo Pedir
NL-L 1× NVIDIA H100 SXM5 80 GB HBM3 24 vCPU 192 GB DDR5 2 TB NVMe Ilimitado $1799/mo Pedir
NL-XL 2× NVIDIA H100 SXM5 160 GB HBM3 32 vCPU 384 GB DDR5 4 TB NVMe Ilimitado $3399/mo Pedir

El hosting GPU está disponible en 4 jurisdicciones al lanzamiento (Iceland, Netherlands, Romania, Moldova). Russia está excluida por las sanciones de exportación de NVIDIA; Switzerland y Panama se mantienen solo con Linux por ahora.

Incluido en cada servidor GPU

CUDA 12

CUDA 12.4/12.6 + cuDNN preinstalados. Arranca, conéctate por SSH, ejecuta nvidia-smi.

Despliegue en 60 segundos

Del pedido pagado al resultado de nvidia-smi en menos de 60 segundos.

NVMe SSD

Hasta 4 TB NVMe SSD, junto con RAM DDR5 para I/O rápido de conjuntos de datos.

SSH + Jupyter

SSH con root completo, más JupyterLab preconfigurado en el puerto 8888 con autenticación por token.

Casos de uso

What GPU AI Hosting is Used For

Finetuning e inferencia de LLM

Finetuning de Llama, Mistral, Qwen, DeepSeek con LoRA / QLoRA / FT completo en H100. O inferencia auto-hospedada con vLLM / TGI / Ollama para serving de modelos en producción.

Generación de imágenes

Stable Diffusion, FLUX.1, SDXL con ComfyUI o Forge. Entrena tu propio LoRA, genera en lote a escala o auto-hospeda un endpoint de inferencia.

Generación de video con IA

OpenSora, CogVideoX, Wan-2.1, AnimateDiff. La generación de video exige mucha VRAM — empieza con RTX 5090 (32 GB) o H100 (80 GB).

Inferencia en producción

Despliega modelos ajustados detrás de tu propia API. Costos predecibles, sin cobros por token, sin datos saliendo de tu jurisdicción. JupyterLab + FastAPI incluidos.

Despliegue en 1 clic

Plantillas de IA preinstaladas

Marca cualquiera de estas al ordenar y tu servidor GPU arranca con el stack ya instalado, configurado e iniciado vía systemd. Agrega modelos predescargados abajo para omitir también la descarga de HuggingFace de 30-60 min.

Inferencia LLM

vLLM (OpenAI-compatible)

Production-grade LLM serving with continuous batching and paged attention. Exposes an /v1/completions endpoint compatible with the OpenAI SDK.

LLMOpenAI APIproduction +
Inferencia LLM

Ollama + Open WebUI

Self-hosted ChatGPT-style web UI. Pulls Ollama-native quantized weights; easiest path to "talk to my LLM in a browser".

LLMchat UIbeginner +
Inferencia LLM

text-generation-webui (Oobabooga)

Gradio UI with broad backend support — Transformers, ExLlamaV2, llama.cpp, AWQ, GPTQ. Power-user choice for benchmarking quantizations.

LLMmulti-backendpower user +
Inferencia LLM

HuggingFace TGI

HuggingFace Text Generation Inference — production server with token streaming, tensor parallelism, paged attention.

LLMproductionHuggingFace +
Finetuning

Axolotl (LLM finetuning)

YAML-config driven finetuning. Supports LoRA, QLoRA, full FT, DPO, ORPO. Pre-cloned to /opt/axolotl with starter configs for Llama / Qwen / Mistral.

finetuneLoRAQLoRA +
Finetuning

Unsloth (2× faster finetune)

2× faster + 70% less VRAM finetuning via custom Triton kernels. Ideal for budget runs on RTX 4090. Pre-installed in /opt/unsloth.

finetunefastlow VRAM +
Finetuning

LLaMA-Factory

WebUI-driven finetuning platform. SFT / RLHF / DPO / KTO. Good entry point for non-coders who want to finetune on a UI.

finetuneGUI +
Generación de imágenes

ComfyUI + FLUX.1

Node-graph image-gen interface, ships with FLUX.1-schnell + Kontext workflows. Power-user image generation pipeline.

imageFLUXworkflow +
Generación de imágenes

Automatic1111 + SD 3.5

The mainstream Stable Diffusion WebUI. Stable Diffusion 3.5 + extensions ecosystem. Familiar UI for users coming from civitai.

imageSD 3.5 +
Generación de imágenes

Forge (faster A1111)

A1111 fork optimized for FLUX, faster sampling, lower VRAM. Drop-in replacement for users coming from Auto1111.

imageFLUXfast +
Generación de imágenes

Kohya SS (LoRA training)

GUI for training Stable Diffusion / FLUX LoRA, DreamBooth, textual inversion. Trains a custom-style LoRA on RTX 4090 in 30-90 min.

LoRA trainingimageGUI +
Video con IA

ComfyUI + Wan 2.2 / HunyuanVideo

ComfyUI with video-gen workflows preloaded — Wan 2.2 T2V, HunyuanVideo, LTX-Video. Needs 40+ GB VRAM for usable speed at 720p.

videoWan 2.2HunyuanVideo +
Video con IA

ComfyUI Video Lite (CogVideoX / LTX)

Lightweight video workflows — CogVideoX-5B, Wan 2.1 1.3B, LTX-Video. Runs on a single RTX 4090.

videoCogVideoXlow VRAM +
Audio

Whisper Large v3 Turbo server

OpenAI Whisper Large v3 Turbo with faster-whisper backend behind a /transcribe HTTP API. 8× faster than v3, 99 langs, real-time on any GPU.

audiospeech-to-textAPI +
Audio

TTS server (Kokoro + CSM-1B)

Multi-model TTS endpoint serving Kokoro 82M (54 voices, 8 langs) and Sesame CSM-1B (conversational with context). REST + WebSocket streaming.

audiotext-to-speechAPI +
Notebooks y Dev

JupyterLab + PyTorch baseline

Always installed. PyTorch 2.5 + CUDA 12.4 + Transformers + diffusers + accelerate + bitsandbytes + xformers + flash-attn. The universal AI dev baseline.

notebookbaselinealways-on +
Notebooks y Dev

code-server (VSCode in browser)

VSCode running in your browser, full Python/IPython/extensions. For users who prefer IDE workflow over notebooks.

IDEVSCodedev +

Combina múltiples stacks en la misma GPU — el script de despliegue resuelve conflictos de dependencias y asigna puertos sin colisiones.

Omite la descarga

Modelos open-weight predescargados

Marca los modelos que necesitas al ordenar y estarán en caché en /root/.cache/huggingface antes de que inicies sesión. 🔒 Los modelos restringidos (Llama, Mistral, Gemma, FLUX-dev, SD 3.5) requieren tu token de HuggingFace (también se solicita al ordenar).

Modelo HuggingFace Tamaño VRAM mín. Nivel GPU mín. Tipo
Llama 3.3 70B Instruct 🔒 Restringido meta-llama/Llama-3.3-70B-Instruct 140 GB 160 GB GPU-L LLM
Qwen3 32B Qwen/Qwen3-32B 64 GB 80 GB GPU-L LLM
Qwen3 14B Qwen/Qwen3-14B 28 GB 32 GB GPU-S LLM
Qwen3 8B Qwen/Qwen3-8B 16 GB 20 GB GPU-S LLM
DeepSeek-R1 Distill Qwen 32B deepseek-ai/DeepSeek-R1-Distill-Qwen-32B 64 GB 80 GB GPU-S LLM
DeepSeek-R1 Distill Llama 70B deepseek-ai/DeepSeek-R1-Distill-Llama-70B 140 GB 160 GB GPU-S LLM
Mistral Small 3.2 24B (multimodal) mistralai/Mistral-Small-3.2-24B-Instruct-2506 48 GB 60 GB GPU-S LLM
Gemma 3 27B (multimodal) 🔒 Restringido google/gemma-3-27b-it 54 GB 64 GB GPU-L LLM
Gemma 3 12B (multimodal) 🔒 Restringido google/gemma-3-12b-it 24 GB 28 GB GPU-S LLM
Phi-4 (14B) microsoft/phi-4 28 GB 32 GB GPU-S LLM
Phi-4 Mini Instruct (3.8B) microsoft/Phi-4-mini-instruct 8 GB 10 GB GPU-S LLM
FLUX.1 [dev] 🔒 Restringido black-forest-labs/FLUX.1-dev 24 GB 24 GB GPU-S Imagen
FLUX.1 [schnell] black-forest-labs/FLUX.1-schnell 24 GB 24 GB GPU-S Imagen
FLUX.1 Kontext [dev] (image editing) 🔒 Restringido black-forest-labs/FLUX.1-Kontext-dev 24 GB 24 GB GPU-S Imagen
Stable Diffusion 3.5 Large 🔒 Restringido stabilityai/stable-diffusion-3.5-large 16 GB 18 GB GPU-S Imagen
Stable Diffusion 3.5 Medium 🔒 Restringido stabilityai/stable-diffusion-3.5-medium 5 GB 10 GB GPU-S Imagen
HiDream-I1 Full HiDream-ai/HiDream-I1-Full 34 GB 40 GB GPU-S Imagen
Wan 2.2 T2V A14B Wan-AI/Wan2.2-T2V-A14B 28 GB 40 GB GPU-S Video
Wan 2.1 T2V 1.3B (low VRAM) Wan-AI/Wan2.1-T2V-1.3B 3 GB 8 GB GPU-S Video
HunyuanVideo 1.5 (8.3B) tencent/HunyuanVideo-1.5 17 GB 24 GB GPU-S Video
LTX-Video 0.9.8 13B Lightricks/LTX-Video 26 GB 24 GB GPU-S Video
CogVideoX-5B zai-org/CogVideoX-5b 10 GB 16 GB GPU-S Video
Whisper Large v3 Turbo openai/whisper-large-v3-turbo 2 GB 4 GB GPU-S Audio
Whisper Large v3 openai/whisper-large-v3 3 GB 6 GB GPU-S Audio
Kokoro 82M (TTS) hexgrad/Kokoro-82M 1 GB 2 GB GPU-S Audio
Sesame CSM-1B (conversational TTS) sesame/csm-1b 2 GB 6 GB GPU-S Audio
Stable Audio Open 1.0 🔒 Restringido stabilityai/stable-audio-open-1.0 3 GB 8 GB GPU-S Audio

Los tamaños son pesos FP16. Para RTX 4090 (24 GB VRAM) con modelos de 70B, la variante cuantizada AWQ se descarga en paralelo automáticamente.

Cómo nos comparamos

ServPrivacy vs Vast.ai · RunPod · Paperspace · Lambda Labs · TensorDock

Pago solo en cripto, Monero nativo, registro solo con token, stacks de IA preinstalados, modelos HuggingFace predescargados, tokens HF cifrados, endpoints Let's Encrypt automáticos, ancho de banda ilimitado y 100% energía renovable en Islandia — lee la fila "ServPrivacy" y juzga por ti mismo.

Característica ServPrivacy Vast.ai RunPod Paperspace Lambda TensorDock
Pago solo en cripto ✅ 14 chains⚠️ BTC⚠️ Gateway⚠️ BTC/ETH/USDT
Monero (XMR) nativo
Sin KYC, sin registro por email ✅ Token-only⚠️ Email + ID for trust⚠️ Email + payment❌ Full KYC❌ Enterprise KYC⚠️ Email + light KYC
Stacks de IA preinstalados ✅ 17 templates⚠️ Docker BYO✅ 100+⚠️ Notebooks only⚠️ Lambda Stack only⚠️ Docker BYO
Modelos predescargados al ordenar ✅ 27 models
Token HuggingFace al ordenar ✅ Encrypted, used once
Clave SSH al ordenar ⚠️⚠️
Temporizador de apagado automático ✅ 6h-7d⚠️ Spot only
Endpoint HTTPS público (Let's Encrypt) ✅ Auto⚠️ Manual✅ Pods⚠️ Manual
Ancho de banda ilimitado ⚠️ Per host⚠️ Capped⚠️ Capped⚠️ Capped⚠️ Per host
Datacenter con energía renovable ✅ Iceland 100% geo+hydro❌ Variable⚠️ US grid⚠️ US grid⚠️ US grid⚠️ Variable
Jurisdicción offshore ✅ IS / NL / RO / MD❌ Distributed P2P❌ US-centric❌ US❌ US-only⚠️ Multi-region
Modo sandbox de prueba en seco ✅ ?dry_run=1⚠️ Trial credit⚠️ Limited⚠️ Free GPU tier
Agente IA / MCP primero ✅ MCP + REST + x402⚠️ REST⚠️ REST⚠️ REST⚠️ REST⚠️ REST
RTX 4090 entrada / mes $249~$216 spot~$396 on-demandn/an/a~$252 spot

Datos de comparación obtenidos de las páginas públicas de precios y flujos de registro de competidores en 2026-05. Entrada de ServPrivacy RTX 4090 = $249/mes Moldavia; precios "spot" de competidores son tarifas promedio para hardware equivalente.

Preguntas frecuentes

Preguntas frecuentes sobre GPU AI Hosting

01 ¿La GPU se asigna con acceso completo al hardware o es compartida / dividida en vGPU?

Passthrough completo de hardware. Obtienes la tarjeta física NVIDIA completa con acceso directo a la VRAM — no un segmento vGPU, no una partición MIG de tiempo compartido. nvidia-smi dentro de tu VM muestra los mismos números que el host bare-metal. Acceso completo al driver, CUDA completo, stack completo de PyTorch / TensorFlow — sin reservas SR-IOV.

02 ¿Qué versiones de CUDA / driver vienen preinstaladas?

Imagen predeterminada: Ubuntu 22.04 + CUDA 12.4 + cuDNN 9 + driver NVIDIA 550. Otras imágenes listas para usar: Ubuntu 24.04 + CUDA 12.6, Ubuntu 22 + PyTorch 2.5, Ubuntu 22 + ComfyUI + Flux, Ubuntu 22 + Ollama + Open WebUI. También se ofrecen Ubuntu / Debian / AlmaLinux / Rocky estándar si quieres instalar tu propio stack. Puedes cambiar las versiones del driver en cualquier momento con root completo.

03 ¿Puedo ejecutar la inferencia en producción de mi startup de IA en estas GPUs?

Sí. Muchos de nuestros clientes GPU ejecutan APIs de inferencia pública sobre vLLM / TGI / FastAPI. Los servidores GPU vienen con root completo, facturación mensual predecible (sin sorpresas por token) y una IP jurisdiccional fija. El ancho de banda es ilimitado en todos los planes GPU, así que puedes servir endpoints públicos de alto tráfico sin vigilar medidores ni pagar cargos por exceso.

04 ¿Por qué Russia está excluida de las ubicaciones GPU?

Las tarjetas NVIDIA H100, A100 y RTX de alta gama (4090 y superiores) están sujetas a los controles de exportación del Departamento de Comercio de EE. UU. (15 CFR Part 744) y a las regulaciones europeas de doble uso que prohíben su envío a centros de datos en Russia. No las aprovisionamos allí para cumplir con los controles que aplican a nuestra cadena de suministro. Si necesitas Linux VPS o Dedicado offshore en Russia, esas líneas de producto no están afectadas.

05 ¿Por qué Iceland se posiciona como la ubicación GPU premium?

Los centros de datos de Iceland funcionan con 100% de energía renovable geotérmica e hidroeléctrica, y la baja temperatura ambiente reduce de forma significativa la sobrecarga de refrigeración en los servidores H100 que consumen 700W cada uno bajo carga sostenida. El resultado es el cómputo GPU offshore con menor huella de carbono en el mercado. El precio premium cubre el mayor costo del centro de datos en Iceland y el uso de energía más limpia — para equipos de IA con criterios ESG, esta es la única respuesta offshore creíble.

06 ¿Puedo usar múltiples GPUs en entrenamiento distribuido (DDP / FSDP)?

Sí — el nivel GPU-XL tiene 2× H100 SXM5 con interconexión NVLink dentro de una misma máquina, ideal para FSDP / DeepSpeed Zero-3 / DDP en el mismo servidor. Para entrenamiento multi-nodo puedes alquilar varios servidores GPU-XL en el mismo centro de datos y conectarlos por el enlace de 10 Gbps. Aún no ofrecemos nodos de clúster 8× H100 — contáctanos si tu proceso de entrenamiento necesita mayor escala.

Despliega tu servidor GPU offshore

Elige tu jurisdicción, elige tu GPU NVIDIA, paga con cualquiera de las 14 criptos. JupyterLab en vivo en menos de 60 segundos. Sin KYC, sin email, sin teléfono — solo un token.

Ver planes GPU