Inicio / GPU AI Hosting

RTX 4090 · RTX 5090 · H100 SXM5 · CUDA 12

GPU AI Hosting Offshore

Name: Offshore GPU AI Hosting
Brand: ServPrivacy
Availability: InStock

Servidores GPU NVIDIA RTX 4090, RTX 5090 y H100 SXM5 para entrenamiento de IA, inferencia, generación de imágenes y video. CUDA 12 y cuDNN preinstalados, más presets de PyTorch / ComfyUI / Ollama listos para conectarse por SSH. Hosts Threadripper Pro en los niveles H100 para el conteo completo de canales PCIe Gen 5. Disponible en 4 jurisdicciones offshore, sin KYC, pago solo en cripto en 14 cadenas incluyendo Monero.

Ver planes GPU Servidores Dedicados

Incluido en cada servidor GPU

Hardware NVIDIA, passthrough completo
CUDA 12 + cuDNN preinstalados
Hosts Threadripper / Ryzen 9
NVMe SSD & DDR5
Despliegue en 60 segundos
14 criptomonedas aceptadas incluyendo Monero

Sin KYC

Solo cripto

CUDA 12

NVMe SSD

Root completo

Monero accepted

Todos los planes GPU

Planes GPU por ubicación

El mismo hardware NVIDIA en todas las jurisdicciones, con ancho de banda ilimitado en cada plan. Los precios varían por jurisdicción — Iceland es la opción de menor huella de carbono, Moldova la más económica.

Islandia Refugio de libertad de expresión

Plan	GPU	VRAM	CPU	RAM	NVMe	Ancho de banda	Precio
IS-S	1× NVIDIA RTX 4090	24 GB GDDR6X	12 vCPU	64 GB DDR5	1 TB NVMe	Ilimitado	$299/mo	Pedir
IS-M Popular	1× NVIDIA RTX 5090	32 GB GDDR7	16 vCPU	96 GB DDR5	1.5 TB NVMe	Ilimitado	$479/mo	Pedir
IS-L	1× NVIDIA H100 SXM5	80 GB HBM3	24 vCPU	192 GB DDR5	2 TB NVMe	Ilimitado	$1849/mo	Pedir
IS-XL	2× NVIDIA H100 SXM5	160 GB HBM3	32 vCPU	384 GB DDR5	4 TB NVMe	Ilimitado	$3499/mo	Pedir

Moldavia Offshore económico

Plan	GPU	VRAM	CPU	RAM	NVMe	Ancho de banda	Precio
MD-S	1× NVIDIA RTX 4090	24 GB GDDR6X	12 vCPU	64 GB DDR5	1 TB NVMe	Ilimitado	$249/mo	Pedir
MD-M Popular	1× NVIDIA RTX 5090	32 GB GDDR7	16 vCPU	96 GB DDR5	1.5 TB NVMe	Ilimitado	$399/mo	Pedir
MD-L	1× NVIDIA H100 SXM5	80 GB HBM3	24 vCPU	192 GB DDR5	2 TB NVMe	Ilimitado	$1699/mo	Pedir
MD-XL	2× NVIDIA H100 SXM5	160 GB HBM3	32 vCPU	384 GB DDR5	4 TB NVMe	Ilimitado	$3199/mo	Pedir

Rumanía Anti-retención

Plan	GPU	VRAM	CPU	RAM	NVMe	Ancho de banda	Precio
RO-S	1× NVIDIA RTX 4090	24 GB GDDR6X	12 vCPU	64 GB DDR5	1 TB NVMe	Ilimitado	$269/mo	Pedir
RO-M Popular	1× NVIDIA RTX 5090	32 GB GDDR7	16 vCPU	96 GB DDR5	1.5 TB NVMe	Ilimitado	$429/mo	Pedir
RO-L	1× NVIDIA H100 SXM5	80 GB HBM3	24 vCPU	192 GB DDR5	2 TB NVMe	Ilimitado	$1749/mo	Pedir
RO-XL	2× NVIDIA H100 SXM5	160 GB HBM3	32 vCPU	384 GB DDR5	4 TB NVMe	Ilimitado	$3299/mo	Pedir

Países Bajos Mejor peering

Plan	GPU	VRAM	CPU	RAM	NVMe	Ancho de banda	Precio
NL-S	1× NVIDIA RTX 4090	24 GB GDDR6X	12 vCPU	64 GB DDR5	1 TB NVMe	Ilimitado	$279/mo	Pedir
NL-M Popular	1× NVIDIA RTX 5090	32 GB GDDR7	16 vCPU	96 GB DDR5	1.5 TB NVMe	Ilimitado	$449/mo	Pedir
NL-L	1× NVIDIA H100 SXM5	80 GB HBM3	24 vCPU	192 GB DDR5	2 TB NVMe	Ilimitado	$1799/mo	Pedir
NL-XL	2× NVIDIA H100 SXM5	160 GB HBM3	32 vCPU	384 GB DDR5	4 TB NVMe	Ilimitado	$3399/mo	Pedir

El hosting GPU está disponible en 4 jurisdicciones al lanzamiento (Iceland, Netherlands, Romania, Moldova). Russia está excluida por las sanciones de exportación de NVIDIA; Switzerland y Panama se mantienen solo con Linux por ahora.

Incluido en cada servidor GPU

CUDA 12

CUDA 12.4/12.6 + cuDNN preinstalados. Arranca, conéctate por SSH, ejecuta nvidia-smi.

Despliegue en 60 segundos

Del pedido pagado al resultado de nvidia-smi en menos de 60 segundos.

NVMe SSD

Hasta 4 TB NVMe SSD, junto con RAM DDR5 para I/O rápido de conjuntos de datos.

SSH + Jupyter

SSH con root completo, más JupyterLab preconfigurado en el puerto 8888 con autenticación por token.

Casos de uso

What GPU AI Hosting is Used For

Finetuning e inferencia de LLM

Finetuning de Llama, Mistral, Qwen, DeepSeek con LoRA / QLoRA / FT completo en H100. O inferencia auto-hospedada con vLLM / TGI / Ollama para serving de modelos en producción.

Generación de imágenes

Stable Diffusion, FLUX.1, SDXL con ComfyUI o Forge. Entrena tu propio LoRA, genera en lote a escala o auto-hospeda un endpoint de inferencia.

Generación de video con IA

OpenSora, CogVideoX, Wan-2.1, AnimateDiff. La generación de video exige mucha VRAM — empieza con RTX 5090 (32 GB) o H100 (80 GB).

Inferencia en producción

Despliega modelos ajustados detrás de tu propia API. Costos predecibles, sin cobros por token, sin datos saliendo de tu jurisdicción. JupyterLab + FastAPI incluidos.

Despliegue en 1 clic

Plantillas de IA preinstaladas

Marca cualquiera de estas al ordenar y tu servidor GPU arranca con el stack ya instalado, configurado e iniciado vía systemd. Agrega modelos predescargados abajo para omitir también la descarga de HuggingFace de 30-60 min.

Inferencia LLM

vLLM (OpenAI-compatible)

Production-grade LLM serving with continuous batching and paged attention. Exposes an /v1/completions endpoint compatible with the OpenAI SDK.

LLMOpenAI APIproduction +

Inferencia LLM

Ollama + Open WebUI

Self-hosted ChatGPT-style web UI. Pulls Ollama-native quantized weights; easiest path to "talk to my LLM in a browser".

LLMchat UIbeginner +

Inferencia LLM

text-generation-webui (Oobabooga)

Gradio UI with broad backend support — Transformers, ExLlamaV2, llama.cpp, AWQ, GPTQ. Power-user choice for benchmarking quantizations.

LLMmulti-backendpower user +

Inferencia LLM

HuggingFace TGI

HuggingFace Text Generation Inference — production server with token streaming, tensor parallelism, paged attention.

LLMproductionHuggingFace +

Finetuning

Axolotl (LLM finetuning)

YAML-config driven finetuning. Supports LoRA, QLoRA, full FT, DPO, ORPO. Pre-cloned to /opt/axolotl with starter configs for Llama / Qwen / Mistral.

finetuneLoRAQLoRA +

Finetuning

Unsloth (2× faster finetune)

2× faster + 70% less VRAM finetuning via custom Triton kernels. Ideal for budget runs on RTX 4090. Pre-installed in /opt/unsloth.

finetunefastlow VRAM +

Finetuning

LLaMA-Factory

WebUI-driven finetuning platform. SFT / RLHF / DPO / KTO. Good entry point for non-coders who want to finetune on a UI.

finetuneGUI +

Generación de imágenes

ComfyUI + FLUX.1

Node-graph image-gen interface, ships with FLUX.1-schnell + Kontext workflows. Power-user image generation pipeline.

imageFLUXworkflow +

Generación de imágenes

Automatic1111 + SD 3.5

The mainstream Stable Diffusion WebUI. Stable Diffusion 3.5 + extensions ecosystem. Familiar UI for users coming from civitai.

imageSD 3.5 +

Generación de imágenes

Forge (faster A1111)

A1111 fork optimized for FLUX, faster sampling, lower VRAM. Drop-in replacement for users coming from Auto1111.

imageFLUXfast +

Generación de imágenes

Kohya SS (LoRA training)

GUI for training Stable Diffusion / FLUX LoRA, DreamBooth, textual inversion. Trains a custom-style LoRA on RTX 4090 in 30-90 min.

LoRA trainingimageGUI +

Video con IA

ComfyUI + Wan 2.2 / HunyuanVideo

ComfyUI with video-gen workflows preloaded — Wan 2.2 T2V, HunyuanVideo, LTX-Video. Needs 40+ GB VRAM for usable speed at 720p.

videoWan 2.2HunyuanVideo +

Video con IA

ComfyUI Video Lite (CogVideoX / LTX)

Lightweight video workflows — CogVideoX-5B, Wan 2.1 1.3B, LTX-Video. Runs on a single RTX 4090.

videoCogVideoXlow VRAM +

Audio

Whisper Large v3 Turbo server

OpenAI Whisper Large v3 Turbo with faster-whisper backend behind a /transcribe HTTP API. 8× faster than v3, 99 langs, real-time on any GPU.

audiospeech-to-textAPI +

Audio

TTS server (Kokoro + CSM-1B)

Multi-model TTS endpoint serving Kokoro 82M (54 voices, 8 langs) and Sesame CSM-1B (conversational with context). REST + WebSocket streaming.

audiotext-to-speechAPI +

Notebooks y Dev

JupyterLab + PyTorch baseline

Always installed. PyTorch 2.5 + CUDA 12.4 + Transformers + diffusers + accelerate + bitsandbytes + xformers + flash-attn. The universal AI dev baseline.

notebookbaselinealways-on +

Notebooks y Dev

code-server (VSCode in browser)

VSCode running in your browser, full Python/IPython/extensions. For users who prefer IDE workflow over notebooks.

IDEVSCodedev +

Combina múltiples stacks en la misma GPU — el script de despliegue resuelve conflictos de dependencias y asigna puertos sin colisiones.

Omite la descarga

Modelos open-weight predescargados

Marca los modelos que necesitas al ordenar y estarán en caché en /root/.cache/huggingface antes de que inicies sesión. 🔒 Los modelos restringidos (Llama, Mistral, Gemma, FLUX-dev, SD 3.5) requieren tu token de HuggingFace (también se solicita al ordenar).

Modelo	HuggingFace	Tamaño	VRAM mín.	Nivel GPU mín.	Tipo
Llama 3.3 70B Instruct 🔒 Restringido	`meta-llama/Llama-3.3-70B-Instruct`	140 GB	160 GB	GPU-L	LLM
Qwen3 32B	`Qwen/Qwen3-32B`	64 GB	80 GB	GPU-L	LLM
Qwen3 14B	`Qwen/Qwen3-14B`	28 GB	32 GB	GPU-S	LLM
Qwen3 8B	`Qwen/Qwen3-8B`	16 GB	20 GB	GPU-S	LLM
DeepSeek-R1 Distill Qwen 32B	`deepseek-ai/DeepSeek-R1-Distill-Qwen-32B`	64 GB	80 GB	GPU-S	LLM
DeepSeek-R1 Distill Llama 70B	`deepseek-ai/DeepSeek-R1-Distill-Llama-70B`	140 GB	160 GB	GPU-S	LLM
Mistral Small 3.2 24B (multimodal)	`mistralai/Mistral-Small-3.2-24B-Instruct-2506`	48 GB	60 GB	GPU-S	LLM
Gemma 3 27B (multimodal) 🔒 Restringido	`google/gemma-3-27b-it`	54 GB	64 GB	GPU-L	LLM
Gemma 3 12B (multimodal) 🔒 Restringido	`google/gemma-3-12b-it`	24 GB	28 GB	GPU-S	LLM
Phi-4 (14B)	`microsoft/phi-4`	28 GB	32 GB	GPU-S	LLM
Phi-4 Mini Instruct (3.8B)	`microsoft/Phi-4-mini-instruct`	8 GB	10 GB	GPU-S	LLM
FLUX.1 [dev] 🔒 Restringido	`black-forest-labs/FLUX.1-dev`	24 GB	24 GB	GPU-S	Imagen
FLUX.1 [schnell]	`black-forest-labs/FLUX.1-schnell`	24 GB	24 GB	GPU-S	Imagen
FLUX.1 Kontext [dev] (image editing) 🔒 Restringido	`black-forest-labs/FLUX.1-Kontext-dev`	24 GB	24 GB	GPU-S	Imagen
Stable Diffusion 3.5 Large 🔒 Restringido	`stabilityai/stable-diffusion-3.5-large`	16 GB	18 GB	GPU-S	Imagen
Stable Diffusion 3.5 Medium 🔒 Restringido	`stabilityai/stable-diffusion-3.5-medium`	5 GB	10 GB	GPU-S	Imagen
HiDream-I1 Full	`HiDream-ai/HiDream-I1-Full`	34 GB	40 GB	GPU-S	Imagen
Wan 2.2 T2V A14B	`Wan-AI/Wan2.2-T2V-A14B`	28 GB	40 GB	GPU-S	Video
Wan 2.1 T2V 1.3B (low VRAM)	`Wan-AI/Wan2.1-T2V-1.3B`	3 GB	8 GB	GPU-S	Video
HunyuanVideo 1.5 (8.3B)	`tencent/HunyuanVideo-1.5`	17 GB	24 GB	GPU-S	Video
LTX-Video 0.9.8 13B	`Lightricks/LTX-Video`	26 GB	24 GB	GPU-S	Video
CogVideoX-5B	`zai-org/CogVideoX-5b`	10 GB	16 GB	GPU-S	Video
Whisper Large v3 Turbo	`openai/whisper-large-v3-turbo`	2 GB	4 GB	GPU-S	Audio
Whisper Large v3	`openai/whisper-large-v3`	3 GB	6 GB	GPU-S	Audio
Kokoro 82M (TTS)	`hexgrad/Kokoro-82M`	1 GB	2 GB	GPU-S	Audio
Sesame CSM-1B (conversational TTS)	`sesame/csm-1b`	2 GB	6 GB	GPU-S	Audio
Stable Audio Open 1.0 🔒 Restringido	`stabilityai/stable-audio-open-1.0`	3 GB	8 GB	GPU-S	Audio

Los tamaños son pesos FP16. Para RTX 4090 (24 GB VRAM) con modelos de 70B, la variante cuantizada AWQ se descarga en paralelo automáticamente.

Cómo nos comparamos

ServPrivacy vs Vast.ai · RunPod · Paperspace · Lambda Labs · TensorDock

Pago solo en cripto, Monero nativo, registro solo con token, stacks de IA preinstalados, modelos HuggingFace predescargados, tokens HF cifrados, endpoints Let's Encrypt automáticos, ancho de banda ilimitado y 100% energía renovable en Islandia — lee la fila "ServPrivacy" y juzga por ti mismo.

Característica	ServPrivacy	Vast.ai	RunPod	Paperspace	Lambda	TensorDock
Pago solo en cripto	✅ 14 chains	⚠️ BTC	⚠️ Gateway	❌	❌	⚠️ BTC/ETH/USDT
Monero (XMR) nativo	✅	❌	❌	❌	❌	❌
Sin KYC, sin registro por email	✅ Token-only	⚠️ Email + ID for trust	⚠️ Email + payment	❌ Full KYC	❌ Enterprise KYC	⚠️ Email + light KYC
Stacks de IA preinstalados	✅ 17 templates	⚠️ Docker BYO	✅ 100+	⚠️ Notebooks only	⚠️ Lambda Stack only	⚠️ Docker BYO
Modelos predescargados al ordenar	✅ 27 models	❌	❌	❌	❌	❌
Token HuggingFace al ordenar	✅ Encrypted, used once	❌	❌	❌	❌	❌
Clave SSH al ordenar	✅	✅	✅	⚠️	✅	⚠️
Temporizador de apagado automático	✅ 6h-7d	✅	⚠️ Spot only	❌	❌	❌
Endpoint HTTPS público (Let's Encrypt)	✅ Auto	⚠️ Manual	✅ Pods	✅	❌	⚠️ Manual
Ancho de banda ilimitado	✅	⚠️ Per host	⚠️ Capped	⚠️ Capped	⚠️ Capped	⚠️ Per host
Datacenter con energía renovable	✅ Iceland 100% geo+hydro	❌ Variable	⚠️ US grid	⚠️ US grid	⚠️ US grid	⚠️ Variable
Jurisdicción offshore	✅ IS / NL / RO / MD	❌ Distributed P2P	❌ US-centric	❌ US	❌ US-only	⚠️ Multi-region
Modo sandbox de prueba en seco	✅ ?dry_run=1	⚠️ Trial credit	⚠️ Limited	⚠️ Free GPU tier	❌	❌
Agente IA / MCP primero	✅ MCP + REST + x402	⚠️ REST	⚠️ REST	⚠️ REST	⚠️ REST	⚠️ REST
RTX 4090 entrada / mes	$249	~$216 spot	~$396 on-demand	n/a	n/a	~$252 spot

Datos de comparación obtenidos de las páginas públicas de precios y flujos de registro de competidores en 2026-05. Entrada de ServPrivacy RTX 4090 = $249/mes Moldavia; precios "spot" de competidores son tarifas promedio para hardware equivalente.

Preguntas frecuentes

Preguntas frecuentes sobre GPU AI Hosting

01 ¿La GPU se asigna con acceso completo al hardware o es compartida / dividida en vGPU?

Passthrough completo de hardware. Obtienes la tarjeta física NVIDIA completa con acceso directo a la VRAM — no un segmento vGPU, no una partición MIG de tiempo compartido. nvidia-smi dentro de tu VM muestra los mismos números que el host bare-metal. Acceso completo al driver, CUDA completo, stack completo de PyTorch / TensorFlow — sin reservas SR-IOV.

02 ¿Qué versiones de CUDA / driver vienen preinstaladas?

Imagen predeterminada: Ubuntu 22.04 + CUDA 12.4 + cuDNN 9 + driver NVIDIA 550. Otras imágenes listas para usar: Ubuntu 24.04 + CUDA 12.6, Ubuntu 22 + PyTorch 2.5, Ubuntu 22 + ComfyUI + Flux, Ubuntu 22 + Ollama + Open WebUI. También se ofrecen Ubuntu / Debian / AlmaLinux / Rocky estándar si quieres instalar tu propio stack. Puedes cambiar las versiones del driver en cualquier momento con root completo.

03 ¿Puedo ejecutar la inferencia en producción de mi startup de IA en estas GPUs?

Sí. Muchos de nuestros clientes GPU ejecutan APIs de inferencia pública sobre vLLM / TGI / FastAPI. Los servidores GPU vienen con root completo, facturación mensual predecible (sin sorpresas por token) y una IP jurisdiccional fija. El ancho de banda es ilimitado en todos los planes GPU, así que puedes servir endpoints públicos de alto tráfico sin vigilar medidores ni pagar cargos por exceso.

04 ¿Por qué Russia está excluida de las ubicaciones GPU?

Las tarjetas NVIDIA H100, A100 y RTX de alta gama (4090 y superiores) están sujetas a los controles de exportación del Departamento de Comercio de EE. UU. (15 CFR Part 744) y a las regulaciones europeas de doble uso que prohíben su envío a centros de datos en Russia. No las aprovisionamos allí para cumplir con los controles que aplican a nuestra cadena de suministro. Si necesitas Linux VPS o Dedicado offshore en Russia, esas líneas de producto no están afectadas.

05 ¿Por qué Iceland se posiciona como la ubicación GPU premium?

Los centros de datos de Iceland funcionan con 100% de energía renovable geotérmica e hidroeléctrica, y la baja temperatura ambiente reduce de forma significativa la sobrecarga de refrigeración en los servidores H100 que consumen 700W cada uno bajo carga sostenida. El resultado es el cómputo GPU offshore con menor huella de carbono en el mercado. El precio premium cubre el mayor costo del centro de datos en Iceland y el uso de energía más limpia — para equipos de IA con criterios ESG, esta es la única respuesta offshore creíble.

06 ¿Puedo usar múltiples GPUs en entrenamiento distribuido (DDP / FSDP)?

Sí — el nivel GPU-XL tiene 2× H100 SXM5 con interconexión NVLink dentro de una misma máquina, ideal para FSDP / DeepSpeed Zero-3 / DDP en el mismo servidor. Para entrenamiento multi-nodo puedes alquilar varios servidores GPU-XL en el mismo centro de datos y conectarlos por el enlace de 10 Gbps. Aún no ofrecemos nodos de clúster 8× H100 — contáctanos si tu proceso de entrenamiento necesita mayor escala.

Despliega tu servidor GPU offshore

Elige tu jurisdicción, elige tu GPU NVIDIA, paga con cualquiera de las 14 criptos. JupyterLab en vivo en menos de 60 segundos. Sin KYC, sin email, sin teléfono — solo un token.

Ver planes GPU

Bienvenido de nuevo

GPU AI Hosting Offshore

Incluido en cada servidor GPU

Planes GPU por ubicación

Islandia Refugio de libertad de expresión

Moldavia Offshore económico

Rumanía Anti-retención

Países Bajos Mejor peering

Incluido en cada servidor GPU

CUDA 12

Despliegue en 60 segundos

NVMe SSD

SSH + Jupyter

What GPU AI Hosting is Used For

Finetuning e inferencia de LLM

Generación de imágenes

Generación de video con IA

Inferencia en producción

Plantillas de IA preinstaladas

vLLM (OpenAI-compatible)

Ollama + Open WebUI

text-generation-webui (Oobabooga)

HuggingFace TGI

Axolotl (LLM finetuning)

Unsloth (2× faster finetune)

LLaMA-Factory

ComfyUI + FLUX.1

Automatic1111 + SD 3.5

Forge (faster A1111)

Kohya SS (LoRA training)

ComfyUI + Wan 2.2 / HunyuanVideo

ComfyUI Video Lite (CogVideoX / LTX)

Whisper Large v3 Turbo server

TTS server (Kokoro + CSM-1B)

JupyterLab + PyTorch baseline

code-server (VSCode in browser)

Modelos open-weight predescargados

ServPrivacy vs Vast.ai · RunPod · Paperspace · Lambda Labs · TensorDock

Preguntas frecuentes sobre GPU AI Hosting

Despliega tu servidor GPU offshore