Início / GPU AI Hosting

RTX 4090 · RTX 5090 · H100 SXM5 · CUDA 12

GPU AI Hosting Offshore

Name: Offshore GPU AI Hosting
Brand: ServPrivacy
Availability: InStock

Servidores GPU NVIDIA RTX 4090, RTX 5090 e H100 SXM5 para treinamento de IA, inferência, geração de imagem e vídeo. CUDA 12 e cuDNN pré-instalados, além de presets de imagem PyTorch / ComfyUI / Ollama prontos para conectar via SSH. Hosts Threadripper Pro nos tiers H100 para contagem completa de lanes PCIe Gen 5. Disponível em 4 jurisdições offshore, sem KYC, pagamento apenas em cripto em 14 redes incluindo Monero.

Ver Planos de GPU Servidores Dedicados

Todo Servidor GPU Inclui

Hardware NVIDIA, passthrough completo
CUDA 12 + cuDNN pré-instalados
Hosts com Threadripper / Ryzen 9
NVMe SSD & DDR5
Deploy em 60 segundos
14 criptos aceitas, incluindo Monero

Sem KYC

Somente Cripto

CUDA 12

NVMe SSD

Root Completo

Monero accepted

Todos os Planos de GPU

Planos de GPU por Localização

Mesmo hardware NVIDIA em todas as jurisdições com largura de banda ilimitada em cada plano. Preços variam por jurisdição — Iceland é a opção de menor carbono, Moldova a mais barata.

Islândia Refúgio da liberdade de expressão

Plano	GPU	VRAM	CPU	RAM	NVMe	Banda	Preço
IS-S	1× NVIDIA RTX 4090	24 GB GDDR6X	12 vCPU	64 GB DDR5	1 TB NVMe	Ilimitado	$299/mo	Contratar
IS-M Popular	1× NVIDIA RTX 5090	32 GB GDDR7	16 vCPU	96 GB DDR5	1.5 TB NVMe	Ilimitado	$479/mo	Contratar
IS-L	1× NVIDIA H100 SXM5	80 GB HBM3	24 vCPU	192 GB DDR5	2 TB NVMe	Ilimitado	$1849/mo	Contratar
IS-XL	2× NVIDIA H100 SXM5	160 GB HBM3	32 vCPU	384 GB DDR5	4 TB NVMe	Ilimitado	$3499/mo	Contratar

Moldávia Offshore econômico

Plano	GPU	VRAM	CPU	RAM	NVMe	Banda	Preço
MD-S	1× NVIDIA RTX 4090	24 GB GDDR6X	12 vCPU	64 GB DDR5	1 TB NVMe	Ilimitado	$249/mo	Contratar
MD-M Popular	1× NVIDIA RTX 5090	32 GB GDDR7	16 vCPU	96 GB DDR5	1.5 TB NVMe	Ilimitado	$399/mo	Contratar
MD-L	1× NVIDIA H100 SXM5	80 GB HBM3	24 vCPU	192 GB DDR5	2 TB NVMe	Ilimitado	$1699/mo	Contratar
MD-XL	2× NVIDIA H100 SXM5	160 GB HBM3	32 vCPU	384 GB DDR5	4 TB NVMe	Ilimitado	$3199/mo	Contratar

Romênia Anti-retenção

Plano	GPU	VRAM	CPU	RAM	NVMe	Banda	Preço
RO-S	1× NVIDIA RTX 4090	24 GB GDDR6X	12 vCPU	64 GB DDR5	1 TB NVMe	Ilimitado	$269/mo	Contratar
RO-M Popular	1× NVIDIA RTX 5090	32 GB GDDR7	16 vCPU	96 GB DDR5	1.5 TB NVMe	Ilimitado	$429/mo	Contratar
RO-L	1× NVIDIA H100 SXM5	80 GB HBM3	24 vCPU	192 GB DDR5	2 TB NVMe	Ilimitado	$1749/mo	Contratar
RO-XL	2× NVIDIA H100 SXM5	160 GB HBM3	32 vCPU	384 GB DDR5	4 TB NVMe	Ilimitado	$3299/mo	Contratar

Países Baixos Melhor peering

Plano	GPU	VRAM	CPU	RAM	NVMe	Banda	Preço
NL-S	1× NVIDIA RTX 4090	24 GB GDDR6X	12 vCPU	64 GB DDR5	1 TB NVMe	Ilimitado	$279/mo	Contratar
NL-M Popular	1× NVIDIA RTX 5090	32 GB GDDR7	16 vCPU	96 GB DDR5	1.5 TB NVMe	Ilimitado	$449/mo	Contratar
NL-L	1× NVIDIA H100 SXM5	80 GB HBM3	24 vCPU	192 GB DDR5	2 TB NVMe	Ilimitado	$1799/mo	Contratar
NL-XL	2× NVIDIA H100 SXM5	160 GB HBM3	32 vCPU	384 GB DDR5	4 TB NVMe	Ilimitado	$3399/mo	Contratar

GPU hosting disponível em 4 jurisdições no lançamento (Iceland, Netherlands, Romania, Moldova). Russia excluída devido a sanções de exportação da NVIDIA; Switzerland e Panama mantidos apenas com Linux por ora.

Incluso em Todo Servidor GPU

CUDA 12

CUDA 12.4/12.6 + cuDNN pré-instalados. Inicie, conecte via SSH, execute nvidia-smi.

Deploy em 60 segundos

Do pedido pago à saída do nvidia-smi em menos de 60 segundos.

NVMe SSD

Até 4 TB NVMe SSD, combinado com DDR5 RAM para I/O rápido de dataset.

SSH + Jupyter

SSH root completo, mais JupyterLab pré-vinculado na porta 8888 com autenticação por token.

Casos de uso

What GPU AI Hosting is Used For

Ajuste fino e inferência de LLM

Ajuste fino de Llama, Mistral, Qwen, DeepSeek com LoRA / QLoRA / FT completo no H100. Ou inferência self-hosted com vLLM / TGI / Ollama para serving de modelos em produção.

Geração de imagens

Stable Diffusion, FLUX.1, SDXL com ComfyUI ou Forge. Treine seu próprio LoRA, gere em lote em escala ou hospede um endpoint de inferência.

Geração de vídeo com IA

OpenSora, CogVideoX, Wan-2.1, AnimateDiff. Geração de vídeo exige VRAM sério — comece com RTX 5090 (32 GB) ou H100 (80 GB).

Inferência em produção

Implante modelos ajustados atrás da sua própria API. Custos previsíveis, sem taxas por token, sem dados saindo da sua jurisdição. JupyterLab + FastAPI incluídos.

Deploy em 1 clique

Templates de IA pré-instalados

Marque qualquer opção no momento do pedido e seu servidor GPU inicializa com a stack já instalada, configurada e iniciada via systemd. Adicione modelos pré-baixados abaixo para pular os 30–60 min de download do HuggingFace.

Inferência LLM

vLLM (OpenAI-compatible)

Production-grade LLM serving with continuous batching and paged attention. Exposes an /v1/completions endpoint compatible with the OpenAI SDK.

LLMOpenAI APIproduction +

Inferência LLM

Ollama + Open WebUI

Self-hosted ChatGPT-style web UI. Pulls Ollama-native quantized weights; easiest path to "talk to my LLM in a browser".

LLMchat UIbeginner +

Inferência LLM

text-generation-webui (Oobabooga)

Gradio UI with broad backend support — Transformers, ExLlamaV2, llama.cpp, AWQ, GPTQ. Power-user choice for benchmarking quantizations.

LLMmulti-backendpower user +

Inferência LLM

HuggingFace TGI

HuggingFace Text Generation Inference — production server with token streaming, tensor parallelism, paged attention.

LLMproductionHuggingFace +

Finetuning

Axolotl (LLM finetuning)

YAML-config driven finetuning. Supports LoRA, QLoRA, full FT, DPO, ORPO. Pre-cloned to /opt/axolotl with starter configs for Llama / Qwen / Mistral.

finetuneLoRAQLoRA +

Finetuning

Unsloth (2× faster finetune)

2× faster + 70% less VRAM finetuning via custom Triton kernels. Ideal for budget runs on RTX 4090. Pre-installed in /opt/unsloth.

finetunefastlow VRAM +

Finetuning

LLaMA-Factory

WebUI-driven finetuning platform. SFT / RLHF / DPO / KTO. Good entry point for non-coders who want to finetune on a UI.

finetuneGUI +

Geração de imagens

ComfyUI + FLUX.1

Node-graph image-gen interface, ships with FLUX.1-schnell + Kontext workflows. Power-user image generation pipeline.

imageFLUXworkflow +

Geração de imagens

Automatic1111 + SD 3.5

The mainstream Stable Diffusion WebUI. Stable Diffusion 3.5 + extensions ecosystem. Familiar UI for users coming from civitai.

imageSD 3.5 +

Geração de imagens

Forge (faster A1111)

A1111 fork optimized for FLUX, faster sampling, lower VRAM. Drop-in replacement for users coming from Auto1111.

imageFLUXfast +

Geração de imagens

Kohya SS (LoRA training)

GUI for training Stable Diffusion / FLUX LoRA, DreamBooth, textual inversion. Trains a custom-style LoRA on RTX 4090 in 30-90 min.

LoRA trainingimageGUI +

Vídeo com IA

ComfyUI + Wan 2.2 / HunyuanVideo

ComfyUI with video-gen workflows preloaded — Wan 2.2 T2V, HunyuanVideo, LTX-Video. Needs 40+ GB VRAM for usable speed at 720p.

videoWan 2.2HunyuanVideo +

Vídeo com IA

ComfyUI Video Lite (CogVideoX / LTX)

Lightweight video workflows — CogVideoX-5B, Wan 2.1 1.3B, LTX-Video. Runs on a single RTX 4090.

videoCogVideoXlow VRAM +

Áudio

Whisper Large v3 Turbo server

OpenAI Whisper Large v3 Turbo with faster-whisper backend behind a /transcribe HTTP API. 8× faster than v3, 99 langs, real-time on any GPU.

audiospeech-to-textAPI +

Áudio

TTS server (Kokoro + CSM-1B)

Multi-model TTS endpoint serving Kokoro 82M (54 voices, 8 langs) and Sesame CSM-1B (conversational with context). REST + WebSocket streaming.

audiotext-to-speechAPI +

Notebooks & Dev

JupyterLab + PyTorch baseline

Always installed. PyTorch 2.5 + CUDA 12.4 + Transformers + diffusers + accelerate + bitsandbytes + xformers + flash-attn. The universal AI dev baseline.

notebookbaselinealways-on +

Notebooks & Dev

code-server (VSCode in browser)

VSCode running in your browser, full Python/IPython/extensions. For users who prefer IDE workflow over notebooks.

IDEVSCodedev +

Combine múltiplas stacks na mesma GPU — o script de deploy resolve conflitos de dependência e atribui portas sem colisão.

Pule o download

Modelos open-weight pré-baixados

Marque os modelos que precisa no momento do pedido e eles serão armazenados em /root/.cache/huggingface antes do seu login. 🔒 Modelos restritos (Llama, Mistral, Gemma, FLUX-dev, SD 3.5) exigem seu token HuggingFace (solicitado no pedido).

Modelo	HuggingFace	Tamanho	VRAM mínima	Tier GPU mínimo	Tipo
Llama 3.3 70B Instruct 🔒 Restrito	`meta-llama/Llama-3.3-70B-Instruct`	140 GB	160 GB	GPU-L	LLM
Qwen3 32B	`Qwen/Qwen3-32B`	64 GB	80 GB	GPU-L	LLM
Qwen3 14B	`Qwen/Qwen3-14B`	28 GB	32 GB	GPU-S	LLM
Qwen3 8B	`Qwen/Qwen3-8B`	16 GB	20 GB	GPU-S	LLM
DeepSeek-R1 Distill Qwen 32B	`deepseek-ai/DeepSeek-R1-Distill-Qwen-32B`	64 GB	80 GB	GPU-S	LLM
DeepSeek-R1 Distill Llama 70B	`deepseek-ai/DeepSeek-R1-Distill-Llama-70B`	140 GB	160 GB	GPU-S	LLM
Mistral Small 3.2 24B (multimodal)	`mistralai/Mistral-Small-3.2-24B-Instruct-2506`	48 GB	60 GB	GPU-S	LLM
Gemma 3 27B (multimodal) 🔒 Restrito	`google/gemma-3-27b-it`	54 GB	64 GB	GPU-L	LLM
Gemma 3 12B (multimodal) 🔒 Restrito	`google/gemma-3-12b-it`	24 GB	28 GB	GPU-S	LLM
Phi-4 (14B)	`microsoft/phi-4`	28 GB	32 GB	GPU-S	LLM
Phi-4 Mini Instruct (3.8B)	`microsoft/Phi-4-mini-instruct`	8 GB	10 GB	GPU-S	LLM
FLUX.1 [dev] 🔒 Restrito	`black-forest-labs/FLUX.1-dev`	24 GB	24 GB	GPU-S	Imagem
FLUX.1 [schnell]	`black-forest-labs/FLUX.1-schnell`	24 GB	24 GB	GPU-S	Imagem
FLUX.1 Kontext [dev] (image editing) 🔒 Restrito	`black-forest-labs/FLUX.1-Kontext-dev`	24 GB	24 GB	GPU-S	Imagem
Stable Diffusion 3.5 Large 🔒 Restrito	`stabilityai/stable-diffusion-3.5-large`	16 GB	18 GB	GPU-S	Imagem
Stable Diffusion 3.5 Medium 🔒 Restrito	`stabilityai/stable-diffusion-3.5-medium`	5 GB	10 GB	GPU-S	Imagem
HiDream-I1 Full	`HiDream-ai/HiDream-I1-Full`	34 GB	40 GB	GPU-S	Imagem
Wan 2.2 T2V A14B	`Wan-AI/Wan2.2-T2V-A14B`	28 GB	40 GB	GPU-S	Vídeo
Wan 2.1 T2V 1.3B (low VRAM)	`Wan-AI/Wan2.1-T2V-1.3B`	3 GB	8 GB	GPU-S	Vídeo
HunyuanVideo 1.5 (8.3B)	`tencent/HunyuanVideo-1.5`	17 GB	24 GB	GPU-S	Vídeo
LTX-Video 0.9.8 13B	`Lightricks/LTX-Video`	26 GB	24 GB	GPU-S	Vídeo
CogVideoX-5B	`zai-org/CogVideoX-5b`	10 GB	16 GB	GPU-S	Vídeo
Whisper Large v3 Turbo	`openai/whisper-large-v3-turbo`	2 GB	4 GB	GPU-S	Áudio
Whisper Large v3	`openai/whisper-large-v3`	3 GB	6 GB	GPU-S	Áudio
Kokoro 82M (TTS)	`hexgrad/Kokoro-82M`	1 GB	2 GB	GPU-S	Áudio
Sesame CSM-1B (conversational TTS)	`sesame/csm-1b`	2 GB	6 GB	GPU-S	Áudio
Stable Audio Open 1.0 🔒 Restrito	`stabilityai/stable-audio-open-1.0`	3 GB	8 GB	GPU-S	Áudio

Tamanhos referem-se a pesos FP16. Para RTX 4090 (24 GB VRAM) com modelos 70B, a variante quantizada AWQ é baixada automaticamente em paralelo.

Como nos comparamos

ServPrivacy vs Vast.ai · RunPod · Paperspace · Lambda Labs · TensorDock

Pagamento exclusivo em cripto, Monero nativo, cadastro só com token, stacks de IA pré-instaladas, modelos HuggingFace pré-baixados, tokens HF criptografados, endpoints Let's Encrypt automáticos, banda ilimitada e 100% energia renovável na Islândia — leia a linha "ServPrivacy" e julgue por si mesmo.

Recurso	ServPrivacy	Vast.ai	RunPod	Paperspace	Lambda	TensorDock
Pagamento exclusivo em cripto	✅ 14 chains	⚠️ BTC	⚠️ Gateway	❌	❌	⚠️ BTC/ETH/USDT
Monero (XMR) nativo	✅	❌	❌	❌	❌	❌
Sem KYC, sem cadastro por e-mail	✅ Token-only	⚠️ Email + ID for trust	⚠️ Email + payment	❌ Full KYC	❌ Enterprise KYC	⚠️ Email + light KYC
Stacks de IA pré-instaladas	✅ 17 templates	⚠️ Docker BYO	✅ 100+	⚠️ Notebooks only	⚠️ Lambda Stack only	⚠️ Docker BYO
Modelos pré-baixados no pedido	✅ 27 models	❌	❌	❌	❌	❌
Token HuggingFace no pedido	✅ Encrypted, used once	❌	❌	❌	❌	❌
Chave SSH no pedido	✅	✅	✅	⚠️	✅	⚠️
Timer de desligamento automático	✅ 6h-7d	✅	⚠️ Spot only	❌	❌	❌
Endpoint HTTPS público (Let's Encrypt)	✅ Auto	⚠️ Manual	✅ Pods	✅	❌	⚠️ Manual
Banda ilimitada	✅	⚠️ Per host	⚠️ Capped	⚠️ Capped	⚠️ Capped	⚠️ Per host
Datacenter com energia renovável	✅ Iceland 100% geo+hydro	❌ Variable	⚠️ US grid	⚠️ US grid	⚠️ US grid	⚠️ Variable
Jurisdição offshore	✅ IS / NL / RO / MD	❌ Distributed P2P	❌ US-centric	❌ US	❌ US-only	⚠️ Multi-region
Modo sandbox dry-run	✅ ?dry_run=1	⚠️ Trial credit	⚠️ Limited	⚠️ Free GPU tier	❌	❌
AI-agent / MCP primeiro	✅ MCP + REST + x402	⚠️ REST	⚠️ REST	⚠️ REST	⚠️ REST	⚠️ REST
RTX 4090 entrada / mês	$249	~$216 spot	~$396 on-demand	n/a	n/a	~$252 spot

Dados de comparação obtidos das páginas públicas de preços e fluxos de cadastro dos concorrentes em 2026-05. Entrada ServPrivacy RTX 4090 = $249/mês Moldávia; preços "spot" dos concorrentes são médias para hardware equivalente.

Perguntas frequentes

FAQ de GPU AI Hosting

01 A GPU é passada com acesso completo ao hardware, ou é compartilhada / fatiada via vGPU?

Passthrough de hardware completo. Você obtém a placa NVIDIA física inteira com acesso direto à VRAM — não é um slice vGPU, não é uma partição MIG com tempo compartilhado. O nvidia-smi dentro da sua VM mostra os mesmos números que o host bare-metal. Acesso completo ao driver, CUDA completo, stack completo PyTorch / TensorFlow — sem reservas SR-IOV.

02 Quais versões de CUDA / driver vêm pré-instaladas?

Imagem padrão: Ubuntu 22.04 + CUDA 12.4 + cuDNN 9 + driver NVIDIA 550. Outras imagens prontas: Ubuntu 24.04 + CUDA 12.6, Ubuntu 22 + PyTorch 2.5, Ubuntu 22 + ComfyUI + Flux, Ubuntu 22 + Ollama + Open WebUI. Vanilla Ubuntu / Debian / AlmaLinux / Rocky também disponíveis se quiser instalar sua própria stack. Você pode trocar versões de driver a qualquer momento como root completo.

03 Posso rodar inferência em produção da minha startup de IA nessas GPUs?

Sim. Muitos dos nossos clientes de GPU rodam APIs de inferência públicas sobre vLLM / TGI / FastAPI. Os servidores GPU vêm com root completo, faturamento mensal previsível (sem surpresas por token) e IP jurisdicional fixo. A largura de banda é ilimitada em todos os planos GPU, então você pode servir endpoints públicos de alto tráfego sem vigiar medidores nem pagar taxas de excedente.

04 Por que Russia está excluída das localizações de GPU?

NVIDIA H100, A100 e placas RTX de alto desempenho (4090 e acima) estão sujeitas a controles de exportação do Departamento de Comércio dos EUA (15 CFR Part 744) e regulamentações de duplo uso da UE que proíbem remessa para datacenters russos. Não provisionamos em Russia para manter conformidade com os controles aplicáveis à nossa cadeia de fornecimento. Se precisar de Linux VPS ou Dedicado offshore na Russia, essas linhas de produto não são afetadas.

05 Por que Iceland está posicionada como localização premium de GPU?

Os datacenters de Iceland funcionam com 100% de energia renovável geotérmica e hidrelétrica, e a temperatura ambiente fria reduz significativamente o overhead de resfriamento em servidores H100 que consomem 700W cada sob carga sustentada. O resultado é a computação GPU offshore de menor carbono no mercado. O preço premium cobre o custo mais alto do datacenter em Iceland e a energia mais limpa — para equipes de IA preocupadas com ESG, esta é a única resposta offshore credível.

06 Posso usar múltiplas GPUs em treinamento distribuído (DDP / FSDP)?

Sim — o tier GPU-XL é 2× H100 SXM5 com interconexão NVLink dentro de uma caixa, ideal para FSDP / DeepSpeed Zero-3 / DDP na mesma máquina. Para treinamento multi-nó, você pode alugar múltiplos servidores GPU-XL no mesmo datacenter e conectá-los pelo uplink de 10 Gbps. Ainda não fornecemos nodes de cluster 8× H100 — entre em contato se sua execução de treinamento precisar de mais escala.

Implante Seu Servidor GPU Offshore

Escolha sua jurisdição, escolha sua GPU NVIDIA, pague com qualquer uma das 14 criptos. JupyterLab ao vivo em menos de 60 segundos. Sem KYC, sem e-mail, sem telefone — apenas um token.

Ver Planos de GPU

Bem-vindo de volta

GPU AI Hosting Offshore

Todo Servidor GPU Inclui

Planos de GPU por Localização

Islândia Refúgio da liberdade de expressão

Moldávia Offshore econômico

Romênia Anti-retenção

Países Baixos Melhor peering

Incluso em Todo Servidor GPU

CUDA 12

Deploy em 60 segundos

NVMe SSD

SSH + Jupyter

What GPU AI Hosting is Used For

Ajuste fino e inferência de LLM

Geração de imagens

Geração de vídeo com IA

Inferência em produção

Templates de IA pré-instalados

vLLM (OpenAI-compatible)

Ollama + Open WebUI

text-generation-webui (Oobabooga)

HuggingFace TGI

Axolotl (LLM finetuning)

Unsloth (2× faster finetune)

LLaMA-Factory

ComfyUI + FLUX.1

Automatic1111 + SD 3.5

Forge (faster A1111)

Kohya SS (LoRA training)

ComfyUI + Wan 2.2 / HunyuanVideo

ComfyUI Video Lite (CogVideoX / LTX)

Whisper Large v3 Turbo server

TTS server (Kokoro + CSM-1B)

JupyterLab + PyTorch baseline

code-server (VSCode in browser)

Modelos open-weight pré-baixados

ServPrivacy vs Vast.ai · RunPod · Paperspace · Lambda Labs · TensorDock

FAQ de GPU AI Hosting

Implante Seu Servidor GPU Offshore