Início / GPU AI Hosting
RTX 4090 · RTX 5090 · H100 SXM5 · CUDA 12

GPU AI Hosting Offshore

Servidores GPU NVIDIA RTX 4090, RTX 5090 e H100 SXM5 para treinamento de IA, inferência, geração de imagem e vídeo. CUDA 12 e cuDNN pré-instalados, além de presets de imagem PyTorch / ComfyUI / Ollama prontos para conectar via SSH. Hosts Threadripper Pro nos tiers H100 para contagem completa de lanes PCIe Gen 5. Disponível em 4 jurisdições offshore, sem KYC, pagamento apenas em cripto em 14 redes incluindo Monero.

Sem KYC
Somente Cripto
CUDA 12
NVMe SSD
Root Completo
Monero accepted
Todos os Planos de GPU

Planos de GPU por Localização

Mesmo hardware NVIDIA em todas as jurisdições com largura de banda ilimitada em cada plano. Preços variam por jurisdição — Iceland é a opção de menor carbono, Moldova a mais barata.

Islândia Refúgio da liberdade de expressão

PlanoGPUVRAMCPURAMNVMeBandaPreço
IS-S 1× NVIDIA RTX 4090 24 GB GDDR6X 12 vCPU 64 GB DDR5 1 TB NVMe Ilimitado $299/mo Contratar
IS-M Popular 1× NVIDIA RTX 5090 32 GB GDDR7 16 vCPU 96 GB DDR5 1.5 TB NVMe Ilimitado $479/mo Contratar
IS-L 1× NVIDIA H100 SXM5 80 GB HBM3 24 vCPU 192 GB DDR5 2 TB NVMe Ilimitado $1849/mo Contratar
IS-XL 2× NVIDIA H100 SXM5 160 GB HBM3 32 vCPU 384 GB DDR5 4 TB NVMe Ilimitado $3499/mo Contratar

Moldávia Offshore econômico

PlanoGPUVRAMCPURAMNVMeBandaPreço
MD-S 1× NVIDIA RTX 4090 24 GB GDDR6X 12 vCPU 64 GB DDR5 1 TB NVMe Ilimitado $249/mo Contratar
MD-M Popular 1× NVIDIA RTX 5090 32 GB GDDR7 16 vCPU 96 GB DDR5 1.5 TB NVMe Ilimitado $399/mo Contratar
MD-L 1× NVIDIA H100 SXM5 80 GB HBM3 24 vCPU 192 GB DDR5 2 TB NVMe Ilimitado $1699/mo Contratar
MD-XL 2× NVIDIA H100 SXM5 160 GB HBM3 32 vCPU 384 GB DDR5 4 TB NVMe Ilimitado $3199/mo Contratar

Romênia Anti-retenção

PlanoGPUVRAMCPURAMNVMeBandaPreço
RO-S 1× NVIDIA RTX 4090 24 GB GDDR6X 12 vCPU 64 GB DDR5 1 TB NVMe Ilimitado $269/mo Contratar
RO-M Popular 1× NVIDIA RTX 5090 32 GB GDDR7 16 vCPU 96 GB DDR5 1.5 TB NVMe Ilimitado $429/mo Contratar
RO-L 1× NVIDIA H100 SXM5 80 GB HBM3 24 vCPU 192 GB DDR5 2 TB NVMe Ilimitado $1749/mo Contratar
RO-XL 2× NVIDIA H100 SXM5 160 GB HBM3 32 vCPU 384 GB DDR5 4 TB NVMe Ilimitado $3299/mo Contratar

Países Baixos Melhor peering

PlanoGPUVRAMCPURAMNVMeBandaPreço
NL-S 1× NVIDIA RTX 4090 24 GB GDDR6X 12 vCPU 64 GB DDR5 1 TB NVMe Ilimitado $279/mo Contratar
NL-M Popular 1× NVIDIA RTX 5090 32 GB GDDR7 16 vCPU 96 GB DDR5 1.5 TB NVMe Ilimitado $449/mo Contratar
NL-L 1× NVIDIA H100 SXM5 80 GB HBM3 24 vCPU 192 GB DDR5 2 TB NVMe Ilimitado $1799/mo Contratar
NL-XL 2× NVIDIA H100 SXM5 160 GB HBM3 32 vCPU 384 GB DDR5 4 TB NVMe Ilimitado $3399/mo Contratar

GPU hosting disponível em 4 jurisdições no lançamento (Iceland, Netherlands, Romania, Moldova). Russia excluída devido a sanções de exportação da NVIDIA; Switzerland e Panama mantidos apenas com Linux por ora.

Incluso em Todo Servidor GPU

CUDA 12

CUDA 12.4/12.6 + cuDNN pré-instalados. Inicie, conecte via SSH, execute nvidia-smi.

Deploy em 60 segundos

Do pedido pago à saída do nvidia-smi em menos de 60 segundos.

NVMe SSD

Até 4 TB NVMe SSD, combinado com DDR5 RAM para I/O rápido de dataset.

SSH + Jupyter

SSH root completo, mais JupyterLab pré-vinculado na porta 8888 com autenticação por token.

Casos de uso

What GPU AI Hosting is Used For

Ajuste fino e inferência de LLM

Ajuste fino de Llama, Mistral, Qwen, DeepSeek com LoRA / QLoRA / FT completo no H100. Ou inferência self-hosted com vLLM / TGI / Ollama para serving de modelos em produção.

Geração de imagens

Stable Diffusion, FLUX.1, SDXL com ComfyUI ou Forge. Treine seu próprio LoRA, gere em lote em escala ou hospede um endpoint de inferência.

Geração de vídeo com IA

OpenSora, CogVideoX, Wan-2.1, AnimateDiff. Geração de vídeo exige VRAM sério — comece com RTX 5090 (32 GB) ou H100 (80 GB).

Inferência em produção

Implante modelos ajustados atrás da sua própria API. Custos previsíveis, sem taxas por token, sem dados saindo da sua jurisdição. JupyterLab + FastAPI incluídos.

Deploy em 1 clique

Templates de IA pré-instalados

Marque qualquer opção no momento do pedido e seu servidor GPU inicializa com a stack já instalada, configurada e iniciada via systemd. Adicione modelos pré-baixados abaixo para pular os 30–60 min de download do HuggingFace.

Inferência LLM

vLLM (OpenAI-compatible)

Production-grade LLM serving with continuous batching and paged attention. Exposes an /v1/completions endpoint compatible with the OpenAI SDK.

LLMOpenAI APIproduction +
Inferência LLM

Ollama + Open WebUI

Self-hosted ChatGPT-style web UI. Pulls Ollama-native quantized weights; easiest path to "talk to my LLM in a browser".

LLMchat UIbeginner +
Inferência LLM

text-generation-webui (Oobabooga)

Gradio UI with broad backend support — Transformers, ExLlamaV2, llama.cpp, AWQ, GPTQ. Power-user choice for benchmarking quantizations.

LLMmulti-backendpower user +
Inferência LLM

HuggingFace TGI

HuggingFace Text Generation Inference — production server with token streaming, tensor parallelism, paged attention.

LLMproductionHuggingFace +
Finetuning

Axolotl (LLM finetuning)

YAML-config driven finetuning. Supports LoRA, QLoRA, full FT, DPO, ORPO. Pre-cloned to /opt/axolotl with starter configs for Llama / Qwen / Mistral.

finetuneLoRAQLoRA +
Finetuning

Unsloth (2× faster finetune)

2× faster + 70% less VRAM finetuning via custom Triton kernels. Ideal for budget runs on RTX 4090. Pre-installed in /opt/unsloth.

finetunefastlow VRAM +
Finetuning

LLaMA-Factory

WebUI-driven finetuning platform. SFT / RLHF / DPO / KTO. Good entry point for non-coders who want to finetune on a UI.

finetuneGUI +
Geração de imagens

ComfyUI + FLUX.1

Node-graph image-gen interface, ships with FLUX.1-schnell + Kontext workflows. Power-user image generation pipeline.

imageFLUXworkflow +
Geração de imagens

Automatic1111 + SD 3.5

The mainstream Stable Diffusion WebUI. Stable Diffusion 3.5 + extensions ecosystem. Familiar UI for users coming from civitai.

imageSD 3.5 +
Geração de imagens

Forge (faster A1111)

A1111 fork optimized for FLUX, faster sampling, lower VRAM. Drop-in replacement for users coming from Auto1111.

imageFLUXfast +
Geração de imagens

Kohya SS (LoRA training)

GUI for training Stable Diffusion / FLUX LoRA, DreamBooth, textual inversion. Trains a custom-style LoRA on RTX 4090 in 30-90 min.

LoRA trainingimageGUI +
Vídeo com IA

ComfyUI + Wan 2.2 / HunyuanVideo

ComfyUI with video-gen workflows preloaded — Wan 2.2 T2V, HunyuanVideo, LTX-Video. Needs 40+ GB VRAM for usable speed at 720p.

videoWan 2.2HunyuanVideo +
Vídeo com IA

ComfyUI Video Lite (CogVideoX / LTX)

Lightweight video workflows — CogVideoX-5B, Wan 2.1 1.3B, LTX-Video. Runs on a single RTX 4090.

videoCogVideoXlow VRAM +
Áudio

Whisper Large v3 Turbo server

OpenAI Whisper Large v3 Turbo with faster-whisper backend behind a /transcribe HTTP API. 8× faster than v3, 99 langs, real-time on any GPU.

audiospeech-to-textAPI +
Áudio

TTS server (Kokoro + CSM-1B)

Multi-model TTS endpoint serving Kokoro 82M (54 voices, 8 langs) and Sesame CSM-1B (conversational with context). REST + WebSocket streaming.

audiotext-to-speechAPI +
Notebooks & Dev

JupyterLab + PyTorch baseline

Always installed. PyTorch 2.5 + CUDA 12.4 + Transformers + diffusers + accelerate + bitsandbytes + xformers + flash-attn. The universal AI dev baseline.

notebookbaselinealways-on +
Notebooks & Dev

code-server (VSCode in browser)

VSCode running in your browser, full Python/IPython/extensions. For users who prefer IDE workflow over notebooks.

IDEVSCodedev +

Combine múltiplas stacks na mesma GPU — o script de deploy resolve conflitos de dependência e atribui portas sem colisão.

Pule o download

Modelos open-weight pré-baixados

Marque os modelos que precisa no momento do pedido e eles serão armazenados em /root/.cache/huggingface antes do seu login. 🔒 Modelos restritos (Llama, Mistral, Gemma, FLUX-dev, SD 3.5) exigem seu token HuggingFace (solicitado no pedido).

Modelo HuggingFace Tamanho VRAM mínima Tier GPU mínimo Tipo
Llama 3.3 70B Instruct 🔒 Restrito meta-llama/Llama-3.3-70B-Instruct 140 GB 160 GB GPU-L LLM
Qwen3 32B Qwen/Qwen3-32B 64 GB 80 GB GPU-L LLM
Qwen3 14B Qwen/Qwen3-14B 28 GB 32 GB GPU-S LLM
Qwen3 8B Qwen/Qwen3-8B 16 GB 20 GB GPU-S LLM
DeepSeek-R1 Distill Qwen 32B deepseek-ai/DeepSeek-R1-Distill-Qwen-32B 64 GB 80 GB GPU-S LLM
DeepSeek-R1 Distill Llama 70B deepseek-ai/DeepSeek-R1-Distill-Llama-70B 140 GB 160 GB GPU-S LLM
Mistral Small 3.2 24B (multimodal) mistralai/Mistral-Small-3.2-24B-Instruct-2506 48 GB 60 GB GPU-S LLM
Gemma 3 27B (multimodal) 🔒 Restrito google/gemma-3-27b-it 54 GB 64 GB GPU-L LLM
Gemma 3 12B (multimodal) 🔒 Restrito google/gemma-3-12b-it 24 GB 28 GB GPU-S LLM
Phi-4 (14B) microsoft/phi-4 28 GB 32 GB GPU-S LLM
Phi-4 Mini Instruct (3.8B) microsoft/Phi-4-mini-instruct 8 GB 10 GB GPU-S LLM
FLUX.1 [dev] 🔒 Restrito black-forest-labs/FLUX.1-dev 24 GB 24 GB GPU-S Imagem
FLUX.1 [schnell] black-forest-labs/FLUX.1-schnell 24 GB 24 GB GPU-S Imagem
FLUX.1 Kontext [dev] (image editing) 🔒 Restrito black-forest-labs/FLUX.1-Kontext-dev 24 GB 24 GB GPU-S Imagem
Stable Diffusion 3.5 Large 🔒 Restrito stabilityai/stable-diffusion-3.5-large 16 GB 18 GB GPU-S Imagem
Stable Diffusion 3.5 Medium 🔒 Restrito stabilityai/stable-diffusion-3.5-medium 5 GB 10 GB GPU-S Imagem
HiDream-I1 Full HiDream-ai/HiDream-I1-Full 34 GB 40 GB GPU-S Imagem
Wan 2.2 T2V A14B Wan-AI/Wan2.2-T2V-A14B 28 GB 40 GB GPU-S Vídeo
Wan 2.1 T2V 1.3B (low VRAM) Wan-AI/Wan2.1-T2V-1.3B 3 GB 8 GB GPU-S Vídeo
HunyuanVideo 1.5 (8.3B) tencent/HunyuanVideo-1.5 17 GB 24 GB GPU-S Vídeo
LTX-Video 0.9.8 13B Lightricks/LTX-Video 26 GB 24 GB GPU-S Vídeo
CogVideoX-5B zai-org/CogVideoX-5b 10 GB 16 GB GPU-S Vídeo
Whisper Large v3 Turbo openai/whisper-large-v3-turbo 2 GB 4 GB GPU-S Áudio
Whisper Large v3 openai/whisper-large-v3 3 GB 6 GB GPU-S Áudio
Kokoro 82M (TTS) hexgrad/Kokoro-82M 1 GB 2 GB GPU-S Áudio
Sesame CSM-1B (conversational TTS) sesame/csm-1b 2 GB 6 GB GPU-S Áudio
Stable Audio Open 1.0 🔒 Restrito stabilityai/stable-audio-open-1.0 3 GB 8 GB GPU-S Áudio

Tamanhos referem-se a pesos FP16. Para RTX 4090 (24 GB VRAM) com modelos 70B, a variante quantizada AWQ é baixada automaticamente em paralelo.

Como nos comparamos

ServPrivacy vs Vast.ai · RunPod · Paperspace · Lambda Labs · TensorDock

Pagamento exclusivo em cripto, Monero nativo, cadastro só com token, stacks de IA pré-instaladas, modelos HuggingFace pré-baixados, tokens HF criptografados, endpoints Let's Encrypt automáticos, banda ilimitada e 100% energia renovável na Islândia — leia a linha "ServPrivacy" e julgue por si mesmo.

Recurso ServPrivacy Vast.ai RunPod Paperspace Lambda TensorDock
Pagamento exclusivo em cripto ✅ 14 chains⚠️ BTC⚠️ Gateway⚠️ BTC/ETH/USDT
Monero (XMR) nativo
Sem KYC, sem cadastro por e-mail ✅ Token-only⚠️ Email + ID for trust⚠️ Email + payment❌ Full KYC❌ Enterprise KYC⚠️ Email + light KYC
Stacks de IA pré-instaladas ✅ 17 templates⚠️ Docker BYO✅ 100+⚠️ Notebooks only⚠️ Lambda Stack only⚠️ Docker BYO
Modelos pré-baixados no pedido ✅ 27 models
Token HuggingFace no pedido ✅ Encrypted, used once
Chave SSH no pedido ⚠️⚠️
Timer de desligamento automático ✅ 6h-7d⚠️ Spot only
Endpoint HTTPS público (Let's Encrypt) ✅ Auto⚠️ Manual✅ Pods⚠️ Manual
Banda ilimitada ⚠️ Per host⚠️ Capped⚠️ Capped⚠️ Capped⚠️ Per host
Datacenter com energia renovável ✅ Iceland 100% geo+hydro❌ Variable⚠️ US grid⚠️ US grid⚠️ US grid⚠️ Variable
Jurisdição offshore ✅ IS / NL / RO / MD❌ Distributed P2P❌ US-centric❌ US❌ US-only⚠️ Multi-region
Modo sandbox dry-run ✅ ?dry_run=1⚠️ Trial credit⚠️ Limited⚠️ Free GPU tier
AI-agent / MCP primeiro ✅ MCP + REST + x402⚠️ REST⚠️ REST⚠️ REST⚠️ REST⚠️ REST
RTX 4090 entrada / mês $249~$216 spot~$396 on-demandn/an/a~$252 spot

Dados de comparação obtidos das páginas públicas de preços e fluxos de cadastro dos concorrentes em 2026-05. Entrada ServPrivacy RTX 4090 = $249/mês Moldávia; preços "spot" dos concorrentes são médias para hardware equivalente.

Perguntas frequentes

FAQ de GPU AI Hosting

01 A GPU é passada com acesso completo ao hardware, ou é compartilhada / fatiada via vGPU?

Passthrough de hardware completo. Você obtém a placa NVIDIA física inteira com acesso direto à VRAM — não é um slice vGPU, não é uma partição MIG com tempo compartilhado. O nvidia-smi dentro da sua VM mostra os mesmos números que o host bare-metal. Acesso completo ao driver, CUDA completo, stack completo PyTorch / TensorFlow — sem reservas SR-IOV.

02 Quais versões de CUDA / driver vêm pré-instaladas?

Imagem padrão: Ubuntu 22.04 + CUDA 12.4 + cuDNN 9 + driver NVIDIA 550. Outras imagens prontas: Ubuntu 24.04 + CUDA 12.6, Ubuntu 22 + PyTorch 2.5, Ubuntu 22 + ComfyUI + Flux, Ubuntu 22 + Ollama + Open WebUI. Vanilla Ubuntu / Debian / AlmaLinux / Rocky também disponíveis se quiser instalar sua própria stack. Você pode trocar versões de driver a qualquer momento como root completo.

03 Posso rodar inferência em produção da minha startup de IA nessas GPUs?

Sim. Muitos dos nossos clientes de GPU rodam APIs de inferência públicas sobre vLLM / TGI / FastAPI. Os servidores GPU vêm com root completo, faturamento mensal previsível (sem surpresas por token) e IP jurisdicional fixo. A largura de banda é ilimitada em todos os planos GPU, então você pode servir endpoints públicos de alto tráfego sem vigiar medidores nem pagar taxas de excedente.

04 Por que Russia está excluída das localizações de GPU?

NVIDIA H100, A100 e placas RTX de alto desempenho (4090 e acima) estão sujeitas a controles de exportação do Departamento de Comércio dos EUA (15 CFR Part 744) e regulamentações de duplo uso da UE que proíbem remessa para datacenters russos. Não provisionamos em Russia para manter conformidade com os controles aplicáveis à nossa cadeia de fornecimento. Se precisar de Linux VPS ou Dedicado offshore na Russia, essas linhas de produto não são afetadas.

05 Por que Iceland está posicionada como localização premium de GPU?

Os datacenters de Iceland funcionam com 100% de energia renovável geotérmica e hidrelétrica, e a temperatura ambiente fria reduz significativamente o overhead de resfriamento em servidores H100 que consomem 700W cada sob carga sustentada. O resultado é a computação GPU offshore de menor carbono no mercado. O preço premium cobre o custo mais alto do datacenter em Iceland e a energia mais limpa — para equipes de IA preocupadas com ESG, esta é a única resposta offshore credível.

06 Posso usar múltiplas GPUs em treinamento distribuído (DDP / FSDP)?

Sim — o tier GPU-XL é 2× H100 SXM5 com interconexão NVLink dentro de uma caixa, ideal para FSDP / DeepSpeed Zero-3 / DDP na mesma máquina. Para treinamento multi-nó, você pode alugar múltiplos servidores GPU-XL no mesmo datacenter e conectá-los pelo uplink de 10 Gbps. Ainda não fornecemos nodes de cluster 8× H100 — entre em contato se sua execução de treinamento precisar de mais escala.

Implante Seu Servidor GPU Offshore

Escolha sua jurisdição, escolha sua GPU NVIDIA, pague com qualquer uma das 14 criptos. JupyterLab ao vivo em menos de 60 segundos. Sem KYC, sem e-mail, sem telefone — apenas um token.

Ver Planos de GPU