Por qué autoalojar Stable Diffusion
Los servicios de generación de imágenes alojados son cómodos, pero vienen acompañados de tres limitaciones persistentes. Observan y, a menudo, almacenan cada prompt y cada imagen que produces. Aplican un filtro de contenido que decide qué te está permitido generar. Y cobran por imagen o por crédito, lo que se acumula rápidamente para quien genera en volumen. Para un usuario ocasional puede ser un intercambio aceptable; para quien genera en serio, son tres razones para buscar otra alternativa.
Ejecutar Stable Diffusion en tu propio servidor GPU elimina las tres. Los prompts y las imágenes nunca abandonan un servidor bajo tu control: ningún tercero los registra ni los revisa. Tú ejecutas el modelo y las extensiones que elijas, sin ninguna política de contenido externa en el camino. Y el coste es una tarifa mensual fija por el hardware, no un contador que avanza con cada generación. En un host GPU offshore sin KYC, el propio servidor tampoco lleva identidad alguna. Esta guía cubre la elección de la GPU, la puesta en marcha de una interfaz web y lo que realmente cuesta.

Elegir la GPU
Stable Diffusion es mucho más ligero que un modelo de lenguaje grande: el factor decisivo sigue siendo la VRAM, pero el listón es mucho más bajo. Lo que determina la VRAM es qué generaciones de modelos puedes ejecutar, y a qué resolución y tamaño de lote.
- RTX 4090 (24 GB VRAM) — el punto óptimo para Stable Diffusion. Ejecuta todos los modelos abiertos actuales, incluidos los de la clase SDXL y los nuevos modelos de difusión, genera rápido y maneja cómodamente altas resoluciones y tamaños de lote decentes. Para un usuario o un equipo pequeño, esta es la tarjeta a elegir.
- RTX 5090 (32 GB VRAM) — aún más margen: lotes más grandes, los modelos más nuevos y exigentes, iteración más rápida. La opción si quieres máxima velocidad o vas a ejecutar los modelos de difusión más demandantes.
- H100 (80 GB VRAM) — muy por encima de lo que la generación de imágenes por sí sola necesita, pero la elección correcta si el mismo servidor atiende a muchos usuarios simultáneos o también actúa como host de LLM.
Para la gran mayoría de los usuarios de Stable Diffusion, una sola RTX 4090 es la respuesta correcta y rentable. Apunta a más solo si sirves a muchos usuarios a la vez o ejecutas modelos inusualmente pesados.
Paso 1 — Aprovisionar el servidor GPU
En ServPrivacy, elige un plan GPU con tu tarjeta — una RTX 4090 para la mayoría — y la jurisdicción que desees, y paga en criptomoneda. El servidor se aprovisiona automáticamente, con los drivers de NVIDIA y CUDA preinstalados, por lo que está listo para trabajo GPU desde el momento en que arranca; no hay que lidiar con ninguna configuración de drivers.
Conéctate por SSH y ejecuta nvidia-smi para confirmar que la GPU está presente e inactiva. A partir de aquí, poner Stable Diffusion en marcha es una tarea breve.
Paso 2 — Instalar una interfaz web de Stable Diffusion
Casi con certeza querrás una interfaz web en lugar de la línea de comandos directa: te ofrece una interfaz en el navegador para prompts, ajustes, cambio de modelo y todas las extensiones que hacen potente a Stable Diffusion. Las opciones consolidadas:
- AUTOMATIC1111 — la interfaz web veterana y rica en funciones, con el mayor ecosistema de extensiones y la documentación comunitaria más extensa. La opción predeterminada para la mayoría de los usuarios.
- ComfyUI — una interfaz basada en nodos que expone el pipeline de generación completo como un grafo. Mayor curva de aprendizaje, pero un control sin igual y la favorita para flujos de trabajo complejos y reproducibles.
- Forge — una bifurcación optimizada de la familia AUTOMATIC1111, ajustada para mayor rendimiento y menor uso de VRAM.
Cada una se instala con un script de configuración documentado; en un servidor con CUDA ya instalado, clonas el proyecto, ejecutas su instalador y descargas un checkpoint de modelo. En menos de una hora desde que el servidor arranca tienes un servidor de generación de imágenes funcional. La interfaz web escucha en un puerto local, lo que nos lleva al único aspecto que hay que hacer bien.
Paso 3 — Acceder a ella de forma privada
No expongas la interfaz web directamente a internet. De serie, estas interfaces no tienen autenticación, y una UI de Stable Diffusion abierta en una IP pública será encontrada y utilizada por desconocidos, consumiendo tu tiempo de GPU y tu ancho de banda.
Accede a ella de forma segura de una de estas dos maneras. La más sencilla es un túnel SSH: mantén la UI enlazada a localhost en el servidor y reenvía el puerto a través de tu conexión SSH, de modo que la interfaz aparezca en tu propio navegador en localhost sin quedar nunca expuesta públicamente. La alternativa, si varias personas necesitan acceso, es colocarla detrás de un proxy inverso que exija un inicio de sesión y TLS. Para un solo usuario, el túnel SSH es la opción más limpia y privada: la UI solo es accesible para ti y los prompts viajan únicamente entre tu máquina y tu servidor.
Costes: servidor GPU frente a servicio alojado
La economía depende por completo de cuánto generes. Un servicio de imágenes alojado cobra por imagen o por crédito: excelente para unas pocas fotos, caro a gran volumen. Un servidor GPU alquilado tiene un coste mensual fijo y genera todo lo que el hardware físicamente puede, sin contador por imagen.
Un servidor RTX 4090 de ServPrivacy parte de unos 122 $/mes. Una RTX 4090 genera un gran número de imágenes por hora, de modo que a lo largo de un mes un servidor dedicado representa una cantidad enorme de generaciones por esa tarifa fija. Si tu uso en un servicio alojado es un flujo constante en lugar de una imagen ocasional, la GPU dedicada resulta drásticamente más barata por imagen, y el ahorro crece cuanto más generes. Además, ganas iteración ilimitada sin ansiedad por los créditos, sin filtro de contenido y con privacidad total. Para un uso ocasional, un servicio alojado es más sencillo; para cualquier volumen real, el servidor gana de forma decisiva en coste.
Cuándo el autoalojamiento es la decisión correcta
Autoalojar Stable Diffusion es la decisión acertada cuando se cumple cualquiera de tres condiciones: generas en volumen y las facturas por imagen han dejado de tener sentido; quieres control creativo total — cada modelo, cada extensión, cada flujo de trabajo, sin ningún filtro de contenido que decida lo que puedes crear; o los prompts y las imágenes son algo que preferirías que ningún tercero registrase.
Si solo generas alguna imagen ocasional, un servicio alojado es el camino más sencillo. Pero para una generación de imágenes seria, sostenida y privada, un servidor GPU con tu propia instalación de Stable Diffusion es más rápido, más barato por imagen y completamente tuyo; y en un host GPU offshore sin KYC, es una configuración de generación de imágenes sin identidad, sin filtro y sin contador.