Ana Sayfa / Gizlilik Barındırma Rehberler / GPU Sunucusunda LLM Kendi Kendine Nasıl Barındırılır — 2026 Rehberi
Operasyonlar

GPU Sunucusunda LLM Kendi Kendine Barındırma

GPU sunucunuzda LLM çalıştırmaya yönelik pratik bir rehber — neden gizlilik ve kontrol açısından barındırılan bir API'ye üstün olduğu, GPU'yu modele göre nasıl boyutlandıracağınız, bir modeli en hızlı şekilde servise almanın yolu ve gerçek maliyetler.

KYC yok
Yalnızca Kripto
Log Yok
DMCA Göz Ardı Edilir
Tam Root
NVMe SSD

Neden LLM kendi kendine barındırılır?

Barındırılan bir AI API'sini çağırdığınızda, gönderdiğiniz her istem başka birinin donanımında işlenir. Sağlayıcı, giriş ve çıkışlarınızın tam metnini görür; bunları genellikle belirli bir süre saklar ve modelin ne söyleyip söylemeyeceğine kendi içerik politikasını uygular. Hassas her şey için — özel kaynak kodları, gizli belgeler, kişisel veriler veya yalnızca üçüncü bir tarafla paylaşmak istemediğiniz çalışmalar — bu anlamlı bir maruz kalma riskidir.

LLM'yi kendi kendinize barındırmak aracıyı ortadan kaldırır. Bir GPU sunucusu kiralar, üzerine açık ağırlıklı bir model yükler ve çıkarımı kendiniz çalıştırırsınız. İstemler hiçbir zaman kontrol ettiğiniz altyapının dışına çıkmaz, siz seçmedikçe hiçbir şey saklanmaz ve model sizin seçtiğiniz modeldir — yerleşik ret mekanizması olmayan açık modeller dahil. KYC gerektirmeyen, offshore bir GPU sunucusuyla birleştiğinde, kendi kendine barındırma size hiçbir şirketin kaydetmediği, politika gereği hız sınırlaması uygulamadığı ya da teslim etmesi için zorlanamayacağı özel bir AI uç noktası sunar. Bu rehber donanım ve model seçimini, bir modeli servise almayı ve maliyetleri ele almaktadır.

GPU Sunucusunda LLM Kendi Kendine Barındırma
VRAM her şeyi belirler: modelin ek marjla sığdığı en küçük GPU'yu seçin — kullanılmayan VRAM için ödeme yapmak boşa harcanan bütçedir.

GPU'yu modele eşleştirin

Her şeyi belirleyen tek rakam VRAM'dir — GPU'nun belleği. Bir modelin iyi çalışabilmesi için VRAM'e sığması gerekir; ihtiyaç duyduğu miktar parametre sayısına ve yüklendiği hassasiyete bağlıdır. Kaba bir kılavuz olarak, 4-bit olarak nicelleştirilmiş bir model milyar parametre başına yarım gigabaytı biraz aşan VRAM gerektirir; 16-bit tam hassasiyette yüklendiğinde bunun kabaca iki katına, artı bağlam penceresi için ek alana ihtiyaç duyar.

Pratikte bu durum mevcut kartlara temiz bir şekilde karşılık gelir:

  • RTX 4090 / RTX 5090 (24-32 GB VRAM) — Nicelleştirilmiş olarak yaklaşık 30B parametreye kadar modelleri ve daha küçük modelleri tam hassasiyetle rahatça çalıştırır. Çoğu kişisel barındırıcı için tatlı nokta: hızlı, uygun fiyatlı ve en iyi orta ölçekli açık modeller için yeterli.
  • H100 SXM5 (80 GB VRAM) — 70B sınıfı modelleri nicelleştirilmiş olarak bol marjla çalıştırır, büyük bağlam pencerelerini yönetir ve yüksek verimle çok sayıda eş zamanlı isteği karşılar. En büyük açık modeller veya üretim düzeyinde yük için tercih.
  • Çoklu GPU (2x H100, 160 GB) — En büyük açık ağırlıklı modeller ve yoğun eş zamanlı servis için.

Çalıştırmak istediğiniz modelden başlayın, VRAM ihtiyacını hesaplayın ve modeli ek marjla sığdıran en küçük kartı seçin. Modelin kullanmayacağı kadar fazla VRAM için ödeme yapmak boşa harcanan bütçedir.

Modelinizi seçin

2026'daki açık ağırlıklı ekosistemi, çoğu görev için kendi kendine barındırılan bir modelin barındırılan API ile gerçekten rekabet edebildiği kadar güçlüdür. Bilmeye değer başlıca aileler:

  • Llama ailesi modeller — Çeşitli boyutlarda iyi desteklenen genel amaçlı modeller; çoğu iş yükü için güvenli varsayılan seçenek.
  • DeepSeek — Güçlü akıl yürütme ve kodlama performansı; tek yüksek VRAM'li kartta iyi çalışan boyutlarda mevcuttur.
  • Qwen ve Mistral — Parametre başına mükemmel kapasite; 24-32 GB'lık kartta rahatça çalışan daha küçük varyantlar.
  • Sansürsüz veya abliterate edilmiş varyantlar — Ret davranışı kaldırılmış, barındırılan bir sağlayıcının içerik politikasını uygulamayan bir model isteyen kullanıcılar için yukarıdakilerin topluluk ince ayarları.

Görevi gerçekten iyi yapan en küçük modeli seçin. Tek bir 4090 veya 5090 üzerinde iyi seçilmiş bir 14B-30B model, gerçek kullanımın büyük çoğunluğu için yeterlidir — kodlama yardımı, taslak hazırlama, özetleme, analiz — ve alışkanlıktan 70B modele uzanmaktan çok daha ucuzdur.

Adım 1 — GPU sunucusunu sağlayın

ServPrivacy'de belirlediğiniz kartı ve istediğiniz yargı bölgesini içeren bir GPU planı seçin ve kripto para ile ödeme yapın. Sunucu otomatik olarak sağlanır — CUDA ve NVIDIA sürücüleri önceden yüklü gelir, dolayısıyla makine açıldığı anda çıkarım çalışmalarına hazırdır; sürücü kurulumuyla uğraşmanıza gerek yoktur.

SSH üzerinden bağlanın. Hızlı bir nvidia-smi komutu GPU'nun görünür olduğunu doğrular ve boş VRAM miktarını gösterir. Buradan itibaren çalışan bir modele birkaç komut uzaktasınız.

Adım 2 — Modeli servise alın

Sadeliği mi yoksa maksimum verimi mi istediğinize bağlı olarak iki köklü yol mevcuttur.

Hızlı yol: Ollama. Bir modeli dakikalar içinde istem yanıtlar hale getirmek için Ollama en basit seçenektir. Tek satırlık yükleyicisiyle kurun, ardından tek bir komutla bir modeli çekip çalıştırın — örneğin ollama run llama3.1. Ollama indirme, nicelleştirme ve GPU yüklemesini üstlenir ve yerel bir API sunar. Kişisel kullanım ve geliştirme için çoğu kişinin ihtiyacı olan budur.

Verim yolu: vLLM. Çok sayıda eş zamanlı isteği verimli şekilde karşılamanız gerekiyorsa — kişisel asistan yerine bir uygulama arka ucu — vLLM standart tercihtir. Aynı GPU'dan çok daha fazla token/saniye elde eden yüksek performanslı bir çıkarım sunucusudur ve OpenAI uyumlu bir API sunar; böylece barındırılan API için yazılmış mevcut kodunuzu yalnızca URL değişikliğiyle kendi sunucunuza yönlendirebilirsiniz.

Her iki durumda da sunucu açıldıktan birkaç dakika içinde istem kabul eden bir modele sahip olursunuz.

Adım 3 — Gizli kullanın ve uç noktayı güvenli hale getirin

Varsayılan olarak çıkarım sunucusu yerel olarak dinler. Ona ulaşmanın iki mantıklı yolu ve bir kural vardır.

Kural: Ham çıkarım API'sini açık internete maruz bırakmayın. Kutudan çıktığı haliyle kimlik doğrulaması yoktur ve açık bir uç nokta bulunup kötüye kullanılacaktır. Bunun yerine SSH üzerinden tünel açın — böylece API localhost'a bağlı kalır ve şifreli SSH bağlantısı üzerinden erişirsiniz — veya kimlik doğrulaması ve TLS uygulayan bir ters proxy'nin arkasına koyun. Kişisel asistan için SSH tüneli en basit ve en gizli seçenektir; bir uygulama için kimliği doğrulanmış proxy.

Bu şekilde yapıldığında istemler yalnızca siz ile kendi sunucunuz arasında seyahat eder. Hiçbir şey üçüncü bir taraf tarafından kaydedilmez, siz yapılandırmadıkça hiçbir şey saklanmaz ve model dış bir içerik politikası olmadan yanıt verir. Bu, kelimenin gerçek anlamıyla sizin AI'nızdır.

Maliyetler ne kadar?

Kendi kendine barındırmanın ekonomisi tamamen kullanım düzenine bağlıdır. Barındırılan API token başına ücret alır; bu, hafif ve ara sıra kullanım için mükemmel, yoğun ve sürekli kullanım için pahalıdır. Kiralık GPU sunucu ise ne kadar token işletirseniz işletin sabit aylık maliyettir.

Gerçek iş yükleri çalıştıran herkes için başa baş noktası hızla gelir. Tek bir RTX 4090 sunucu ServPrivacy'de aylık yaklaşık 122 dolardan başlar; barındırılan API'deki aylık harcamanız zaten bu aralıktaysa — kodlama asistanları, toplu işleme veya herhangi bir uygulama arka ucu için sıklıkla böyledir — özel bir GPU hem daha ucuz hem de ölçümsüzdür. Ayrıca token başına faturanın veremeyeceği şeyleri kazanırsınız: hız sınırı yok, politika reddi yok, öngörülebilir maliyet ve tam gizlilik. Ara sıra tek seferlik sorular için API uygundur; her türlü düzenli kullanım için kendi kendine barındırma hem maliyet hem de kontrol açısından kazanır.

Kendi kendine barındırma ne zaman doğru seçimdir?

LLM'yi kendi kendinize barındırmak, üç şeyden herhangi biri sizin için önemli olduğunda doğru seçimdir: gizlilik — istemler üçüncü bir tarafın sunucularına koymak istemeyeceğiniz bir şey içeriyorsa; kontrol — barındırılan ret mekanizması olmayan açık modeller dahil belirli bir model istiyorsanız; veya ekonomi — kullanımınız sabit GPU maliyetinin token başına faturayı geçtiği kadar yoğunsa.

Modele yalnızca ara sıra soru soruyorsanız, barındırılan API daha basit ve daha ucuzdur. Ancak sürekli kullanım, hassas materyal veya kendi koşullarınızda yanıt veren bir model ihtiyacı için kendi modelinizi çalıştıran bir GPU sunucusu daha iyi bir kurulumdur — ve KYC gerektirmeyen, offshore bir GPU barındırıcısında, yalnızca size ait özel bir AI uç noktasıdır.

SSS

LLM'yi kendi kendinize barındırma — sık sorulan sorular

01 Neden API kullanmak yerine LLM'yi kendi kendinize barındırmalısınız?

Gizlilik, kontrol ve maliyet. Barındırılan bir API ile sağlayıcı her istemi görür, genellikle saklar ve kendi içerik politikasını uygular. Kendi kendinize barındırma istemleri kontrol ettiğiniz altyapıda tutar, siz seçmedikçe hiçbir şeyi saklamaz ve seçtiğiniz herhangi bir açık modeli çalıştırır. Hassas veya yoğun kullanım için aynı zamanda token başına faturadan daha ucuzdur.

02 LLM çalıştırmak için ne kadar VRAM gerekir?

Model boyutuna ve hassasiyetine bağlıdır. Kaba bir kılavuz olarak, 4-bit nicelleştirilmiş bir model milyar parametre başına yarım gigabaytı biraz aşan VRAM gerektirir, artı bağlam için ek alan. 24-32 GB'lık kart (RTX 4090 veya 5090) nicelleştirilmiş olarak yaklaşık 30B'ye kadar modelleri yönetir; 80 GB H100 ise 70B sınıfı modelleri yönetir.

03 Bir modeli çalıştırmanın en hızlı yolu nedir?

Ollama. CUDA önceden yüklenmiş GPU sunucusunda, Ollama'yı tek satırlık yükleyicisiyle kurun ve tek bir komutla model çalıştırın. İndirme, nicelleştirme ve GPU yüklemesini üstlenir, yerel bir API sunar. Çok sayıda eş zamanlı isteğin yüksek verimle karşılanması için vLLM daha iyi seçimdir.

04 Sansürsüz model çalıştırabilir miyim?

Evet. Sunucuyu siz kontrol ettiğinizden, ret davranışı kaldırılmış topluluk sansürsüz veya abliterate edilmiş ince ayarlar dahil modeli siz seçersiniz. İnsanların kendi kendine barındırmanın temel nedenlerinden biri de budur: model, yolda barındırılan bir sağlayıcının içerik politikası olmadan yanıt verir.

05 NVIDIA sürücülerini ve CUDA'yı kendim yüklemek zorunda mıyım?

Hayır. ServPrivacy GPU sunucuları NVIDIA sürücüleri ve CUDA önceden yüklenmiş olarak gelir; makine açıldığı anda çıkarıma hazırdır. Hızlı bir nvidia-smi GPU'nun görünür olduğunu doğrular; oradan itibaren çalışan bir modele birkaç komut uzaktasınız.

06 LLM'yi kendi kendinize barındırmak API'den daha ucuz mudur?

Sürekli kullanım için evet. API token başına ücret alır; GPU sunucu ise RTX 4090 için aylık yaklaşık 122 dolardan başlayan sabit aylık maliyettir, hacimden bağımsız olarak. Aylık API harcamanız zaten bu aralıktaysa, özel GPU daha ucuz, ölçümsüz ve hız sınırı ile politika redlerinden muaftır. Ara sıra kullanım için API uygundur.

Kendi modelinizi özel GPU sunucusunda çalıştırın

ServPrivacy GPU sunucuları — RTX 4090, RTX 5090 ve H100, CUDA önceden yüklenmiş, KYC gerektirmeyen ve offshore, aylık 122 dolardan. Sizin modeliniz, sizin donanımınız, sizin istemleriniz.

Self-Host LLM GPU Planlarını Görüntüle No-KYC GPU