Neden LLM kendi kendine barındırılır?
Barındırılan bir AI API'sini çağırdığınızda, gönderdiğiniz her istem başka birinin donanımında işlenir. Sağlayıcı, giriş ve çıkışlarınızın tam metnini görür; bunları genellikle belirli bir süre saklar ve modelin ne söyleyip söylemeyeceğine kendi içerik politikasını uygular. Hassas her şey için — özel kaynak kodları, gizli belgeler, kişisel veriler veya yalnızca üçüncü bir tarafla paylaşmak istemediğiniz çalışmalar — bu anlamlı bir maruz kalma riskidir.
LLM'yi kendi kendinize barındırmak aracıyı ortadan kaldırır. Bir GPU sunucusu kiralar, üzerine açık ağırlıklı bir model yükler ve çıkarımı kendiniz çalıştırırsınız. İstemler hiçbir zaman kontrol ettiğiniz altyapının dışına çıkmaz, siz seçmedikçe hiçbir şey saklanmaz ve model sizin seçtiğiniz modeldir — yerleşik ret mekanizması olmayan açık modeller dahil. KYC gerektirmeyen, offshore bir GPU sunucusuyla birleştiğinde, kendi kendine barındırma size hiçbir şirketin kaydetmediği, politika gereği hız sınırlaması uygulamadığı ya da teslim etmesi için zorlanamayacağı özel bir AI uç noktası sunar. Bu rehber donanım ve model seçimini, bir modeli servise almayı ve maliyetleri ele almaktadır.

GPU'yu modele eşleştirin
Her şeyi belirleyen tek rakam VRAM'dir — GPU'nun belleği. Bir modelin iyi çalışabilmesi için VRAM'e sığması gerekir; ihtiyaç duyduğu miktar parametre sayısına ve yüklendiği hassasiyete bağlıdır. Kaba bir kılavuz olarak, 4-bit olarak nicelleştirilmiş bir model milyar parametre başına yarım gigabaytı biraz aşan VRAM gerektirir; 16-bit tam hassasiyette yüklendiğinde bunun kabaca iki katına, artı bağlam penceresi için ek alana ihtiyaç duyar.
Pratikte bu durum mevcut kartlara temiz bir şekilde karşılık gelir:
- RTX 4090 / RTX 5090 (24-32 GB VRAM) — Nicelleştirilmiş olarak yaklaşık 30B parametreye kadar modelleri ve daha küçük modelleri tam hassasiyetle rahatça çalıştırır. Çoğu kişisel barındırıcı için tatlı nokta: hızlı, uygun fiyatlı ve en iyi orta ölçekli açık modeller için yeterli.
- H100 SXM5 (80 GB VRAM) — 70B sınıfı modelleri nicelleştirilmiş olarak bol marjla çalıştırır, büyük bağlam pencerelerini yönetir ve yüksek verimle çok sayıda eş zamanlı isteği karşılar. En büyük açık modeller veya üretim düzeyinde yük için tercih.
- Çoklu GPU (2x H100, 160 GB) — En büyük açık ağırlıklı modeller ve yoğun eş zamanlı servis için.
Çalıştırmak istediğiniz modelden başlayın, VRAM ihtiyacını hesaplayın ve modeli ek marjla sığdıran en küçük kartı seçin. Modelin kullanmayacağı kadar fazla VRAM için ödeme yapmak boşa harcanan bütçedir.
Modelinizi seçin
2026'daki açık ağırlıklı ekosistemi, çoğu görev için kendi kendine barındırılan bir modelin barındırılan API ile gerçekten rekabet edebildiği kadar güçlüdür. Bilmeye değer başlıca aileler:
- Llama ailesi modeller — Çeşitli boyutlarda iyi desteklenen genel amaçlı modeller; çoğu iş yükü için güvenli varsayılan seçenek.
- DeepSeek — Güçlü akıl yürütme ve kodlama performansı; tek yüksek VRAM'li kartta iyi çalışan boyutlarda mevcuttur.
- Qwen ve Mistral — Parametre başına mükemmel kapasite; 24-32 GB'lık kartta rahatça çalışan daha küçük varyantlar.
- Sansürsüz veya abliterate edilmiş varyantlar — Ret davranışı kaldırılmış, barındırılan bir sağlayıcının içerik politikasını uygulamayan bir model isteyen kullanıcılar için yukarıdakilerin topluluk ince ayarları.
Görevi gerçekten iyi yapan en küçük modeli seçin. Tek bir 4090 veya 5090 üzerinde iyi seçilmiş bir 14B-30B model, gerçek kullanımın büyük çoğunluğu için yeterlidir — kodlama yardımı, taslak hazırlama, özetleme, analiz — ve alışkanlıktan 70B modele uzanmaktan çok daha ucuzdur.
Adım 1 — GPU sunucusunu sağlayın
ServPrivacy'de belirlediğiniz kartı ve istediğiniz yargı bölgesini içeren bir GPU planı seçin ve kripto para ile ödeme yapın. Sunucu otomatik olarak sağlanır — CUDA ve NVIDIA sürücüleri önceden yüklü gelir, dolayısıyla makine açıldığı anda çıkarım çalışmalarına hazırdır; sürücü kurulumuyla uğraşmanıza gerek yoktur.
SSH üzerinden bağlanın. Hızlı bir nvidia-smi komutu GPU'nun görünür olduğunu doğrular ve boş VRAM miktarını gösterir. Buradan itibaren çalışan bir modele birkaç komut uzaktasınız.
Adım 2 — Modeli servise alın
Sadeliği mi yoksa maksimum verimi mi istediğinize bağlı olarak iki köklü yol mevcuttur.
Hızlı yol: Ollama. Bir modeli dakikalar içinde istem yanıtlar hale getirmek için Ollama en basit seçenektir. Tek satırlık yükleyicisiyle kurun, ardından tek bir komutla bir modeli çekip çalıştırın — örneğin ollama run llama3.1. Ollama indirme, nicelleştirme ve GPU yüklemesini üstlenir ve yerel bir API sunar. Kişisel kullanım ve geliştirme için çoğu kişinin ihtiyacı olan budur.
Verim yolu: vLLM. Çok sayıda eş zamanlı isteği verimli şekilde karşılamanız gerekiyorsa — kişisel asistan yerine bir uygulama arka ucu — vLLM standart tercihtir. Aynı GPU'dan çok daha fazla token/saniye elde eden yüksek performanslı bir çıkarım sunucusudur ve OpenAI uyumlu bir API sunar; böylece barındırılan API için yazılmış mevcut kodunuzu yalnızca URL değişikliğiyle kendi sunucunuza yönlendirebilirsiniz.
Her iki durumda da sunucu açıldıktan birkaç dakika içinde istem kabul eden bir modele sahip olursunuz.
Adım 3 — Gizli kullanın ve uç noktayı güvenli hale getirin
Varsayılan olarak çıkarım sunucusu yerel olarak dinler. Ona ulaşmanın iki mantıklı yolu ve bir kural vardır.
Kural: Ham çıkarım API'sini açık internete maruz bırakmayın. Kutudan çıktığı haliyle kimlik doğrulaması yoktur ve açık bir uç nokta bulunup kötüye kullanılacaktır. Bunun yerine SSH üzerinden tünel açın — böylece API localhost'a bağlı kalır ve şifreli SSH bağlantısı üzerinden erişirsiniz — veya kimlik doğrulaması ve TLS uygulayan bir ters proxy'nin arkasına koyun. Kişisel asistan için SSH tüneli en basit ve en gizli seçenektir; bir uygulama için kimliği doğrulanmış proxy.
Bu şekilde yapıldığında istemler yalnızca siz ile kendi sunucunuz arasında seyahat eder. Hiçbir şey üçüncü bir taraf tarafından kaydedilmez, siz yapılandırmadıkça hiçbir şey saklanmaz ve model dış bir içerik politikası olmadan yanıt verir. Bu, kelimenin gerçek anlamıyla sizin AI'nızdır.
Maliyetler ne kadar?
Kendi kendine barındırmanın ekonomisi tamamen kullanım düzenine bağlıdır. Barındırılan API token başına ücret alır; bu, hafif ve ara sıra kullanım için mükemmel, yoğun ve sürekli kullanım için pahalıdır. Kiralık GPU sunucu ise ne kadar token işletirseniz işletin sabit aylık maliyettir.
Gerçek iş yükleri çalıştıran herkes için başa baş noktası hızla gelir. Tek bir RTX 4090 sunucu ServPrivacy'de aylık yaklaşık 122 dolardan başlar; barındırılan API'deki aylık harcamanız zaten bu aralıktaysa — kodlama asistanları, toplu işleme veya herhangi bir uygulama arka ucu için sıklıkla böyledir — özel bir GPU hem daha ucuz hem de ölçümsüzdür. Ayrıca token başına faturanın veremeyeceği şeyleri kazanırsınız: hız sınırı yok, politika reddi yok, öngörülebilir maliyet ve tam gizlilik. Ara sıra tek seferlik sorular için API uygundur; her türlü düzenli kullanım için kendi kendine barındırma hem maliyet hem de kontrol açısından kazanır.
Kendi kendine barındırma ne zaman doğru seçimdir?
LLM'yi kendi kendinize barındırmak, üç şeyden herhangi biri sizin için önemli olduğunda doğru seçimdir: gizlilik — istemler üçüncü bir tarafın sunucularına koymak istemeyeceğiniz bir şey içeriyorsa; kontrol — barındırılan ret mekanizması olmayan açık modeller dahil belirli bir model istiyorsanız; veya ekonomi — kullanımınız sabit GPU maliyetinin token başına faturayı geçtiği kadar yoğunsa.
Modele yalnızca ara sıra soru soruyorsanız, barındırılan API daha basit ve daha ucuzdur. Ancak sürekli kullanım, hassas materyal veya kendi koşullarınızda yanıt veren bir model ihtiyacı için kendi modelinizi çalıştıran bir GPU sunucusu daha iyi bir kurulumdur — ve KYC gerektirmeyen, offshore bir GPU barındırıcısında, yalnızca size ait özel bir AI uç noktasıdır.