LLM को स्व-होस्ट क्यों करें
जब आप किसी होस्टेड AI API को कॉल करते हैं, तो आपके हर प्रॉम्प्ट को किसी और के हार्डवेयर पर प्रोसेस किया जाता है। प्रोवाइडर आपके इनपुट और आउटपुट का पूरा टेक्स्ट देखता है, उसे आमतौर पर कुछ समय के लिए रिटेन करता है, और मॉडल क्या कहेगा और क्या नहीं — इस पर अपनी कंटेंट पॉलिसी लागू करता है। किसी भी संवेदनशील जानकारी के लिए — प्रोप्राइटरी कोड, गोपनीय दस्तावेज़, व्यक्तिगत डेटा, या वह काम जो आप किसी तीसरे पक्ष के पास दर्ज नहीं करना चाहते — यह एक गंभीर जोखिम है।
LLM को स्व-होस्ट करने से बिचौलिया हट जाता है। आप एक GPU सर्वर किराये पर लेते हैं, उस पर एक ओपन-वेट मॉडल लोड करते हैं, और इंफरेंस खुद चलाते हैं। प्रॉम्प्ट आपके नियंत्रण के बाहर किसी इन्फ्रास्ट्रक्चर पर कभी नहीं जाते, जब तक आप न चाहें कुछ भी रिटेन नहीं होता, और मॉडल वही है जो आपने चुना — बिना किसी बिल्ट-इन रिफ्यूज़ल वाले ओपन मॉडल सहित। no-KYC, ऑफशोर GPU सर्वर के साथ मिलकर स्व-होस्टिंग आपको एक प्राइवेट AI एंडपॉइंट देती है, जिसे कोई कंपनी लॉग नहीं करती, पॉलिसी से रेट-लिमिट नहीं करती, और जिसे सौंपने पर मजबूर नहीं किया जा सकता। यह गाइड हार्डवेयर और मॉडल चुनने, सर्विंग शुरू करने, और लागत की जानकारी देती है।

GPU को मॉडल से मिलाएँ
सबकुछ तय करने वाली एकमात्र संख्या है VRAM — GPU की मेमोरी। मॉडल को अच्छी तरह चलाने के लिए उसे VRAM में फिट होना जरूरी है, और इसके लिए कितनी VRAM चाहिए यह उसके पैरामीटर काउंट और लोडिंग प्रिसीज़न पर निर्भर करता है। मोटे तौर पर, 4-bit quantised मॉडल को प्रति बिलियन पैरामीटर पर आधे गीगाबाइट से थोड़ी ज़्यादा VRAM चाहिए; पूरी 16-bit प्रिसीज़न पर लोड करने पर लगभग दोगुनी VRAM के साथ कॉन्टेक्स्ट विंडो के लिए अतिरिक्त जगह भी चाहिए।
व्यवहार में यह उपलब्ध कार्ड्स पर इस तरह मैप होता है:
- RTX 4090 / RTX 5090 (24-32 GB VRAM) — quantised अवस्था में लगभग 30B पैरामीटर तक के मॉडल और छोटे मॉडलों को पूरी प्रिसीज़न पर आसानी से चलाता है। अधिकतर स्व-होस्टर्स के लिए आदर्श विकल्प: तेज़, किफ़ायती, और बेहतरीन मिड-साइज़ ओपन मॉडलों के लिए पर्याप्त।
- H100 SXM5 (80 GB VRAM) — 70B-class मॉडलों को quantised अवस्था में पर्याप्त जगह के साथ चलाता है, बड़े कॉन्टेक्स्ट विंडो संभालता है, और हाई थ्रूपुट पर कई एक साथ रिक्वेस्ट सर्व करता है। सबसे बड़े ओपन मॉडलों या प्रोडक्शन-ग्रेड लोड के लिए पसंदीदा।
- Multi-GPU (2x H100, 160 GB) — सबसे बड़े ओपन-वेट मॉडलों और भारी concurrent सर्विंग के लिए।
उस मॉडल से शुरू करें जिसे आप चलाना चाहते हैं, उसकी VRAM ज़रूरत निकालें, और जो सबसे छोटा कार्ड उसे पर्याप्त हेडरूम के साथ फिट करे उसे चुनें। मॉडल की ज़रूरत से ज़्यादा VRAM के लिए भुगतान करना बजट की बर्बादी है।
अपना मॉडल चुनें
2026 में ओपन-वेट इकोसिस्टम इतना मज़बूत है कि ज़्यादातर कामों के लिए स्व-होस्टेड मॉडल, होस्टेड API के सच्चे प्रतिस्पर्धी हैं। जानने योग्य मुख्य फ़ैमिलीज़:
- Llama-family मॉडल — कई साइज़ में अच्छी तरह समर्थित जनरल-पर्पज़ मॉडल; अधिकतर वर्कलोड के लिए सुरक्षित डिफ़ॉल्ट विकल्प।
- DeepSeek — मज़बूत रीज़निंग और कोडिंग प्रदर्शन, ऐसे साइज़ों में जो एक हाई-VRAM कार्ड पर अच्छी तरह चलते हैं।
- Qwen और Mistral — प्रति पैरामीटर बेहतरीन क्षमता, छोटे वेरिएंट 24-32 GB कार्ड पर आसानी से चलते हैं।
- Uncensored या abliterated वेरिएंट — उपरोक्त मॉडलों के कम्युनिटी फाइन-ट्यून जिनसे रिफ्यूज़ल व्यवहार हटा दिया गया है, उन उपयोगकर्ताओं के लिए जो होस्टेड प्रोवाइडर की कंटेंट पॉलिसी के बिना मॉडल चाहते हैं।
वह सबसे छोटा मॉडल चुनें जो वास्तव में आपका काम अच्छी तरह करे। एकल 4090 या 5090 पर एक अच्छी तरह चुना गया 14B-30B मॉडल अधिकतर वास्तविक उपयोग — कोडिंग सहायता, ड्राफ्टिंग, संक्षेपण, विश्लेषण — के लिए पर्याप्त है, और आदत से 70B मॉडल चुनने की तुलना में बहुत सस्ता।
चरण 1 — GPU सर्वर प्रोविज़न करें
ServPrivacy पर, जो कार्ड और जो जूरिस्डिक्शन आप चाहते हैं उसके अनुसार एक GPU प्लान चुनें, और क्रिप्टो में भुगतान करें। सर्वर अपने आप प्रोविज़न हो जाता है — CUDA और NVIDIA ड्राइवर पहले से इंस्टॉल आते हैं, इसलिए बूट होते ही सिस्टम इंफरेंस के लिए तैयार होता है; ड्राइवर इंस्टॉलेशन की कोई झंझट नहीं।
SSH से कनेक्ट करें। एक त्वरित nvidia-smi पुष्टि करता है कि GPU दिख रहा है और उसकी फ्री VRAM दिखाता है। यहाँ से आप कुछ ही कमांड में एक चलता हुआ मॉडल पा सकते हैं।
चरण 2 — मॉडल सर्विंग शुरू करें
दो अच्छी तरह आज़माए हुए रास्ते हैं, यह इस पर निर्भर करता है कि आप सरलता चाहते हैं या अधिकतम थ्रूपुट।
तेज़ रास्ता: Ollama। मिनटों में प्रॉम्प्ट का जवाब देने वाला मॉडल पाने के लिए, Ollama सबसे सरल विकल्प है। इसे इसके वन-लाइन इंस्टॉलर से इंस्टॉल करें, फिर एक ही कमांड से एक मॉडल पुल और रन करें — जैसे ollama run llama3.1। Ollama डाउनलोड, quantisation और GPU ऑफलोड संभाल लेता है, और एक लोकल API एक्सपोज़ करता है। व्यक्तिगत उपयोग और डेवलपमेंट के लिए अधिकतर लोगों को बस इतना ही चाहिए।
थ्रूपुट रास्ता: vLLM। यदि आपको कई concurrent रिक्वेस्ट कुशलतापूर्वक सर्व करनी हैं — एक पर्सनल असिस्टेंट की बजाय एक ऐप्लिकेशन बैकएंड — तो vLLM मानक विकल्प है। यह एक हाई-परफॉर्मेंस इंफरेंस सर्वर है जो उसी GPU से कहीं अधिक टोकन प्रति सेकंड निकालता है, और यह OpenAI-compatible API एक्सपोज़ करता है, इसलिए होस्टेड API के लिए लिखा गया मौजूदा कोड केवल URL बदलकर आपके अपने सर्वर पर पॉइंट किया जा सकता है।
किसी भी रास्ते पर, सर्वर बूट होने के कुछ मिनटों के भीतर आपके पास प्रॉम्प्ट स्वीकार करता हुआ मॉडल होता है।
चरण 3 — इसे प्राइवेट रखें और एंडपॉइंट सुरक्षित करें
डिफ़ॉल्ट रूप से इंफरेंस सर्वर लोकली लिसन करता है। इसे एक्सेस करने के दो समझदारी भरे तरीके हैं, और एक नियम।
नियम: रॉ इंफरेंस API को खुले इंटरनेट पर एक्सपोज़ न करें। डिफ़ॉल्ट रूप से इसमें कोई ऑथेंटिकेशन नहीं होता, और एक खुला एंडपॉइंट ढूँढ लिया जाएगा और उसका दुरुपयोग होगा। इसके बजाय, SSH पर टनल करें — ताकि API localhost से बाउंड रहे और आप एन्क्रिप्टेड SSH कनेक्शन के ज़रिए इसे एक्सेस करें — या इसे एक रिवर्स प्रॉक्सी के पीछे रखें जो ऑथेंटिकेशन और TLS लागू करे। एक पर्सनल असिस्टेंट के लिए SSH टनल सबसे सरल और प्राइवेट विकल्प है; किसी ऐप्लिकेशन के लिए, ऑथेंटिकेटेड प्रॉक्सी।
इस तरह करने पर, प्रॉम्प्ट केवल आपके और आपके अपने सर्वर के बीच यात्रा करते हैं। कोई तीसरा पक्ष कुछ लॉग नहीं करता, जब तक आप न चाहें कुछ रिटेन नहीं होता, और मॉडल बिना किसी बाहरी कंटेंट पॉलिसी के जवाब देता है। यह, सही मायनों में, आपका AI है।
लागत क्या है
स्व-होस्टिंग की अर्थव्यवस्था पूरी तरह उपयोग के पैटर्न पर निर्भर करती है। होस्टेड API प्रति टोकन चार्ज करता है, जो हल्के, कभी-कभार के उपयोग के लिए बढ़िया है और भारी, निरंतर उपयोग के लिए महँगा। किराये का GPU सर्वर एक निश्चित मासिक लागत है, चाहे आप कितने भी टोकन प्रोसेस करें।
वास्तविक वर्कलोड चलाने वाले किसी भी व्यक्ति के लिए क्रॉसओवर जल्दी आता है। ServPrivacy पर एक RTX 4090 सर्वर लगभग $122/माह से शुरू होता है; यदि होस्टेड API पर आपका मासिक खर्च पहले से उस सीमा में है — और कोडिंग असिस्टेंट, बैच प्रोसेसिंग, या किसी भी ऐप्लिकेशन बैकएंड के लिए यह अक्सर होता है — तो एक डेडिकेटेड GPU सस्ता भी है और अनमीटर्ड भी। आपको वह भी मिलता है जो प्रति-टोकन बिल कभी नहीं दे सकता: कोई रेट लिमिट नहीं, कोई पॉलिसी रिफ्यूज़ल नहीं, अनुमानित लागत, और पूरी गोपनीयता। कभी-कभार के सवालों के लिए API ठीक है; किसी भी नियमित काम के लिए, स्व-होस्टिंग लागत और नियंत्रण दोनों में जीतती है।
स्व-होस्टिंग कब सही विकल्प है
LLM की स्व-होस्टिंग सही विकल्प है जब तीन में से कोई एक बात आपके लिए मायने रखती हो: गोपनीयता — प्रॉम्प्ट में ऐसी कोई भी जानकारी हो जो आप किसी तीसरे पक्ष के सर्वर पर नहीं रखना चाहते; नियंत्रण — आप कोई खास मॉडल चाहते हैं, जिसमें होस्टेड रिफ्यूज़ल के बिना ओपन मॉडल शामिल हों; या अर्थव्यवस्था — आपका उपयोग इतना भारी है कि एक निश्चित GPU लागत प्रति-टोकन बिल को मात देती है।
यदि आप मॉडल से कभी-कभार ही सवाल करते हैं, तो होस्टेड API सरल और सस्ता है। लेकिन निरंतर उपयोग, संवेदनशील सामग्री, या ऐसे मॉडल की ज़रूरत के लिए जो आपकी शर्तों पर जवाब दे, GPU सर्वर पर अपना खुद का मॉडल बेहतर सेटअप है — और no-KYC, ऑफशोर GPU होस्ट पर यह एक ऐसा प्राइवेट AI एंडपॉइंट है जो सिर्फ आपका है।