होम / गोपनीयता होस्टिंग Guides / GPU सर्वर पर LLM को स्व-होस्ट कैसे करें — 2026 गाइड
परिचालन

GPU सर्वर पर LLM को स्व-होस्ट कैसे करें

GPU सर्वर पर LLM चलाने की एक व्यावहारिक गाइड — यह गोपनीयता और नियंत्रण के लिहाज़ से होस्टेड API से क्यों बेहतर है, GPU को मॉडल के अनुसार कैसे चुनें, मॉडल सर्विंग शुरू करने का सबसे तेज़ तरीका, और वास्तविक लागत।

KYC नहीं
केवल क्रिप्टो
लॉग नहीं
DMCA अनदेखा
पूर्ण रूट
NVMe SSD

LLM को स्व-होस्ट क्यों करें

जब आप किसी होस्टेड AI API को कॉल करते हैं, तो आपके हर प्रॉम्प्ट को किसी और के हार्डवेयर पर प्रोसेस किया जाता है। प्रोवाइडर आपके इनपुट और आउटपुट का पूरा टेक्स्ट देखता है, उसे आमतौर पर कुछ समय के लिए रिटेन करता है, और मॉडल क्या कहेगा और क्या नहीं — इस पर अपनी कंटेंट पॉलिसी लागू करता है। किसी भी संवेदनशील जानकारी के लिए — प्रोप्राइटरी कोड, गोपनीय दस्तावेज़, व्यक्तिगत डेटा, या वह काम जो आप किसी तीसरे पक्ष के पास दर्ज नहीं करना चाहते — यह एक गंभीर जोखिम है।

LLM को स्व-होस्ट करने से बिचौलिया हट जाता है। आप एक GPU सर्वर किराये पर लेते हैं, उस पर एक ओपन-वेट मॉडल लोड करते हैं, और इंफरेंस खुद चलाते हैं। प्रॉम्प्ट आपके नियंत्रण के बाहर किसी इन्फ्रास्ट्रक्चर पर कभी नहीं जाते, जब तक आप न चाहें कुछ भी रिटेन नहीं होता, और मॉडल वही है जो आपने चुना — बिना किसी बिल्ट-इन रिफ्यूज़ल वाले ओपन मॉडल सहित। no-KYC, ऑफशोर GPU सर्वर के साथ मिलकर स्व-होस्टिंग आपको एक प्राइवेट AI एंडपॉइंट देती है, जिसे कोई कंपनी लॉग नहीं करती, पॉलिसी से रेट-लिमिट नहीं करती, और जिसे सौंपने पर मजबूर नहीं किया जा सकता। यह गाइड हार्डवेयर और मॉडल चुनने, सर्विंग शुरू करने, और लागत की जानकारी देती है।

GPU सर्वर पर LLM को स्व-होस्ट कैसे करें
VRAM सबकुछ तय करती है: वह सबसे छोटा GPU चुनें जिसमें मॉडल पर्याप्त हेडरूम के साथ फिट हो — अनुपयोगी VRAM के लिए भुगतान करना बजट की बर्बादी है।

GPU को मॉडल से मिलाएँ

सबकुछ तय करने वाली एकमात्र संख्या है VRAM — GPU की मेमोरी। मॉडल को अच्छी तरह चलाने के लिए उसे VRAM में फिट होना जरूरी है, और इसके लिए कितनी VRAM चाहिए यह उसके पैरामीटर काउंट और लोडिंग प्रिसीज़न पर निर्भर करता है। मोटे तौर पर, 4-bit quantised मॉडल को प्रति बिलियन पैरामीटर पर आधे गीगाबाइट से थोड़ी ज़्यादा VRAM चाहिए; पूरी 16-bit प्रिसीज़न पर लोड करने पर लगभग दोगुनी VRAM के साथ कॉन्टेक्स्ट विंडो के लिए अतिरिक्त जगह भी चाहिए।

व्यवहार में यह उपलब्ध कार्ड्स पर इस तरह मैप होता है:

  • RTX 4090 / RTX 5090 (24-32 GB VRAM) — quantised अवस्था में लगभग 30B पैरामीटर तक के मॉडल और छोटे मॉडलों को पूरी प्रिसीज़न पर आसानी से चलाता है। अधिकतर स्व-होस्टर्स के लिए आदर्श विकल्प: तेज़, किफ़ायती, और बेहतरीन मिड-साइज़ ओपन मॉडलों के लिए पर्याप्त।
  • H100 SXM5 (80 GB VRAM) — 70B-class मॉडलों को quantised अवस्था में पर्याप्त जगह के साथ चलाता है, बड़े कॉन्टेक्स्ट विंडो संभालता है, और हाई थ्रूपुट पर कई एक साथ रिक्वेस्ट सर्व करता है। सबसे बड़े ओपन मॉडलों या प्रोडक्शन-ग्रेड लोड के लिए पसंदीदा।
  • Multi-GPU (2x H100, 160 GB) — सबसे बड़े ओपन-वेट मॉडलों और भारी concurrent सर्विंग के लिए।

उस मॉडल से शुरू करें जिसे आप चलाना चाहते हैं, उसकी VRAM ज़रूरत निकालें, और जो सबसे छोटा कार्ड उसे पर्याप्त हेडरूम के साथ फिट करे उसे चुनें। मॉडल की ज़रूरत से ज़्यादा VRAM के लिए भुगतान करना बजट की बर्बादी है।

अपना मॉडल चुनें

2026 में ओपन-वेट इकोसिस्टम इतना मज़बूत है कि ज़्यादातर कामों के लिए स्व-होस्टेड मॉडल, होस्टेड API के सच्चे प्रतिस्पर्धी हैं। जानने योग्य मुख्य फ़ैमिलीज़:

  • Llama-family मॉडल — कई साइज़ में अच्छी तरह समर्थित जनरल-पर्पज़ मॉडल; अधिकतर वर्कलोड के लिए सुरक्षित डिफ़ॉल्ट विकल्प।
  • DeepSeek — मज़बूत रीज़निंग और कोडिंग प्रदर्शन, ऐसे साइज़ों में जो एक हाई-VRAM कार्ड पर अच्छी तरह चलते हैं।
  • Qwen और Mistral — प्रति पैरामीटर बेहतरीन क्षमता, छोटे वेरिएंट 24-32 GB कार्ड पर आसानी से चलते हैं।
  • Uncensored या abliterated वेरिएंट — उपरोक्त मॉडलों के कम्युनिटी फाइन-ट्यून जिनसे रिफ्यूज़ल व्यवहार हटा दिया गया है, उन उपयोगकर्ताओं के लिए जो होस्टेड प्रोवाइडर की कंटेंट पॉलिसी के बिना मॉडल चाहते हैं।

वह सबसे छोटा मॉडल चुनें जो वास्तव में आपका काम अच्छी तरह करे। एकल 4090 या 5090 पर एक अच्छी तरह चुना गया 14B-30B मॉडल अधिकतर वास्तविक उपयोग — कोडिंग सहायता, ड्राफ्टिंग, संक्षेपण, विश्लेषण — के लिए पर्याप्त है, और आदत से 70B मॉडल चुनने की तुलना में बहुत सस्ता।

चरण 1 — GPU सर्वर प्रोविज़न करें

ServPrivacy पर, जो कार्ड और जो जूरिस्डिक्शन आप चाहते हैं उसके अनुसार एक GPU प्लान चुनें, और क्रिप्टो में भुगतान करें। सर्वर अपने आप प्रोविज़न हो जाता है — CUDA और NVIDIA ड्राइवर पहले से इंस्टॉल आते हैं, इसलिए बूट होते ही सिस्टम इंफरेंस के लिए तैयार होता है; ड्राइवर इंस्टॉलेशन की कोई झंझट नहीं।

SSH से कनेक्ट करें। एक त्वरित nvidia-smi पुष्टि करता है कि GPU दिख रहा है और उसकी फ्री VRAM दिखाता है। यहाँ से आप कुछ ही कमांड में एक चलता हुआ मॉडल पा सकते हैं।

चरण 2 — मॉडल सर्विंग शुरू करें

दो अच्छी तरह आज़माए हुए रास्ते हैं, यह इस पर निर्भर करता है कि आप सरलता चाहते हैं या अधिकतम थ्रूपुट।

तेज़ रास्ता: Ollama। मिनटों में प्रॉम्प्ट का जवाब देने वाला मॉडल पाने के लिए, Ollama सबसे सरल विकल्प है। इसे इसके वन-लाइन इंस्टॉलर से इंस्टॉल करें, फिर एक ही कमांड से एक मॉडल पुल और रन करें — जैसे ollama run llama3.1। Ollama डाउनलोड, quantisation और GPU ऑफलोड संभाल लेता है, और एक लोकल API एक्सपोज़ करता है। व्यक्तिगत उपयोग और डेवलपमेंट के लिए अधिकतर लोगों को बस इतना ही चाहिए।

थ्रूपुट रास्ता: vLLM। यदि आपको कई concurrent रिक्वेस्ट कुशलतापूर्वक सर्व करनी हैं — एक पर्सनल असिस्टेंट की बजाय एक ऐप्लिकेशन बैकएंड — तो vLLM मानक विकल्प है। यह एक हाई-परफॉर्मेंस इंफरेंस सर्वर है जो उसी GPU से कहीं अधिक टोकन प्रति सेकंड निकालता है, और यह OpenAI-compatible API एक्सपोज़ करता है, इसलिए होस्टेड API के लिए लिखा गया मौजूदा कोड केवल URL बदलकर आपके अपने सर्वर पर पॉइंट किया जा सकता है।

किसी भी रास्ते पर, सर्वर बूट होने के कुछ मिनटों के भीतर आपके पास प्रॉम्प्ट स्वीकार करता हुआ मॉडल होता है।

चरण 3 — इसे प्राइवेट रखें और एंडपॉइंट सुरक्षित करें

डिफ़ॉल्ट रूप से इंफरेंस सर्वर लोकली लिसन करता है। इसे एक्सेस करने के दो समझदारी भरे तरीके हैं, और एक नियम।

नियम: रॉ इंफरेंस API को खुले इंटरनेट पर एक्सपोज़ न करें। डिफ़ॉल्ट रूप से इसमें कोई ऑथेंटिकेशन नहीं होता, और एक खुला एंडपॉइंट ढूँढ लिया जाएगा और उसका दुरुपयोग होगा। इसके बजाय, SSH पर टनल करें — ताकि API localhost से बाउंड रहे और आप एन्क्रिप्टेड SSH कनेक्शन के ज़रिए इसे एक्सेस करें — या इसे एक रिवर्स प्रॉक्सी के पीछे रखें जो ऑथेंटिकेशन और TLS लागू करे। एक पर्सनल असिस्टेंट के लिए SSH टनल सबसे सरल और प्राइवेट विकल्प है; किसी ऐप्लिकेशन के लिए, ऑथेंटिकेटेड प्रॉक्सी।

इस तरह करने पर, प्रॉम्प्ट केवल आपके और आपके अपने सर्वर के बीच यात्रा करते हैं। कोई तीसरा पक्ष कुछ लॉग नहीं करता, जब तक आप न चाहें कुछ रिटेन नहीं होता, और मॉडल बिना किसी बाहरी कंटेंट पॉलिसी के जवाब देता है। यह, सही मायनों में, आपका AI है।

लागत क्या है

स्व-होस्टिंग की अर्थव्यवस्था पूरी तरह उपयोग के पैटर्न पर निर्भर करती है। होस्टेड API प्रति टोकन चार्ज करता है, जो हल्के, कभी-कभार के उपयोग के लिए बढ़िया है और भारी, निरंतर उपयोग के लिए महँगा। किराये का GPU सर्वर एक निश्चित मासिक लागत है, चाहे आप कितने भी टोकन प्रोसेस करें।

वास्तविक वर्कलोड चलाने वाले किसी भी व्यक्ति के लिए क्रॉसओवर जल्दी आता है। ServPrivacy पर एक RTX 4090 सर्वर लगभग $122/माह से शुरू होता है; यदि होस्टेड API पर आपका मासिक खर्च पहले से उस सीमा में है — और कोडिंग असिस्टेंट, बैच प्रोसेसिंग, या किसी भी ऐप्लिकेशन बैकएंड के लिए यह अक्सर होता है — तो एक डेडिकेटेड GPU सस्ता भी है और अनमीटर्ड भी। आपको वह भी मिलता है जो प्रति-टोकन बिल कभी नहीं दे सकता: कोई रेट लिमिट नहीं, कोई पॉलिसी रिफ्यूज़ल नहीं, अनुमानित लागत, और पूरी गोपनीयता। कभी-कभार के सवालों के लिए API ठीक है; किसी भी नियमित काम के लिए, स्व-होस्टिंग लागत और नियंत्रण दोनों में जीतती है।

स्व-होस्टिंग कब सही विकल्प है

LLM की स्व-होस्टिंग सही विकल्प है जब तीन में से कोई एक बात आपके लिए मायने रखती हो: गोपनीयता — प्रॉम्प्ट में ऐसी कोई भी जानकारी हो जो आप किसी तीसरे पक्ष के सर्वर पर नहीं रखना चाहते; नियंत्रण — आप कोई खास मॉडल चाहते हैं, जिसमें होस्टेड रिफ्यूज़ल के बिना ओपन मॉडल शामिल हों; या अर्थव्यवस्था — आपका उपयोग इतना भारी है कि एक निश्चित GPU लागत प्रति-टोकन बिल को मात देती है।

यदि आप मॉडल से कभी-कभार ही सवाल करते हैं, तो होस्टेड API सरल और सस्ता है। लेकिन निरंतर उपयोग, संवेदनशील सामग्री, या ऐसे मॉडल की ज़रूरत के लिए जो आपकी शर्तों पर जवाब दे, GPU सर्वर पर अपना खुद का मॉडल बेहतर सेटअप है — और no-KYC, ऑफशोर GPU होस्ट पर यह एक ऐसा प्राइवेट AI एंडपॉइंट है जो सिर्फ आपका है।

FAQ

LLM की स्व-होस्टिंग — सामान्य प्रश्न

01 API की बजाय LLM को स्व-होस्ट क्यों करें?

गोपनीयता, नियंत्रण और लागत। होस्टेड API के साथ प्रोवाइडर हर प्रॉम्प्ट देखता है, आमतौर पर उसे रिटेन करता है, और अपनी कंटेंट पॉलिसी लागू करता है। स्व-होस्टिंग प्रॉम्प्ट को आपके नियंत्रण वाले इन्फ्रास्ट्रक्चर पर रखती है, जब तक आप न चाहें कुछ रिटेन नहीं होता, और जो भी ओपन मॉडल आप चुनें वो चलाती है। संवेदनशील या भारी उपयोग के लिए यह प्रति-टोकन बिल से भी सस्ती पड़ती है।

02 LLM चलाने के लिए कितनी VRAM चाहिए?

यह मॉडल के साइज़ और प्रिसीज़न पर निर्भर करता है। मोटे तौर पर, 4-bit quantised मॉडल को प्रति बिलियन पैरामीटर पर आधे गीगाबाइट से थोड़ी ज़्यादा VRAM के साथ कॉन्टेक्स्ट के लिए हेडरूम चाहिए। 24-32 GB कार्ड (RTX 4090 या 5090) quantised अवस्था में लगभग 30B तक के मॉडल संभाल लेता है; 80 GB H100 70B-class मॉडल संभाल लेता है।

03 मॉडल चलाने का सबसे तेज़ तरीका क्या है?

Ollama। CUDA पहले से इंस्टॉल वाले GPU सर्वर पर, Ollama को इसके वन-लाइन इंस्टॉलर से इंस्टॉल करें और एक कमांड से मॉडल चलाएँ। यह डाउनलोड, quantisation और GPU ऑफलोड संभाल लेता है, और एक लोकल API एक्सपोज़ करता है। कई concurrent रिक्वेस्ट की हाई-थ्रूपुट सर्विंग के लिए vLLM बेहतर विकल्प है।

04 क्या मैं एक uncensored मॉडल चला सकता हूँ?

हाँ। चूँकि आप सर्वर को नियंत्रित करते हैं, आप मॉडल चुनते हैं — कम्युनिटी uncensored या abliterated फाइन-ट्यून जिनसे रिफ्यूज़ल व्यवहार हटा दिया गया है, वे भी शामिल हैं। यही लोगों के स्व-होस्ट करने का एक मुख्य कारण है: मॉडल होस्टेड प्रोवाइडर की कंटेंट पॉलिसी के बिना जवाब देता है।

05 क्या मुझे NVIDIA ड्राइवर और CUDA खुद इंस्टॉल करने होंगे?

नहीं। ServPrivacy GPU सर्वर NVIDIA ड्राइवर और CUDA पहले से इंस्टॉल के साथ आते हैं, इसलिए बूट होते ही सिस्टम इंफरेंस के लिए तैयार होता है। एक त्वरित nvidia-smi पुष्टि करता है कि GPU दिख रहा है; वहाँ से आप कुछ ही कमांड में चलते हुए मॉडल से दूर हैं।

06 क्या LLM की स्व-होस्टिंग API से सस्ती है?

निरंतर उपयोग के लिए, हाँ। API प्रति टोकन चार्ज करता है; GPU सर्वर एक निश्चित मासिक लागत है — RTX 4090 के लिए लगभग $122/माह से — चाहे वॉल्यूम कितना भी हो। यदि आपका मासिक API खर्च पहले से उस सीमा में है, तो डेडिकेटेड GPU सस्ता, अनमीटर्ड, और रेट लिमिट व पॉलिसी रिफ्यूज़ल से मुक्त है। कभी-कभार के उपयोग के लिए API ठीक है।

एक प्राइवेट GPU सर्वर पर अपना खुद का मॉडल चलाएँ

ServPrivacy GPU सर्वर — RTX 4090, RTX 5090 और H100, CUDA पहले से इंस्टॉल, no-KYC और ऑफशोर, $122/माह से। आपका मॉडल, आपका हार्डवेयर, आपके प्रॉम्प्ट।

Self-Host LLM View GPU प्लान No-KYC GPU