چرا یک LLM را خودمیزبانی کنید
وقتی یک API هوش مصنوعی میزبانیشده را فراخوانی میکنید، هر پرامپتی که میفرستید روی سختافزار شخص دیگری پردازش میشود. ارائهدهنده متن کامل ورودیها و خروجیهای شما را میبیند، معمولاً برای مدتی آنها را نگه میدارد، و سیاست محتوایی خودش را بر آنچه مدل میگوید یا نمیگوید اعمال میکند. برای هر چیز حساسی — کد اختصاصی، اسناد محرمانه، دادههای شخصی، یا صرفاً کاری که ترجیح میدهید نزد شخص ثالثی ثبت نشود — این یک افشای قابل توجه است.
خودمیزبانی یک LLM واسطه را حذف میکند. یک GPU سرور اجاره میکنید، یک مدل با وزنهای باز روی آن بارگذاری میکنید، و inference را خودتان اجرا میکنید. پرامپتها هرگز از زیرساختی که کنترل میکنید خارج نمیشوند، چیزی نگهداری نمیشود مگر اینکه خودتان بخواهید، و مدل همانی است که انتخاب کردید — از جمله مدلهای باز بدون ممانعتهای داخلی. در کنار یک GPU سرور بدون احراز هویت و برونمرزی، خودمیزبانی یک endpoint هوش مصنوعی خصوصی به شما میدهد که هیچ شرکتی آن را لاگ نمیکند، با سیاست محدود نمیکند، یا مجبور به تحویل نمیشود. این راهنما نحوه انتخاب سختافزار و مدل، راهاندازی یک سرویس، و هزینهها را پوشش میدهد.

GPU را با مدل هماهنگ کنید
عدد واحدی که همه چیز را تعیین میکند VRAM است — حافظه GPU. یک مدل باید در VRAM جا شود تا درست اجرا شود، و مقدار مورد نیاز به تعداد پارامترها و دقتی که بارگذاری میشود بستگی دارد. به عنوان یک راهنمای تقریبی، یک مدل کوانتیزه به ۴ بیت کمی بیشتر از نیم گیگابایت VRAM به ازای هر میلیارد پارامتر نیاز دارد؛ در دقت کامل ۱۶ بیتی تقریباً دوبرابر نیاز است، به علاوه فضای آزاد برای پنجره context.
در عمل این به طور واضح روی کارتهای موجود نگاشته میشود:
- RTX 4090 / RTX 5090 (24-32 GB VRAM) — به راحتی مدلهایی تا حدود ۳۰ میلیارد پارامتر کوانتیزه اجرا میکند، و مدلهای کوچکتر در دقت کامل. نقطه شیرین برای اکثر خودمیزبانها: سریع، مقرونبهصرفه، و برای بهترین مدلهای میاناندازه باز کافی است.
- H100 SXM5 (80 GB VRAM) — مدلهای کلاس ۷۰ میلیارد پارامتر کوانتیزه را با فضای آزاد اجرا میکند، پنجرههای context بزرگ را مدیریت میکند، و درخواستهای همزمان زیاد را با throughput بالا سرویس میدهد. انتخاب برای بزرگترین مدلهای باز یا بار تولیدی.
- Multi-GPU (2x H100، 160 GB) — برای بزرگترین مدلهای با وزنهای باز و سرویسدهی همزمان سنگین.
از مدلی که میخواهید اجرا کنید شروع کنید، نیاز VRAM آن را محاسبه کنید، و کوچکترین کارتی که با فضای آزاد مناسب جا میدهد انتخاب کنید. پرداخت برای VRAM بیشتر از آنچه مدل استفاده میکند بودجه هدررفته است.
مدل خود را انتخاب کنید
اکوسیستم مدلهای با وزنهای باز در ۲۰۲۶ آنقدر قوی است که برای اکثر وظایف، یک مدل خودمیزبان به طور واقعی با یک API میزبانیشده رقابت میکند. خانوادههای اصلی که ارزش دانستن دارند:
- مدلهای خانواده Llama — مدلهای همهمنظوره با پشتیبانی خوب در محدوده وسیعی از اندازهها؛ پیشفرض امن برای اکثر بارهای کاری.
- DeepSeek — عملکرد استدلال و کدنویسی قوی، با اندازههایی که به خوبی روی یک کارت با VRAM بالا اجرا میشوند.
- Qwen و Mistral — قابلیت عالی به ازای هر پارامتر، با واریانتهای کوچکتر که به راحتی روی یک کارت 24-32 GB اجرا میشوند.
- واریانتهای سانسورنشده یا abliterated — fine-tune های جامعه از مدلهای بالا با رفتار ممانعت حذفشده، برای کاربرانی که یک مدل بدون سیاست محتوایی ارائهدهنده میزبانیشده میخواهند.
کوچکترین مدلی که واقعاً وظیفه شما را به خوبی انجام میدهد انتخاب کنید. یک مدل ۱۴ تا ۳۰ میلیارد پارامتر با انتخاب درست روی یک 4090 یا 5090 برای اکثریت بزرگ کاربردهای واقعی — کمک به کدنویسی، پیشنویس، خلاصهسازی، تحلیل — کافی است و بسیار ارزانتر از رفتن به سراغ یک مدل ۷۰ میلیارد پارامتری از روی عادت است.
مرحله ۱ — GPU سرور را تأمین کنید
در ServPrivacy، یک پلن GPU با کارتی که انتخاب کردید و حوزه قضایی دلخواهتان را انتخاب کنید، و با ارز دیجیتال پرداخت کنید. سرور به طور خودکار تأمین میشود — CUDA و درایورهای NVIDIA از پیش نصب شدهاند، پس دستگاه از لحظه بوت برای کار inference آماده است؛ هیچ نصب درایوری برای دستوپنجه نرم کردن وجود ندارد.
از طریق SSH متصل شوید. یک nvidia-smi سریع تأیید میکند که GPU قابل مشاهده است و VRAM آزاد آن را نشان میدهد. از اینجا چند دستور با یک مدل در حال اجرا فاصله دارید.
مرحله ۲ — یک مدل را سرویسدهی کنید
دو مسیر شناختهشده وجود دارد، بسته به اینکه سادگی یا حداکثر throughput میخواهید.
مسیر سریع: Ollama. برای پاسخ دادن مدل به پرامپتها در چند دقیقه، Ollama سادهترین گزینه است. آن را با نصبکننده یکخطی نصب کنید، سپس یک مدل را با یک دستور pull و اجرا کنید — مثلاً ollama run llama3.1. Ollama دانلود، کوانتیزاسیون و offload به GPU را مدیریت میکند، و یک API محلی نمایش میدهد. برای استفاده شخصی و توسعه این همان چیزی است که اکثر مردم نیاز دارند.
مسیر throughput: vLLM. اگر نیاز دارید درخواستهای همزمان زیادی را کارآمد سرویس دهید — یک backend برنامه نه یک دستیار شخصی — vLLM انتخاب استاندارد است. یک inference server با عملکرد بالا است که tokenهای بسیار بیشتری در ثانیه از همان GPU استخراج میکند، و یک API سازگار با OpenAI نمایش میدهد، پس کد موجود نوشتهشده برای یک API میزبانیشده میتواند با فقط یک تغییر URL به سرور خودتان اشاره کند.
به هر حال، چند دقیقه بعد از بوت سرور یک مدل پرامپتها را قبول میکند.
مرحله ۳ — به طور خصوصی استفاده کنید و endpoint را ایمن کنید
به طور پیشفرض inference server به صورت محلی گوش میدهد. دو روش منطقی برای دسترسی به آن دارید، و یک قانون.
قانون: API inference خام را در معرض اینترنت باز قرار ندهید. به طور پیشفرض احراز هویتی ندارد، و یک endpoint باز پیدا و مورد سوءاستفاده قرار خواهد گرفت. در عوض، یا از طریق SSH تونل بزنید — تا API به localhost متصل بماند و شما از طریق اتصال SSH رمزگذاریشده به آن دسترسی داشته باشید — یا آن را پشت یک reverse proxy قرار دهید که احراز هویت و TLS اعمال میکند. برای یک دستیار شخصی تونل SSH سادهترین و خصوصیترین گزینه است؛ برای یک برنامه، proxy احراز هویتشده.
به این ترتیب، پرامپتها فقط بین شما و سرور خودتان سفر میکنند. هیچچیز توسط شخص ثالثی لاگ نمیشود، هیچچیز فراتر از آنچه پیکربندی میکنید نگهداری نمیشود، و مدل بدون یک سیاست محتوایی خارجی در مسیر پاسخ میدهد. به معنای واقعی کلمه، هوش مصنوعی شماست.
هزینهها
اقتصاد خودمیزبانی کاملاً به الگوی استفاده بستگی دارد. یک API میزبانیشده به ازای هر token هزینه میگیرد، که برای استفاده سبک و گاهبهگاه عالی است و برای استفاده سنگین و مداوم گران است. یک GPU سرور اجارهای یک هزینه ماهانه ثابت است صرفنظر از چند token عبور میدهید.
نقطه تقاطع برای هر کسی که بارهای کاری واقعی اجرا میکند به سرعت میرسد. یک سرور RTX 4090 از حدود $122/mo در ServPrivacy شروع میشود؛ اگر مصرف ماهانه شما در یک API میزبانیشده در این محدوده است — و برای دستیارهای کدنویسی، پردازش دستهای یا هر backend برنامهای اغلب اینطور است — یک GPU اختصاصی هم ارزانتر و هم بدون محدودیت است. همچنین چیزی به دست میآورید که یک صورتحساب به ازای هر token نمیتواند بدهد: بدون محدودیت نرخ، بدون ممانعت سیاست، هزینه قابل پیشبینی و حریم خصوصی کامل. برای سؤالات یکبار گاهگاهی API خوب است؛ برای هر چیز منظم، خودمیزبانی هم از نظر هزینه و هم کنترل برنده است.
وقتی خودمیزبانی انتخاب درستی است
خودمیزبانی یک LLM انتخاب مناسبی است وقتی هر یک از سه چیز برای شما اهمیت داشته باشد: حریم خصوصی — پرامپتها حاوی چیزی هستند که روی سرورهای شخص ثالث قرار نمیدادید؛ کنترل — یک مدل خاص میخواهید، از جمله مدلهای باز بدون ممانعتهای میزبانیشده؛ یا اقتصاد — استفادهتان آنقدر سنگین است که یک هزینه GPU ثابت از یک صورتحساب به ازای هر token بهتر است.
اگر فقط گاهی از یک مدل سوال میکنید، یک API میزبانیشده سادهتر و ارزانتر است. اما برای استفاده مداوم، مواد حساس، یا نیاز به مدلی که با شرایط شما پاسخ دهد، یک GPU سرور که مدل خودتان را اجرا میکند راهاندازی بهتری است — و روی یک GPU هاست بدون احراز هویت و برونمرزی، یک endpoint هوش مصنوعی خصوصی است که به هیچکس جز شما تعلق ندارد.