خانه / راهنماهای میزبانی خصوصی / راهنمای ۲۰۲۶: چگونه یک LLM را روی یک GPU سرور خودمیزبانی کنید
عملیات

چگونه یک LLM را روی یک GPU سرور خودمیزبانی کنید

راهنمای عملی اجرای LLM روی GPU سرور شخصی — چرا از نظر حریم خصوصی و کنترل بر API میزبانی‌شده برتری دارد، چگونه GPU را متناسب با مدل انتخاب کنید، سریع‌ترین راه برای سرویس‌دهی مدل، و هزینه‌های واقعی.

بدون احراز هویت
فقط ارز دیجیتال
بدون لاگ
DMCA نادیده گرفته می‌شود
دسترسی کامل Root
NVMe SSD

چرا یک LLM را خودمیزبانی کنید

وقتی یک API هوش مصنوعی میزبانی‌شده را فراخوانی می‌کنید، هر پرامپتی که می‌فرستید روی سخت‌افزار شخص دیگری پردازش می‌شود. ارائه‌دهنده متن کامل ورودی‌ها و خروجی‌های شما را می‌بیند، معمولاً برای مدتی آن‌ها را نگه می‌دارد، و سیاست محتوایی خودش را بر آنچه مدل می‌گوید یا نمی‌گوید اعمال می‌کند. برای هر چیز حساسی — کد اختصاصی، اسناد محرمانه، داده‌های شخصی، یا صرفاً کاری که ترجیح می‌دهید نزد شخص ثالثی ثبت نشود — این یک افشای قابل توجه است.

خودمیزبانی یک LLM واسطه را حذف می‌کند. یک GPU سرور اجاره می‌کنید، یک مدل با وزن‌های باز روی آن بارگذاری می‌کنید، و inference را خودتان اجرا می‌کنید. پرامپت‌ها هرگز از زیرساختی که کنترل می‌کنید خارج نمی‌شوند، چیزی نگه‌داری نمی‌شود مگر اینکه خودتان بخواهید، و مدل همانی است که انتخاب کردید — از جمله مدل‌های باز بدون ممانعت‌های داخلی. در کنار یک GPU سرور بدون احراز هویت و برون‌مرزی، خودمیزبانی یک endpoint هوش مصنوعی خصوصی به شما می‌دهد که هیچ شرکتی آن را لاگ نمی‌کند، با سیاست محدود نمی‌کند، یا مجبور به تحویل نمی‌شود. این راهنما نحوه انتخاب سخت‌افزار و مدل، راه‌اندازی یک سرویس، و هزینه‌ها را پوشش می‌دهد.

چگونه یک LLM را روی یک GPU سرور خودمیزبانی کنید
VRAM همه چیز را تعیین می‌کند: کوچک‌ترین GPU که مدل با فضای آزاد مناسب در آن جا می‌شود را انتخاب کنید — پرداخت برای VRAM استفاده‌نشده بودجه هدررفته است.

GPU را با مدل هماهنگ کنید

عدد واحدی که همه چیز را تعیین می‌کند VRAM است — حافظه GPU. یک مدل باید در VRAM جا شود تا درست اجرا شود، و مقدار مورد نیاز به تعداد پارامترها و دقتی که بارگذاری می‌شود بستگی دارد. به عنوان یک راهنمای تقریبی، یک مدل کوانتیزه به ۴ بیت کمی بیشتر از نیم گیگابایت VRAM به ازای هر میلیارد پارامتر نیاز دارد؛ در دقت کامل ۱۶ بیتی تقریباً دوبرابر نیاز است، به علاوه فضای آزاد برای پنجره context.

در عمل این به طور واضح روی کارت‌های موجود نگاشته می‌شود:

  • RTX 4090 / RTX 5090 (24-32 GB VRAM) — به راحتی مدل‌هایی تا حدود ۳۰ میلیارد پارامتر کوانتیزه اجرا می‌کند، و مدل‌های کوچک‌تر در دقت کامل. نقطه شیرین برای اکثر خودمیزبان‌ها: سریع، مقرون‌به‌صرفه، و برای بهترین مدل‌های میان‌اندازه باز کافی است.
  • H100 SXM5 (80 GB VRAM) — مدل‌های کلاس ۷۰ میلیارد پارامتر کوانتیزه را با فضای آزاد اجرا می‌کند، پنجره‌های context بزرگ را مدیریت می‌کند، و درخواست‌های هم‌زمان زیاد را با throughput بالا سرویس می‌دهد. انتخاب برای بزرگ‌ترین مدل‌های باز یا بار تولیدی.
  • Multi-GPU (2x H100، 160 GB) — برای بزرگ‌ترین مدل‌های با وزن‌های باز و سرویس‌دهی هم‌زمان سنگین.

از مدلی که می‌خواهید اجرا کنید شروع کنید، نیاز VRAM آن را محاسبه کنید، و کوچک‌ترین کارتی که با فضای آزاد مناسب جا می‌دهد انتخاب کنید. پرداخت برای VRAM بیشتر از آنچه مدل استفاده می‌کند بودجه هدررفته است.

مدل خود را انتخاب کنید

اکوسیستم مدل‌های با وزن‌های باز در ۲۰۲۶ آنقدر قوی است که برای اکثر وظایف، یک مدل خودمیزبان به طور واقعی با یک API میزبانی‌شده رقابت می‌کند. خانواده‌های اصلی که ارزش دانستن دارند:

  • مدل‌های خانواده Llama — مدل‌های همه‌منظوره با پشتیبانی خوب در محدوده وسیعی از اندازه‌ها؛ پیش‌فرض امن برای اکثر بارهای کاری.
  • DeepSeek — عملکرد استدلال و کدنویسی قوی، با اندازه‌هایی که به خوبی روی یک کارت با VRAM بالا اجرا می‌شوند.
  • Qwen و Mistral — قابلیت عالی به ازای هر پارامتر، با واریانت‌های کوچک‌تر که به راحتی روی یک کارت 24-32 GB اجرا می‌شوند.
  • واریانت‌های سانسورنشده یا abliterated — fine-tune های جامعه از مدل‌های بالا با رفتار ممانعت حذف‌شده، برای کاربرانی که یک مدل بدون سیاست محتوایی ارائه‌دهنده میزبانی‌شده می‌خواهند.

کوچک‌ترین مدلی که واقعاً وظیفه شما را به خوبی انجام می‌دهد انتخاب کنید. یک مدل ۱۴ تا ۳۰ میلیارد پارامتر با انتخاب درست روی یک 4090 یا 5090 برای اکثریت بزرگ کاربردهای واقعی — کمک به کدنویسی، پیش‌نویس، خلاصه‌سازی، تحلیل — کافی است و بسیار ارزان‌تر از رفتن به سراغ یک مدل ۷۰ میلیارد پارامتری از روی عادت است.

مرحله ۱ — GPU سرور را تأمین کنید

در ServPrivacy، یک پلن GPU با کارتی که انتخاب کردید و حوزه قضایی دلخواهتان را انتخاب کنید، و با ارز دیجیتال پرداخت کنید. سرور به طور خودکار تأمین می‌شود — CUDA و درایورهای NVIDIA از پیش نصب شده‌اند، پس دستگاه از لحظه بوت برای کار inference آماده است؛ هیچ نصب درایوری برای دست‌وپنجه نرم کردن وجود ندارد.

از طریق SSH متصل شوید. یک nvidia-smi سریع تأیید می‌کند که GPU قابل مشاهده است و VRAM آزاد آن را نشان می‌دهد. از این‌جا چند دستور با یک مدل در حال اجرا فاصله دارید.

مرحله ۲ — یک مدل را سرویس‌دهی کنید

دو مسیر شناخته‌شده وجود دارد، بسته به اینکه سادگی یا حداکثر throughput می‌خواهید.

مسیر سریع: Ollama. برای پاسخ دادن مدل به پرامپت‌ها در چند دقیقه، Ollama ساده‌ترین گزینه است. آن را با نصب‌کننده یک‌خطی نصب کنید، سپس یک مدل را با یک دستور pull و اجرا کنید — مثلاً ollama run llama3.1. Ollama دانلود، کوانتیزاسیون و offload به GPU را مدیریت می‌کند، و یک API محلی نمایش می‌دهد. برای استفاده شخصی و توسعه این همان چیزی است که اکثر مردم نیاز دارند.

مسیر throughput: vLLM. اگر نیاز دارید درخواست‌های هم‌زمان زیادی را کارآمد سرویس دهید — یک backend برنامه نه یک دستیار شخصی — vLLM انتخاب استاندارد است. یک inference server با عملکرد بالا است که token‌های بسیار بیشتری در ثانیه از همان GPU استخراج می‌کند، و یک API سازگار با OpenAI نمایش می‌دهد، پس کد موجود نوشته‌شده برای یک API میزبانی‌شده می‌تواند با فقط یک تغییر URL به سرور خودتان اشاره کند.

به هر حال، چند دقیقه بعد از بوت سرور یک مدل پرامپت‌ها را قبول می‌کند.

مرحله ۳ — به طور خصوصی استفاده کنید و endpoint را ایمن کنید

به طور پیش‌فرض inference server به صورت محلی گوش می‌دهد. دو روش منطقی برای دسترسی به آن دارید، و یک قانون.

قانون: API inference خام را در معرض اینترنت باز قرار ندهید. به طور پیش‌فرض احراز هویتی ندارد، و یک endpoint باز پیدا و مورد سوءاستفاده قرار خواهد گرفت. در عوض، یا از طریق SSH تونل بزنید — تا API به localhost متصل بماند و شما از طریق اتصال SSH رمزگذاری‌شده به آن دسترسی داشته باشید — یا آن را پشت یک reverse proxy قرار دهید که احراز هویت و TLS اعمال می‌کند. برای یک دستیار شخصی تونل SSH ساده‌ترین و خصوصی‌ترین گزینه است؛ برای یک برنامه، proxy احراز هویت‌شده.

به این ترتیب، پرامپت‌ها فقط بین شما و سرور خودتان سفر می‌کنند. هیچ‌چیز توسط شخص ثالثی لاگ نمی‌شود، هیچ‌چیز فراتر از آنچه پیکربندی می‌کنید نگه‌داری نمی‌شود، و مدل بدون یک سیاست محتوایی خارجی در مسیر پاسخ می‌دهد. به معنای واقعی کلمه، هوش مصنوعی شماست.

هزینه‌ها

اقتصاد خودمیزبانی کاملاً به الگوی استفاده بستگی دارد. یک API میزبانی‌شده به ازای هر token هزینه می‌گیرد، که برای استفاده سبک و گاه‌به‌گاه عالی است و برای استفاده سنگین و مداوم گران است. یک GPU سرور اجاره‌ای یک هزینه ماهانه ثابت است صرف‌نظر از چند token عبور می‌دهید.

نقطه تقاطع برای هر کسی که بارهای کاری واقعی اجرا می‌کند به سرعت می‌رسد. یک سرور RTX 4090 از حدود $122/mo در ServPrivacy شروع می‌شود؛ اگر مصرف ماهانه شما در یک API میزبانی‌شده در این محدوده است — و برای دستیارهای کدنویسی، پردازش دسته‌ای یا هر backend برنامه‌ای اغلب اینطور است — یک GPU اختصاصی هم ارزان‌تر و هم بدون محدودیت است. همچنین چیزی به دست می‌آورید که یک صورت‌حساب به ازای هر token نمی‌تواند بدهد: بدون محدودیت نرخ، بدون ممانعت سیاست، هزینه قابل پیش‌بینی و حریم خصوصی کامل. برای سؤالات یک‌بار گاه‌گاهی API خوب است؛ برای هر چیز منظم، خودمیزبانی هم از نظر هزینه و هم کنترل برنده است.

وقتی خودمیزبانی انتخاب درستی است

خودمیزبانی یک LLM انتخاب مناسبی است وقتی هر یک از سه چیز برای شما اهمیت داشته باشد: حریم خصوصی — پرامپت‌ها حاوی چیزی هستند که روی سرورهای شخص ثالث قرار نمی‌دادید؛ کنترل — یک مدل خاص می‌خواهید، از جمله مدل‌های باز بدون ممانعت‌های میزبانی‌شده؛ یا اقتصاد — استفاده‌تان آنقدر سنگین است که یک هزینه GPU ثابت از یک صورت‌حساب به ازای هر token بهتر است.

اگر فقط گاهی از یک مدل سوال می‌کنید، یک API میزبانی‌شده ساده‌تر و ارزان‌تر است. اما برای استفاده مداوم، مواد حساس، یا نیاز به مدلی که با شرایط شما پاسخ دهد، یک GPU سرور که مدل خودتان را اجرا می‌کند راه‌اندازی بهتری است — و روی یک GPU هاست بدون احراز هویت و برون‌مرزی، یک endpoint هوش مصنوعی خصوصی است که به هیچ‌کس جز شما تعلق ندارد.

سؤالات متداول

خودمیزبانی LLM — سؤالات متداول

01 چرا به جای استفاده از API یک LLM را خودمیزبانی کنید؟

حریم خصوصی، کنترل و هزینه. با یک API میزبانی‌شده، ارائه‌دهنده هر پرامپتی را می‌بیند، معمولاً آن را نگه می‌دارد، و سیاست محتوایی خودش را اعمال می‌کند. خودمیزبانی پرامپت‌ها را روی زیرساختی که کنترل می‌کنید نگه می‌دارد، مگر اینکه انتخاب کنید چیزی نگه داشته نمی‌شود، و هر مدل باز که انتخاب کنید را اجرا می‌کند. برای استفاده حساس یا سنگین همچنین از یک صورت‌حساب به ازای هر token ارزان‌تر است.

02 برای اجرای یک LLM به چقدر VRAM نیاز دارم؟

به اندازه مدل و دقت بستگی دارد. به عنوان یک راهنمای تقریبی، یک مدل کوانتیزه ۴ بیتی کمی بیشتر از نیم گیگابایت VRAM به ازای هر میلیارد پارامتر، به علاوه فضای آزاد برای context نیاز دارد. یک کارت 24-32 GB (RTX 4090 یا 5090) مدل‌هایی تا حدود ۳۰ میلیارد پارامتر کوانتیزه را مدیریت می‌کند؛ یک H100 با ۸۰ GB مدل‌های کلاس ۷۰ میلیارد پارامتری را مدیریت می‌کند.

03 سریع‌ترین راه برای اجرای یک مدل چیست؟

Ollama. روی یک GPU سرور با CUDA از پیش نصب‌شده، Ollama را با نصب‌کننده یک‌خطی نصب کنید و یک مدل را با یک دستور اجرا کنید. دانلود، کوانتیزاسیون و GPU offload را مدیریت می‌کند، و یک API محلی نمایش می‌دهد. برای سرویس‌دهی با throughput بالا از درخواست‌های هم‌زمان زیاد، vLLM انتخاب بهتری است.

04 آیا می‌توانم یک مدل سانسورنشده اجرا کنم؟

بله. چون سرور را کنترل می‌کنید، مدل را انتخاب می‌کنید — از جمله fine-tune های سانسورنشده یا abliterated جامعه که رفتار ممانعت از آن‌ها حذف شده است. این یکی از دلایل اصلی خودمیزبانی مردم است: مدل بدون سیاست محتوایی ارائه‌دهنده میزبانی‌شده در مسیر پاسخ می‌دهد.

05 آیا باید درایورهای NVIDIA و CUDA را خودم نصب کنم؟

نه. GPU سرورهای ServPrivacy با درایورهای NVIDIA و CUDA از پیش نصب‌شده عرضه می‌شوند، پس دستگاه از لحظه بوت برای inference آماده است. یک nvidia-smi سریع تأیید می‌کند که GPU قابل مشاهده است؛ از آن‌جا چند دستور با یک مدل در حال اجرا فاصله دارید.

06 آیا خودمیزبانی یک LLM از یک API ارزان‌تر است؟

برای استفاده مداوم، بله. یک API به ازای هر token هزینه می‌گیرد؛ یک GPU سرور یک هزینه ماهانه ثابت است — از حدود $122/mo برای RTX 4090 — صرف‌نظر از حجم. اگر هزینه ماهانه API شما در این محدوده است، یک GPU اختصاصی ارزان‌تر، بدون محدودیت، و فارغ از محدودیت‌های نرخ و ممانعت‌های سیاست است. برای استفاده گاه‌گاهی API خوب است.

مدل خود را روی یک GPU سرور خصوصی اجرا کنید

GPU سرورهای ServPrivacy — RTX 4090، RTX 5090 و H100، CUDA از پیش نصب‌شده، بدون احراز هویت و برون‌مرزی، از $122/mo. مدل شما، سخت‌افزار شما، پرامپت‌های شما.

Self-Host LLM مشاهده طرح‌های GPU No-KYC GPU