لماذا تستضيف LLM بنفسك
حين تستدعي API لذكاء اصطناعي مستضاف، تُعالَج كل موجِّهاتك على أجهزة شخص آخر. يرى مزوّد الخدمة النص الكامل لمدخلاتك ومخرجاتك، ويحتفظ بها عادةً لفترة ما، ويطبّق سياسة المحتوى الخاصة به على ما يقوله النموذج وما يمتنع عن قوله. بالنسبة لأي شيء حساس — شفرة برمجية مملوكة، أو وثائق سرية، أو بيانات شخصية، أو ببساطة عمل لا ترغب في تسجيله لدى طرف ثالث — فهذا انكشاف حقيقي.
تُزيل الاستضافة الذاتية لـ LLM هذا الوسيط. تستأجر خادم GPU، وتحمّل عليه نموذجًا ذا أوزان مفتوحة، وتُدير الاستدلال بنفسك. لا تغادر الموجِّهات البنية التحتية التي تتحكم فيها، ولا يُحتفظ بأي شيء إلا إذا اخترت ذلك، والنموذج هو الذي اخترته — بما في ذلك النماذج المفتوحة التي لا تحتوي على قيود مدمجة. مع خادم GPU بلا KYC وبعيد في المياه الدولية، توفّر لك الاستضافة الذاتية نقطة وصول ذكاء اصطناعي خاصة لا تسجّلها أي شركة، ولا تخضع لقيود معدل الاستخدام السياسية، ولا يمكن إجبارها على الإفصاح. يغطي هذا الدليل اختيار الأجهزة والنموذج، وتشغيل الخادم، والتكاليف.

مطابقة GPU مع النموذج
الرقم الوحيد الذي يحدد كل شيء هو VRAM — ذاكرة GPU. يجب أن يتسع النموذج في VRAM ليعمل بكفاءة، والمقدار الذي يحتاجه يعتمد على عدد المعاملات والدقة التي يُحمَّل بها. كقاعدة تقريبية، يحتاج النموذج المضغوط بدقة 4-bit إلى أكثر بقليل من نصف غيغابايت من VRAM لكل مليار معامل؛ أما التحميل بدقة كاملة 16-bit فيحتاج إلى ضعف ذلك تقريبًا، مضافًا إليه هامش لنافذة السياق.
يتوافق ذلك عمليًا بوضوح مع البطاقات المتاحة:
- RTX 4090 / RTX 5090 (24-32 GB VRAM) — تُشغّل بيُسر نماذج تصل إلى نحو 30 مليار معامل مضغوطة، والنماذج الأصغر بدقة كاملة. النقطة المثلى لمعظم من يستضيفون بأنفسهم: سريعة، وبأسعار معقولة، وكافية لأفضل النماذج المفتوحة متوسطة الحجم.
- H100 SXM5 (80 GB VRAM) — تُشغّل نماذج فئة 70 مليار معامل مضغوطة بهامش واسع، وتتعامل مع نوافذ سياق كبيرة، وتخدم طلبات متزامنة كثيرة بإنتاجية عالية. الخيار الأنسب للنماذج المفتوحة الأضخم أو الأحمال ذات الجودة الإنتاجية.
- Multi-GPU (2x H100, 160 GB) — للنماذج ذات الأوزان المفتوحة الأكبر حجمًا والخدمة المتزامنة المكثفة.
ابدأ من النموذج الذي تريد تشغيله، احسب احتياجاته من VRAM، واختر أصغر بطاقة تتسع له مع هامش كافٍ. الدفع مقابل VRAM أكثر مما يستخدمه النموذج هو هدر صريح للميزانية.
اختيار النموذج
نظام بيئة الأوزان المفتوحة في عام 2026 قوي بما يكفي لأن نموذجًا مستضافًا ذاتيًا يُنافس API مستضافًا بحق في معظم المهام. أبرز العائلات التي تستحق المعرفة:
- نماذج عائلة Llama — نماذج متعددة الأغراض بدعم واسع وبأحجام متنوعة؛ الخيار الآمن الافتراضي لمعظم أعباء العمل.
- DeepSeek — أداء قوي في الاستدلال والبرمجة، بأحجام تعمل بكفاءة على بطاقة واحدة عالية VRAM.
- Qwen و Mistral — قدرة ممتازة نسبةً إلى حجم المعاملات، مع متغيرات أصغر تعمل بسهولة على بطاقة سعتها 24-32 GB.
- المتغيرات غير المقيدة أو المزالة القيود — ضبط دقيق من المجتمع للنماذج أعلاه مع إزالة سلوك الرفض، للمستخدمين الذين يريدون نموذجًا لا يطبّق سياسة محتوى مزوّد مستضاف.
اختر أصغر نموذج يؤدي مهمتك فعلًا بكفاءة. نموذج مختار بعناية بحجم 14-30 مليار معامل على بطاقة 4090 أو 5090 واحدة يكفي للغالبية العظمى من الاستخدامات الحقيقية — مساعدة في البرمجة، الصياغة، التلخيص، التحليل — وأرخص بكثير من اللجوء إلى نموذج 70 مليار معامل عادةً.
الخطوة 1 — توفير خادم GPU
على ServPrivacy، اختر خطة GPU بالبطاقة التي قررتها والاختصاص القضائي الذي تريده، وادفع بالعملة المشفرة. يُوفَّر الخادم تلقائيًا — يأتي CUDA وبرامج تشغيل NVIDIA مثبَّتَين مسبقًا، لذا يكون الجهاز جاهزًا لعمل الاستدلال فور تشغيله؛ لا معارك مع تثبيت برامج التشغيل.
اتصل عبر SSH. يؤكد nvidia-smi السريع أن GPU مرئية ويُظهر VRAM المتاحة. من هنا أنت على بُعد أوامر قليلة من نموذج يعمل.
الخطوة 2 — تشغيل نموذج للخدمة
ثمة مساران متعارف عليهما، بحسب ما تريد: البساطة أم أقصى إنتاجية.
المسار السريع: Ollama. للحصول على نموذج يُجيب على الموجِّهات في دقائق، Ollama هو الخيار الأبسط. ثبّته بمثبّته أحادي السطر، ثم اسحب النموذج وشغّله بأمر واحد — مثلًا ollama run llama3.1. يتولى Ollama التنزيل والضغط والتفريغ على GPU، ويعرض API محليًا. للاستخدام الشخصي والتطوير، هذا كل ما يحتاجه معظم الناس.
مسار الإنتاجية: vLLM. إن كنت بحاجة إلى خدمة طلبات متزامنة كثيرة بكفاءة — واجهة خلفية لتطبيق لا مساعد شخصي — فـ vLLM هو الخيار المعياري. هو خادم استدلال عالي الأداء يستخرج رموزًا أكثر في الثانية من GPU ذاتها، ويعرض API متوافقًا مع OpenAI، مما يتيح توجيه الكود الحالي المكتوب لـ API مستضاف إلى خادمك الخاص بمجرد تغيير الرابط.
في كلتا الحالتين، في غضون دقائق قليلة من تشغيل الخادم يكون لديك نموذج يقبل الموجِّهات.
الخطوة 3 — استخدامه بخصوصية وتأمين نقطة الوصول
بشكل افتراضي، يستمع خادم الاستدلال محليًا. لديك طريقتان عمليتان للوصول إليه، وقاعدة واحدة.
القاعدة: لا تعرّض API الاستدلال الخام للإنترنت المفتوح. لا توجد مصادقة افتراضيًا، وستُعثر على نقطة وصول مفتوحة وتُساء استخدامها. بدلًا من ذلك، إما أن تنفق من خلالها عبر SSH — بحيث يظل API مرتبطًا بـ localhost وتصله عبر اتصال SSH مشفّر — أو ضعها خلف وكيل عكسي يفرض المصادقة و TLS. للمساعد الشخصي، نفق SSH هو الخيار الأبسط والأكثر خصوصية؛ وللتطبيقات، الوكيل المؤمَّن بمصادقة.
بهذه الطريقة، تنتقل الموجِّهات فقط بينك وبين خادمك الخاص. لا يُسجّل أي طرف ثالث شيئًا، ولا يُحتفظ بأي شيء بخلاف ما تضبطه، والنموذج يُجيب دون أي سياسة محتوى خارجية في المسار. إنه، بالمعنى الحرفي، ذكاؤك الاصطناعي.
ما يكلّفه
اقتصاديات الاستضافة الذاتية تعتمد كليًا على نمط الاستخدام. يفرض API المستضاف رسومًا لكل رمز، وهو ممتاز للاستخدام الخفيف المتقطع ومكلف للاستخدام الثقيل المستدام. الخادم GPU المستأجر له تكلفة شهرية ثابتة بغض النظر عن عدد الرموز التي تمرّرها.
يأتي نقطة التعادل بسرعة لمن يُشغّل أحمال عمل حقيقية. يبدأ خادم RTX 4090 واحد من نحو 122 دولارًا شهريًا على ServPrivacy؛ إن كان إنفاقك على API المستضاف يصل بالفعل إلى ذلك المستوى شهريًا — وهو ما يحدث كثيرًا مع مساعدي البرمجة ومعالجة الدُّفعات أو أي واجهة خلفية لتطبيق — فإن GPU مخصصة تكون أرخص وغير محدودة بالاستهلاك. تحصل أيضًا على ما لا تمنحه فاتورة لكل رمز: لا قيود على معدل الاستخدام، ولا رفض السياسات، وتكلفة يمكن التنبؤ بها وخصوصية كاملة. للأسئلة العرضية المتفرقة API مناسب؛ لأي استخدام منتظم، الاستضافة الذاتية تتفوق تكلفةً وتحكمًا.
متى تكون الاستضافة الذاتية هي القرار الصحيح
استضافة LLM ذاتيًا هي الخيار الصحيح حين يهمّك أي من ثلاثة أشياء: الخصوصية — إذ تحتوي الموجِّهات على شيء لا تضعه على خوادم طرف ثالث؛ التحكم — إذ تريد نموذجًا بعينه، بما في ذلك النماذج المفتوحة دون رفض مستضاف؛ أو الاقتصاد — إذ كان استخدامك ثقيلًا بما يكفي لأن يتفوق فيه مبلغ GPU الثابت على فاتورة لكل رمز.
إن كنت تسأل النموذج سؤالًا عرضيًا بين حين وآخر، فـ API المستضاف أبسط وأرخص. لكن للاستخدام المستدام، أو المواد الحساسة، أو الحاجة إلى نموذج يُجيب بشروطك، فإن خادم GPU الذي يُشغّل نموذجك الخاص هو الإعداد الأفضل — وعلى مضيف GPU بلا KYC وبعيد في المياه الدولية، يكون نقطة وصول ذكاء اصطناعي خاصة لا تنتمي إلا لك.