استضافة AI غير مقيَّد — استضف LLM الخاص بك
تُطبّق OpenAI وAnthropic وGoogle وxAI سياسات محتوى على نقاط نهايتها المستضافة — وتُسجّل كل موجّه للتصنيف الأمني وتحسين النموذج والاستجابة لطلبات الحكومات. الاستضافة الذاتية على صندوق GPU خاص بك تقلب المعادلة: أي نموذج مفتوح الأوزان يمكنك الحصول عليه قانونياً يعمل محلياً، ولا تعبر حركة الاستدلال مستوى شبكتنا، ولا تُسجَّل الموجّهات، ولا تُصفَّى الردود. توفر ServPrivacy خوادم GPU من RTX 4090 / RTX 5090 / H100 SXM5 في 4 ولايات قضائية خارجية مع قوالب vLLM وOllama وComfyUI وWhisper وBark بنقرة واحدة.
ما الذي يعنيه "غير مقيَّد" هنا فعلاً
- بلا تسجيل للاستدلال — موجّهاتك لا تُؤخذ
- بلا سياسة محتوى — أوزان النموذج التي تُحضرها تعمل كما هي
- نماذج مفتوحة الأوزان محمَّلة مسبقاً وقت الطلب
- معزول عن APIs الـ AI الخارجية بشكل افتراضي
- CUDA 12 + vLLM / Ollama / ComfyUI جاهزة بنقرة واحدة
سؤال "AI غير المقيَّد" هو في حقيقته سؤال سيادة
عندما تستدعي OpenAI API، تذهب موجّهاتك إلى سجل في الولاية القضائية الأمريكية يُحتجز 30 يوماً كحد أدنى (أطول لتصنيفات الأمان)، وتُراجعه فرق الأمان عند الإعلام، وقابل للتسليم لإجراءات قانونية أمريكية. النموذج يرفض أيضاً فئات من المخرجات تم تدريب RLHF الأمني عليها. عندما تُشغّل Llama-3.3-70B-Instruct (أو مشتقها غير المقيَّد) على GPU الخاص بك، لا تغادر موجّهاتك جهازك، وتدريب الرفض هو ما تعطيه الأوزان الأساسية، والولاية القضائية القانونية هي أينما استضفت الصندوق. كلا المستويين — بلا تسجيل وأوزان من اختيارك — هما ما يعنيه الناس بـ "AI غير مقيَّدة". تُوفّر ServPrivacy كليهما: GPU خارجي بلا التقاط لشبكة الاستدلال، مع قوالب بنقرة واحدة تُحمّل أي نموذج HuggingFace دون أن نفحص الأوزان.
أحضر أي نموذج مفتوح الأوزان
Llama-3.3 وDeepSeek-R1 وQwen3 وMistral-Small-3 وGemma-3 وPhi-4 والمشتقات غير المقيَّدة والضبط الدقيق المخصص — أي شيء على HuggingFace أو ملفات .safetensors الخاصة بك. نُحمّل مسبقاً وقت الطلب إذا قدّمت مسار المستودع.
بلا التقاط لحركة الاستدلال
الاستدلال يحدث على GPU الخاص بك، في ضيف KVM الخاص بك. لا نُوكّل، ولا نعكس، ولا نأخذ عينات من حركة نموذجك. موجّهاتك ومُخرجاتك تبقى محلية حتى تختار غير ذلك.
ولاية قضائية خارجية
آيسلندا (ملاذ حرية التعبير، طاقة 100% متجددة) وهولندا (أفضل توصيل أوروبي) ورومانيا (سابقة قضائية ضد الاحتفاظ بالبيانات) ومولدوفا (تنظيم خفيف، تكلفة منخفضة). اختر الإطار القانوني الذي يناسبك.
نقطة نهاية HTTPS عامة اختيارية
فعّلها وقت الطلب ونُزوّد Let's Encrypt + بروكسي عكسي على المنفذ 443 — مثيل vLLM / Ollama الخاص بك متاح على URL عام مع TLS في أقل من 60 ثانية.
ما الذي تعنيه "AI غير المقيَّدة" حقاً في 2026
يحمل مصطلح "AI غير مقيَّدة" ثلاثة معانٍ مختلفة حسب السياق. (1) أوزان مُزالة الرفض — الضبط الدقيق غير المقيَّد لنماذج الأساس (مثلاً Llama-3.3-70B-abliterated) الذي يُزيل RLHF الأمني عبر تحرير التفعيل أو الإلغاء الاتجاهي. ستُنتج مخرجات يرفضها نموذج Instruct الأصلي. (2) بلا تعديل للمحتوى في طبقة الخدمة — تشغيل نفس النموذج بلا مُصنّف سياسة بنمط OpenAI أمام الاستدلال. (3) بلا تسجيل للموجّهات / الاستجابات — مدخلاتك ومخرجاتك لا تغادر الصندوق ولا تُحتجز في أي مكان أعلى. ServPrivacy تُوفّر (2) و(3) بشكل افتراضي، وأنت تُقدّم أوزان النموذج لـ (1) — لا نفحص أو نُصفّي ما يعمل على أجهزتك.
مشهد LLMs القابلة للاستضافة الذاتية في 2026
اعتباراً من مايو 2026، تُنافس منظومة الأوزان المفتوحة فعلياً GPT-4 / Claude / Gemini المستضافة في كثير من المهام. DeepSeek-R1 وتقطيره إلى Llama-70B يُطابق GPT-4 في معايير الاستدلال بجزء بسيط من تكلفة الاستدلال. Llama-3.3-70B-Instruct يبقى المحرك الافتراضي للمساعدة العامة. Qwen3-32B قوي متعدد اللغات وقادر على الاستدلال. Gemma-3-27B يُقايض القدرة بوضوح الترخيص. Mistral-Small-3 هو النقطة المثلى بين السرعة والجودة لمهام الكود. Phi-4 يتفوق على حجمه البالغ 14B. FLUX.1-dev حلّ محل SDXL لتوليد الصور. Whisper-Large-v3 لا يزال قائد الأوزان المفتوحة في التعرف التلقائي على الكلام. كلها تعمل على مستويات GPU أدناه — انظر دليل شراء GPU للتحجيم.
النظافة التشغيلية لمضيف AI غير مقيَّد
حتى على صندوق GPU بلا KYC وبلا تسجيل للاستدلال، يمكنك تسريب الهوية في عبء العمل. نظافة عملية للمضيفين الذاتيين الجادين: (1) تواصل مع الصندوق عبر Tor أو VPN قبل SSH؛ (2) استخدم مفتاح SSH جديداً غير مرتبط بحساب GitHub الخاص بك؛ (3) إذا عرضت نقطة نهاية HTTPS عامة، احمها بمفتاح API وحدّد معدلها بالرمز لا بعنوان IP؛ (4) حمّل الأوزان مضمَّنة وقت الطلب بدلاً من جلبها بعد النشر من حساب HuggingFace الخاص بك؛ (5) للموجّهات الحساسة، شغّل llama.cpp أو vLLM خلف فضاء أسماء شبكة معزول. نوثّق هذه الأنماط في مركز الأدلة.
ما هو ضمن نطاق "غير مقيَّد" وما هو خارجه
ضمن النطاق: المخرجات غير اللائقة أو ذات الحساسية السياسية التي يرفضها تدريب RLHF الأمني للنماذج الأساسية، والمحتوى الخيالي المتضمن للعنف، والمخرجات التي تنتقد أفراداً أو حكومات مسمَّاة، ومخرجات البحث ذات الاستخدام المزدوج (مثلاً الأمن السيبراني والأحياء والكيمياء على مستوى الكتاب المدرسي)، والمخرجات بنبرة هندسة الموجّهات العدائية. خارج النطاق بموجب سياسة الاستخدام المقبول لدينا: CSAM (صفر تساهل بغض النظر عن النموذج)، وتعليمات هجمات CBRN للتدمير الجماعي (بغض النظر عن النموذج)، وحملات مضايقة موجّهة ضد أفراد مسمَّين، والمخرجات المحظورة صراحةً بموجب قانون البلد المضيف. النموذج ذاته يُقرر تقريباً كل شيء؛ سياسة الاستخدام المقبول تُقلّص الحالات الأشد تعقيداً.
استضافة AI غير مقيَّد في 4 ولايات قضائية خارجية
روسيا مستثناة من قائمة GPU بسبب عقوبات تصدير NVIDIA H100 / RTX 4090+.
آيسلندا
ملاذ حرية التعبيرقوانين خصوصية صارمة، طاقة متجددة، خارج الاتحاد الأوروبي.
بنما
بدون احتفاظ بالبياناتلا قوانين للاحتفاظ بالبيانات، لا اتفاقيات مساعدة قضائية متبادلة مع معظم الدول الغربية.
مولدوفا
استضافة خارجية اقتصاديةرقابة تنظيمية محدودة، أسعار منخفضة، تعاون دولي ضئيل.
رومانيا
مناهض للاحتفاظ بالبياناتأبطلت المحاكم قوانين الاحتفاظ بالبيانات. اتصال ممتاز بالاتحاد الأوروبي.
سويسرا
خصوصية متميزةقوانين خصوصية صارمة، حياد سياسي، بنية تحتية من الدرجة الأولى.
هولندا
أفضل اتصال شبكياتصال شبكي ممتاز، سياسات استضافة متسامحة، تبادل AMS-IX.
روسيا
محصّن من الغربخارج نطاق القضاء الغربي. تخضع للقانون الروسي.
استضافة AI غير مقيَّد — أسئلة شائعة
01 هل تُسجّلون الموجّهات أو مخرجات النموذج؟
لا. صندوق GPU هو ضيف KVM الخاص بك. لا نُوكّل حركة الاستدلال الخاصة بك، ولا نعكسها، ولا نأخذ عينات منها، ولا نُعيد توجيه محتوى الموجّهات أو الاستجابات إلى أي مكان. السجلات الوحيدة التي نحتفظ بها هي على مستوى الشبكة (عدادات عرض النطاق) وعلى مستوى المُشغّل الخارق (وقت التشغيل واستهلاك طاقة GPU).
02 هل يمكنني تشغيل Llama-3.3-70B-abliterated أو DeepSeek-R1 هنا؟
نعم. أي نموذج مفتوح الأوزان على HuggingFace يمكنك الحصول عليه قانونياً — Llama-3.3-70B-Instruct والمشتقات غير المقيَّدة وDeepSeek-R1 وDeepSeek-R1-Distill-Llama-70B وQwen3-32B وGemma-3-27B وMistral-Small-3 وPhi-4 وغيرها. نُحمّل مسبقاً وقت الطلب عندما تُحدد مستودع HF، أو يمكنك السحب يدوياً بعد أول SSH.
03 ما الأحجام التي تناسب مستوى GPU؟
تحجيم تقريبي عند كمّ Q4: RTX 4090 (24 GB) يناسب 7B-13B بشكل مريح و27-32B مع ألم الإزاحة. RTX 5090 (32 GB) يناسب 27B-32B بشكل مريح و70B مع إزاحة CPU. H100 SXM5 (80 GB) يناسب 70B بـ Q4-Q5 بشكل مريح. H100 مزدوج (160 GB) يناسب 70B بـ FP16 و120-180B بـ Q4. دليل الشراء في /guides/rtx-4090-vs-h100-for-ai-inference يحتوي أرقام إنتاجية تفصيلية.
04 هل هناك سياسة محتوى سأصطدم بها؟
لا توجد سياسة محتوى على مستوى المنصة لما يُنتجه نموذجك. تحظر سياسة الاستخدام المقبول لدينا فقط ما هو غير قانوني في بلد المضيف بغض النظر عن كيفية توليده (CSAM، وتعليمات هجمات CBRN للتدمير الجماعي، والمضايقة الموجّهة لأفراد مسمَّين). كل شيء آخر، بما في ذلك المحتوى غير اللائق والسياسي والبحث ذو الاستخدام المزدوج والمخرجات المُستفزَّة، يعمل.
05 هل يمكنني خدمة LLM على URL عام؟
نعم. فعّل "Public HTTPS" وقت الطلب — نُزوّد شهادة Let's Encrypt وبروكسي عكسي على المنفذ 443 إلى منفذ vLLM / Ollama / Open WebUI الخاص بك. نموذجك متاح على `https://
06 كيف تقارن بـ OpenAI أو Anthropic أو وكلاء open-router؟
OpenAI / Anthropic: مستضافة، سياسة محتوى كاملة، تسجيل موجّهات 30 يوماً، ولاية قضائية أمريكية. OpenRouter / Together / Fireworks: لا تزال مستضافة، سياسة محتوى محددة من المورد، تسجيل المورد. استضافة ذاتية على GPU خارجي: بلا سياسة على مستوى المنصة، بلا تسجيل منّا، ولاية قضائية البلد المضيف. المقايضة: تدفع لوقت GPU سواء استخدمته أم لا، وتُشغّل المكدّس بنفسك. للاستخدام عالي الحجم تميل الحسابات نحو الاستضافة الذاتية؛ للاستخدام المتفرق تتفوق APIs المستضافة في التكلفة.
استضف AI الخاص بك بلا سجلات وبلا سياسة
Llama وDeepSeek وQwen وMistral وGemma — أحضر أي نموذج مفتوح الأوزان. GPU خارجي من $249/شهرياً، CUDA 12 + vLLM جاهز بنقرة واحدة.