هاستینگ AI سانسورنشده — LLM خودتان را Self-Host کنید
OpenAI، Anthropic، Google و xAI همه سیاستهای محتوا را در نقاط پایانی میزبانیشده خود اعمال میکنند — و هر prompt را برای طبقهبندی ایمنی، بهبود مدل، و پاسخ به درخواستهای دولتی ثبت میکنند. Self-hosting روی جعبه GPU خودتان این را معکوس میکند: هر مدل open-weight که بتوانید به صورت قانونی تهیه کنید به صورت محلی اجرا میشود، هیچ ترافیک استنتاجی از لایه شبکه ما عبور نمیکند، هیچ promptی ثبت نمیشود، هیچ خروجیای فیلتر نمیشود. ServPrivacy سرورهای GPU RTX 4090 / RTX 5090 / H100 SXM5 را در ۴ حوزه قضایی برونمرزی با قالبهای یککلیکی vLLM، Ollama، ComfyUI، Whisper و Bark ارائه میدهد.
«سانسورنشده» واقعاً اینجا چه معنایی دارد
- بدون ثبت استنتاج — promptهای شما ضبط نمیشوند
- بدون سیاست محتوا — وزنهای مدلی که میآورید دستنخورده اجرا میشوند
- مدلهای open-weight در زمان سفارش از پیش دانلود شده
- به طور پیشفرض از APIهای AI شخص ثالث جدا شده
- CUDA 12 + vLLM / Ollama / ComfyUI در ۱ کلیک آماده
سؤال «AI سانسورنشده» واقعاً یک سؤال حاکمیت است
وقتی OpenAI API را فراخوانی میکنید، promptهایتان وارد یک لاگ تحت حوزه قضایی آمریکا میشود که حداقل ۳۰ روز نگهداری میشود (برای طبقهبندیهای ایمنی طولانیتر)، توسط تیمهای ایمنی هنگام علامتگذاری بررسی میشود، و مشمول فرآیند قانونی آمریکا است. مدل همچنین دستههایی از خروجی را که RLHF ایمنیاش برای آن آموزش دیده رد میکند. وقتی Llama-3.3-70B-Instruct (یا مشتق abliterated آن) را روی GPU خودتان اجرا میکنید، promptهایتان هرگز دستگاه شما را ترک نمیکنند، آموزش رد کردن هر چیزی است که وزنهای پایه ارائه میدهند، و حوزه قضایی هر کجایی است که جعبه را میزبانی کردهاید. هر دو لایه — بدون ثبت و وزنهای به انتخاب خودتان — چیزی است که مردم با «AI سانسورنشده» منظور دارند. ServPrivacy هر دو را ارائه میدهد: GPU برونمرزی بدون ضبط شبکه استنتاج، به علاوه قالبهایی که هر مدل HuggingFace را بدون بررسی وزنها از طرف ما بارگذاری میکنند.
هر مدل Open-Weight را بیاورید
Llama-3.3، DeepSeek-R1، Qwen3، Mistral-Small-3، Gemma-3، Phi-4، فورکهای abliterated، fine-tuneهای سفارشی — هر چیزی روی HuggingFace یا فایلهای .safetensors خودتان. در صورت ارائه مسیر مخزن در زمان سفارش از پیش دانلود میکنیم.
بدون ضبط ترافیک استنتاج
استنتاج روی GPU شما، داخل مهمان KVM شما اجرا میشود. ما ترافیک مدل شما را proxy نمیکنیم، آینه نمیکنیم یا نمونهبرداری نمیکنیم. promptها و خروجیهای شما تا زمانی که خودتان تصمیم بگیرید محلی میمانند.
حوزه قضایی برونمرزی
Iceland (پناهگاه آزادی بیان، ۱۰۰٪ انرژی تجدیدپذیر)، Netherlands (بهترین EU peering)، Romania (رویه قضایی ضد نگهداری)، Moldova (مقررات سبک، هزینه پایین). چارچوب قانونی مناسب را انتخاب کنید.
نقطه پایانی HTTPS عمومی — اختیاری
در زمان سفارش فعال کنید و ما Let's Encrypt + reverse proxy را روی پورت ۴۴۳ تأمین میکنیم — نمونه vLLM / Ollama شما در کمتر از ۶۰ ثانیه روی یک URL عمومی با TLS قابل دسترس است.
«AI سانسورنشده» در سال ۲۰۲۶ واقعاً چه معنایی دارد
اصطلاح «AI سانسورنشده» بسته به زمینه سه معنای متمایز دارد. (۱) وزنهای با رد کردن حذفشده — fine-tuneهای abliterated / سانسورنشده مدلهای پایه (مثلاً Llama-3.3-70B-abliterated) از طریق ویرایش فعالسازی یا ablation جهتدار، RLHF ایمنی را حذف کردهاند. آنها خروجیهایی تولید میکنند که مدل instruct اصلی رد میکند. (۲) بدون اعتدال محتوا در لایه serving — اجرای همان مدل بدون یک طبقهبند سیاست به سبک OpenAI در جلوی استنتاج. (۳) بدون ثبت prompt/تکمیل — ورودیها و خروجیهای شما هرگز دستگاه را ترک نمیکنند و در هیچ جای upstream نگهداری نمیشوند. ServPrivacy (۲) و (۳) را به طور پیشفرض ارائه میدهد، و شما وزنهای مدل را برای (۱) تأمین میکنید — ما آنچه روی سختافزار شما اجرا میشود را بررسی یا فیلتر نمیکنیم.
چشمانداز فعلی ۲۰۲۶ LLMهای قابل self-host
از ماه می ۲۰۲۶، اکوسیستم open-weight واقعاً با GPT-4 / Claude / Gemini میزبانیشده در بسیاری از وظایف رقابت میکند. DeepSeek-R1 و تقطیر آن به Llama-70B در معیارهای استدلال با GPT-4 برابری میکنند با کسری از هزینه استنتاج. Llama-3.3-70B-Instruct همچنان وظیفه عمومی اصلی برای کمک عمومی است. Qwen3-32B از نظر چندزبانی قوی و قادر به استدلال است. Gemma-3-27B توانایی را با وضوح مجوز مبادله میکند. Mistral-Small-3 نقطه شیرین سرعت/کیفیت برای وظایف کد است. Phi-4 بالاتر از کلاس وزنی ۱۴B خود عمل میکند. FLUX.1-dev جای SDXL را برای تولید تصویر گرفته است. Whisper-Large-v3 رهبر open-weight ASR باقی مانده. همه روی سطوح GPU زیر اجرا میشوند — برای اندازهگیری به راهنمای خرید GPU مراجعه کنید.
بهداشت عملیاتی برای یک هاست AI سانسورنشده
حتی روی یک جعبه GPU بدون KYC با بدون ثبت استنتاج، میتوانید هویت را وارد بار کاری کنید. بهداشت عملی برای self-hosterهای جدی: (۱) قبل از SSH از طریق Tor یا VPN به جعبه وصل شوید؛ (۲) از یک کلید SSH تازه که به حساب GitHub شما مرتبط نیست استفاده کنید؛ (۳) اگر یک نقطه پایانی HTTPS عمومی در معرض قرار میدهید، آن را با یک API key محافظت کنید و به جای IP بر اساس توکن محدود کنید؛ (۴) وزنها را به صورت inline در زمان سفارش از پیش دانلود کنید نه پس از استقرار با حساب HuggingFace خود؛ (۵) برای promptهای حساس، llama.cpp یا vLLM را پشت یک network namespace ایزوله اجرا کنید. این الگوها را در مرکز راهنما مستند کردهایم.
آنچه در محدوده «سانسورنشده» هست و نیست
در محدوده: خروجیهای NSFW یا حساس سیاسی که آموزش RLHF ایمنی مدل پایه رد میکند، محتوای داستانی شامل خشونت، خروجیهای انتقادی از افراد یا دولتهای نامبرده، خروجیهای تحقیقات dual-use (مثلاً امنیت سایبری، زیستشناسی، شیمی در سطح کتاب درسی)، خروجیها به لحن prompt-engineering خصمانه. خارج از AUP ما: CSAM (تحمل صفر، صرف نظر از مدل)، دستورالعملهای حملات CBRN با قربانیان انبوه (صرف نظر از مدل)، کمپینهای آزار هدفمند علیه افراد نامبرده شده، و خروجیهایی که به صراحت توسط قوانین کشور میزبان ممنوع است. خود مدل تقریباً همه چیز را تصمیم میگیرد؛ AUP سختترین موارد حاشیهای را خارج میکند.
هاستینگ AI سانسورنشده در ۴ حوزه قضایی برونمرزی
Russia به دلیل تحریمهای صادراتی NVIDIA H100 / RTX 4090+ از ردیف GPU حذف شده است.
ایسلند
پناهگاه آزادی بیانقوانین حریم خصوصی قوی، انرژی تجدیدپذیر، خارج از EU.
پاناما
بدون نگهداری دادهبدون قوانین نگهداری داده، بدون MLAT با اکثر کشورهای غربی.
مولداوی
برونمرزی اقتصادیمقررات سبک، قیمتهای پایین، همکاری بینالمللی حداقلی.
رومانی
ضد نگهداری دادهدادگاهها قوانین نگهداری داده را لغو کردهاند. اتصال عالی EU.
سوئیس
حریم خصوصی برترقوانین حریم خصوصی سختگیرانه، بیطرفی سیاسی، زیرساخت درجه یک.
هلند
بهترین پیرینگاتصالپذیری عالی، سیاستهای هاستینگ مسالمتآمیز، پیرینگ AMS-IX.
روسیه
مصون از غربخارج از دسترس حقوقی غرب. تابع قانون روسیه.
هاستینگ AI سانسورنشده — سؤالات متداول
01 آیا promptها یا خروجیهای مدل را ثبت میکنید؟
خیر. جعبه GPU مهمان KVM شماست. ما ترافیک استنتاج شما را proxy نمیکنیم، آینه نمیکنیم، نمونهبرداری نمیکنیم، یا محتوای prompt یا تکمیل را هیچ جا ارسال نمیکنیم. تنها لاگهایی که نگه میداریم در سطح شبکه (شمارندههای پهنای باند) و سطح hypervisor (uptime، مصرف برق GPU) هستند.
02 آیا میتوانم Llama-3.3-70B-abliterated یا DeepSeek-R1 را اینجا اجرا کنم؟
بله. هر مدل open-weight روی HuggingFace که بتوانید به صورت قانونی تهیه کنید — Llama-3.3-70B-Instruct، فورکهای abliterated، DeepSeek-R1، DeepSeek-R1-Distill-Llama-70B، Qwen3-32B، Gemma-3-27B، Mistral-Small-3، Phi-4 و دیگران. در زمان سفارش هنگام مشخص کردن مخزن HF از پیش دانلود میکنیم، یا میتوانید پس از اولین ورود SSH به صورت دستی pull کنید.
03 کدام اندازههای مدل با کدام سطح GPU مناسب هستند؟
اندازهگیری تقریبی در کوانتیزاسیون Q4: RTX 4090 (24 GB) 7B–13B را به راحتی جا میدهد و 27–32B را با درد offload. RTX 5090 (32 GB) 27B–32B را به راحتی جا میدهد و 70B را با CPU offload. H100 SXM5 (80 GB) 70B را در Q4–Q5 به راحتی جا میدهد. Dual H100 (160 GB) 70B در FP16، 120–180B در Q4 را جا میدهد. راهنمای خرید در /guides/rtx-4090-vs-h100-for-ai-inference ارقام دقیق throughput دارد.
04 آیا سیاست محتوایی هست که با آن روبرو شوم؟
هیچ سیاست محتوای platform-side برای آنچه مدل شما تولید میکند وجود ندارد. AUP ما تنها آنچه را که در کشور میزبان صرف نظر از نحوه تولید غیرقانونی است ممنوع میکند (CSAM، دستورالعملهای حملات CBRN با قربانیان انبوه، آزار هدفمند افراد نامبرده). همه چیز دیگر — از جمله NSFW، سیاسی، تحقیقات dual-use، و خروجیهای با prompt خصمانه — اجرا میشود.
05 آیا میتوانم LLM خودم را روی یک URL عمومی سرویس دهم؟
بله. «Public HTTPS» را در زمان سفارش فعال کنید — ما یک گواهینامه Let's Encrypt و reverse proxy روی پورت ۴۴۳ به پورت vLLM / Ollama / Open WebUI شما تأمین میکنیم. مدل شما با TLS در `https://
06 این در مقایسه با OpenAI، Anthropic یا پروکسیهای OpenRouter چطور است؟
OpenAI / Anthropic: میزبانیشده، سیاست محتوای کامل، ثبت prompt ۳۰ روزه، حوزه قضایی آمریکا. OpenRouter / Together / Fireworks: همچنان میزبانیشده، سیاست محتوای vendor تعریفشده، ثبت vendor. Self-hosted روی GPU برونمرزی: بدون سیاست platform-side، بدون ثبت توسط ما، حوزه قضایی کشور میزبان. معامله: برای زمان GPU چه استفاده کنید یا نه پرداخت میکنید، و خودتان استک را اداره میکنید. در حجم بالا ریاضیات به نفع self-hosting است؛ در استفاده پراکنده APIهای میزبانیشده از نظر قیمت برنده میشوند.
AI خودتان را self-host کنید — بدون لاگ، بدون سیاست
Llama، DeepSeek، Qwen، Mistral، Gemma — هر مدل open-weight را بیاورید. GPU برونمرزی از $122.00 در ماه، CUDA 12 + vLLM یککلیکی آماده.