خانه / هاستینگ AI سانسورنشده — LLM خودتان را Self-Host کنید
self-host DeepSeek-R1، Llama-3.3، Qwen3 — بدون ثبت استنتاج، بدون سیاست محتوا.

هاستینگ AI سانسورنشده — LLM خودتان را Self-Host کنید

OpenAI، Anthropic، Google و xAI همه سیاست‌های محتوا را در نقاط پایانی میزبانی‌شده خود اعمال می‌کنند — و هر prompt را برای طبقه‌بندی ایمنی، بهبود مدل، و پاسخ به درخواست‌های دولتی ثبت می‌کنند. Self-hosting روی جعبه GPU خودتان این را معکوس می‌کند: هر مدل open-weight که بتوانید به صورت قانونی تهیه کنید به صورت محلی اجرا می‌شود، هیچ ترافیک استنتاجی از لایه شبکه ما عبور نمی‌کند، هیچ promptی ثبت نمی‌شود، هیچ خروجی‌ای فیلتر نمی‌شود. ServPrivacy سرورهای GPU RTX 4090 / RTX 5090 / H100 SXM5 را در ۴ حوزه قضایی برون‌مرزی با قالب‌های یک‌کلیکی vLLM، Ollama، ComfyUI، Whisper و Bark ارائه می‌دهد.

بدون احراز هویت
فقط ارز دیجیتال
بدون لاگ
DMCA نادیده گرفته می‌شود
دسترسی کامل Root
NVMe SSD
نقاط پایانی میزبانی‌شده همه چیز را ثبت می‌کنند. وزن‌های محلی هیچ چیز را ثبت نمی‌کنند.

سؤال «AI سانسورنشده» واقعاً یک سؤال حاکمیت است

وقتی OpenAI API را فراخوانی می‌کنید، promptهایتان وارد یک لاگ تحت حوزه قضایی آمریکا می‌شود که حداقل ۳۰ روز نگهداری می‌شود (برای طبقه‌بندی‌های ایمنی طولانی‌تر)، توسط تیم‌های ایمنی هنگام علامت‌گذاری بررسی می‌شود، و مشمول فرآیند قانونی آمریکا است. مدل همچنین دسته‌هایی از خروجی را که RLHF ایمنی‌اش برای آن آموزش دیده رد می‌کند. وقتی Llama-3.3-70B-Instruct (یا مشتق abliterated آن) را روی GPU خودتان اجرا می‌کنید، promptهایتان هرگز دستگاه شما را ترک نمی‌کنند، آموزش رد کردن هر چیزی است که وزن‌های پایه ارائه می‌دهند، و حوزه قضایی هر کجایی است که جعبه را میزبانی کرده‌اید. هر دو لایه — بدون ثبت و وزن‌های به انتخاب خودتان — چیزی است که مردم با «AI سانسورنشده» منظور دارند. ServPrivacy هر دو را ارائه می‌دهد: GPU برون‌مرزی بدون ضبط شبکه استنتاج، به علاوه قالب‌هایی که هر مدل HuggingFace را بدون بررسی وزن‌ها از طرف ما بارگذاری می‌کنند.

01

هر مدل Open-Weight را بیاورید

Llama-3.3، DeepSeek-R1، Qwen3، Mistral-Small-3، Gemma-3، Phi-4، فورک‌های abliterated، fine-tuneهای سفارشی — هر چیزی روی HuggingFace یا فایل‌های .safetensors خودتان. در صورت ارائه مسیر مخزن در زمان سفارش از پیش دانلود می‌کنیم.

02

بدون ضبط ترافیک استنتاج

استنتاج روی GPU شما، داخل مهمان KVM شما اجرا می‌شود. ما ترافیک مدل شما را proxy نمی‌کنیم، آینه نمی‌کنیم یا نمونه‌برداری نمی‌کنیم. promptها و خروجی‌های شما تا زمانی که خودتان تصمیم بگیرید محلی می‌مانند.

03

حوزه قضایی برون‌مرزی

Iceland (پناهگاه آزادی بیان، ۱۰۰٪ انرژی تجدیدپذیر)، Netherlands (بهترین EU peering)، Romania (رویه قضایی ضد نگهداری)، Moldova (مقررات سبک، هزینه پایین). چارچوب قانونی مناسب را انتخاب کنید.

04

نقطه پایانی HTTPS عمومی — اختیاری

در زمان سفارش فعال کنید و ما Let's Encrypt + reverse proxy را روی پورت ۴۴۳ تأمین می‌کنیم — نمونه vLLM / Ollama شما در کمتر از ۶۰ ثانیه روی یک URL عمومی با TLS قابل دسترس است.

«AI سانسورنشده» در سال ۲۰۲۶ واقعاً چه معنایی دارد

اصطلاح «AI سانسورنشده» بسته به زمینه سه معنای متمایز دارد. (۱) وزن‌های با رد کردن حذف‌شده — fine-tuneهای abliterated / سانسورنشده مدل‌های پایه (مثلاً Llama-3.3-70B-abliterated) از طریق ویرایش فعال‌سازی یا ablation جهت‌دار، RLHF ایمنی را حذف کرده‌اند. آنها خروجی‌هایی تولید می‌کنند که مدل instruct اصلی رد می‌کند. (۲) بدون اعتدال محتوا در لایه serving — اجرای همان مدل بدون یک طبقه‌بند سیاست به سبک OpenAI در جلوی استنتاج. (۳) بدون ثبت prompt/تکمیل — ورودی‌ها و خروجی‌های شما هرگز دستگاه را ترک نمی‌کنند و در هیچ جای upstream نگهداری نمی‌شوند. ServPrivacy (۲) و (۳) را به طور پیش‌فرض ارائه می‌دهد، و شما وزن‌های مدل را برای (۱) تأمین می‌کنید — ما آنچه روی سخت‌افزار شما اجرا می‌شود را بررسی یا فیلتر نمی‌کنیم.

چشم‌انداز فعلی ۲۰۲۶ LLMهای قابل self-host

از ماه می ۲۰۲۶، اکوسیستم open-weight واقعاً با GPT-4 / Claude / Gemini میزبانی‌شده در بسیاری از وظایف رقابت می‌کند. DeepSeek-R1 و تقطیر آن به Llama-70B در معیارهای استدلال با GPT-4 برابری می‌کنند با کسری از هزینه استنتاج. Llama-3.3-70B-Instruct همچنان وظیفه عمومی اصلی برای کمک عمومی است. Qwen3-32B از نظر چندزبانی قوی و قادر به استدلال است. Gemma-3-27B توانایی را با وضوح مجوز مبادله می‌کند. Mistral-Small-3 نقطه شیرین سرعت/کیفیت برای وظایف کد است. Phi-4 بالاتر از کلاس وزنی ۱۴B خود عمل می‌کند. FLUX.1-dev جای SDXL را برای تولید تصویر گرفته است. Whisper-Large-v3 رهبر open-weight ASR باقی مانده. همه روی سطوح GPU زیر اجرا می‌شوند — برای اندازه‌گیری به راهنمای خرید GPU مراجعه کنید.

بهداشت عملیاتی برای یک هاست AI سانسورنشده

حتی روی یک جعبه GPU بدون KYC با بدون ثبت استنتاج، می‌توانید هویت را وارد بار کاری کنید. بهداشت عملی برای self-hosterهای جدی: (۱) قبل از SSH از طریق Tor یا VPN به جعبه وصل شوید؛ (۲) از یک کلید SSH تازه که به حساب GitHub شما مرتبط نیست استفاده کنید؛ (۳) اگر یک نقطه پایانی HTTPS عمومی در معرض قرار می‌دهید، آن را با یک API key محافظت کنید و به جای IP بر اساس توکن محدود کنید؛ (۴) وزن‌ها را به صورت inline در زمان سفارش از پیش دانلود کنید نه پس از استقرار با حساب HuggingFace خود؛ (۵) برای promptهای حساس، llama.cpp یا vLLM را پشت یک network namespace ایزوله اجرا کنید. این الگوها را در مرکز راهنما مستند کرده‌ایم.

آنچه در محدوده «سانسورنشده» هست و نیست

در محدوده: خروجی‌های NSFW یا حساس سیاسی که آموزش RLHF ایمنی مدل پایه رد می‌کند، محتوای داستانی شامل خشونت، خروجی‌های انتقادی از افراد یا دولت‌های نام‌برده، خروجی‌های تحقیقات dual-use (مثلاً امنیت سایبری، زیست‌شناسی، شیمی در سطح کتاب درسی)، خروجی‌ها به لحن prompt-engineering خصمانه. خارج از AUP ما: CSAM (تحمل صفر، صرف نظر از مدل)، دستورالعمل‌های حملات CBRN با قربانیان انبوه (صرف نظر از مدل)، کمپین‌های آزار هدفمند علیه افراد نام‌برده شده، و خروجی‌هایی که به صراحت توسط قوانین کشور میزبان ممنوع است. خود مدل تقریباً همه چیز را تصمیم می‌گیرد؛ AUP سخت‌ترین موارد حاشیه‌ای را خارج می‌کند.

حوزه‌های قضایی

هاستینگ AI سانسورنشده در ۴ حوزه قضایی برون‌مرزی

Russia به دلیل تحریم‌های صادراتی NVIDIA H100 / RTX 4090+ از ردیف GPU حذف شده است.

سؤالات متداول

هاستینگ AI سانسورنشده — سؤالات متداول

01 آیا promptها یا خروجی‌های مدل را ثبت می‌کنید؟

خیر. جعبه GPU مهمان KVM شماست. ما ترافیک استنتاج شما را proxy نمی‌کنیم، آینه نمی‌کنیم، نمونه‌برداری نمی‌کنیم، یا محتوای prompt یا تکمیل را هیچ جا ارسال نمی‌کنیم. تنها لاگ‌هایی که نگه می‌داریم در سطح شبکه (شمارنده‌های پهنای باند) و سطح hypervisor (uptime، مصرف برق GPU) هستند.

02 آیا می‌توانم Llama-3.3-70B-abliterated یا DeepSeek-R1 را اینجا اجرا کنم؟

بله. هر مدل open-weight روی HuggingFace که بتوانید به صورت قانونی تهیه کنید — Llama-3.3-70B-Instruct، فورک‌های abliterated، DeepSeek-R1، DeepSeek-R1-Distill-Llama-70B، Qwen3-32B، Gemma-3-27B، Mistral-Small-3، Phi-4 و دیگران. در زمان سفارش هنگام مشخص کردن مخزن HF از پیش دانلود می‌کنیم، یا می‌توانید پس از اولین ورود SSH به صورت دستی pull کنید.

03 کدام اندازه‌های مدل با کدام سطح GPU مناسب هستند؟

اندازه‌گیری تقریبی در کوانتیزاسیون Q4: RTX 4090 (24 GB) 7B–13B را به راحتی جا می‌دهد و 27–32B را با درد offload. RTX 5090 (32 GB) 27B–32B را به راحتی جا می‌دهد و 70B را با CPU offload. H100 SXM5 (80 GB) 70B را در Q4–Q5 به راحتی جا می‌دهد. Dual H100 (160 GB) 70B در FP16، 120–180B در Q4 را جا می‌دهد. راهنمای خرید در /guides/rtx-4090-vs-h100-for-ai-inference ارقام دقیق throughput دارد.

04 آیا سیاست محتوایی هست که با آن روبرو شوم؟

هیچ سیاست محتوای platform-side برای آنچه مدل شما تولید می‌کند وجود ندارد. AUP ما تنها آنچه را که در کشور میزبان صرف نظر از نحوه تولید غیرقانونی است ممنوع می‌کند (CSAM، دستورالعمل‌های حملات CBRN با قربانیان انبوه، آزار هدفمند افراد نام‌برده). همه چیز دیگر — از جمله NSFW، سیاسی، تحقیقات dual-use، و خروجی‌های با prompt خصمانه — اجرا می‌شود.

05 آیا می‌توانم LLM خودم را روی یک URL عمومی سرویس دهم؟

بله. «Public HTTPS» را در زمان سفارش فعال کنید — ما یک گواهینامه Let's Encrypt و reverse proxy روی پورت ۴۴۳ به پورت vLLM / Ollama / Open WebUI شما تأمین می‌کنیم. مدل شما با TLS در `https://.servprivacy.dev` (یا دامنه خودتان اگر یک A record اشاره کنید) بدون راه‌اندازی اضافی قابل دسترس است.

06 این در مقایسه با OpenAI، Anthropic یا پروکسی‌های OpenRouter چطور است؟

OpenAI / Anthropic: میزبانی‌شده، سیاست محتوای کامل، ثبت prompt ۳۰ روزه، حوزه قضایی آمریکا. OpenRouter / Together / Fireworks: همچنان میزبانی‌شده، سیاست محتوای vendor تعریف‌شده، ثبت vendor. Self-hosted روی GPU برون‌مرزی: بدون سیاست platform-side، بدون ثبت توسط ما، حوزه قضایی کشور میزبان. معامله: برای زمان GPU چه استفاده کنید یا نه پرداخت می‌کنید، و خودتان استک را اداره می‌کنید. در حجم بالا ریاضیات به نفع self-hosting است؛ در استفاده پراکنده API‌های میزبانی‌شده از نظر قیمت برنده می‌شوند.

AI خودتان را self-host کنید — بدون لاگ، بدون سیاست

Llama، DeepSeek، Qwen، Mistral، Gemma — هر مدل open-weight را بیاورید. GPU برون‌مرزی از $122.00 در ماه، CUDA 12 + vLLM یک‌کلیکی آماده.

شروع کنید بهترین حوزه قضایی را پیدا کنید