Mengapa self-host LLM
Saat Anda memanggil API AI hosted, setiap prompt yang Anda kirim diproses di perangkat keras milik orang lain. Penyedia layanan melihat seluruh teks input dan output Anda, umumnya menyimpannya untuk jangka waktu tertentu, dan menerapkan kebijakan konten mereka sendiri atas apa yang boleh dan tidak boleh dikatakan model. Untuk hal-hal sensitif — kode kepemilikan, dokumen rahasia, data pribadi, atau sekadar pekerjaan yang tidak ingin Anda serahkan ke pihak ketiga — ini adalah eksposur yang berarti.
Self-hosting LLM menghilangkan perantara. Anda menyewa server GPU, memuat model open-weight ke dalamnya, dan menjalankan inferensi sendiri. Prompt tidak pernah meninggalkan infrastruktur yang Anda kendalikan, tidak ada yang disimpan kecuali Anda memilihnya, dan model yang digunakan adalah pilihan Anda sendiri — termasuk model terbuka tanpa penolakan bawaan. Dikombinasikan dengan server GPU offshore tanpa KYC, self-hosting memberi Anda endpoint AI pribadi yang tidak dicatat, dibatasi kecepatannya oleh kebijakan, atau dapat dipaksa diserahkan oleh perusahaan mana pun. Panduan ini mencakup cara memilih perangkat keras dan model, cara mengaktifkan layanannya, dan berapa biayanya.

Sesuaikan GPU dengan model
Satu angka yang menentukan segalanya adalah VRAM — memori GPU. Sebuah model harus masuk ke dalam VRAM agar dapat berjalan dengan baik, dan jumlah yang dibutuhkan bergantung pada jumlah parameter dan presisi saat model dimuat. Sebagai panduan kasar, model yang dikuantisasi ke 4-bit membutuhkan sedikit lebih dari setengah gigabyte VRAM per miliar parameter; dimuat pada presisi penuh 16-bit membutuhkan sekitar dua kali lipat, ditambah ruang ekstra untuk jendela konteks.
Dalam praktiknya, ini terpetakan dengan jelas ke kartu-kartu yang tersedia:
- RTX 4090 / RTX 5090 (24-32 GB VRAM) — mampu menjalankan model hingga sekitar 30B parameter terkuantisasi dengan nyaman, dan model yang lebih kecil pada presisi penuh. Titik optimal bagi sebagian besar pengguna self-hosting: cepat, terjangkau, dan cukup untuk model open-weight ukuran menengah terbaik.
- H100 SXM5 (80 GB VRAM) — menjalankan model kelas 70B yang terkuantisasi dengan ruang lebih, menangani jendela konteks besar, dan melayani banyak permintaan bersamaan dengan throughput tinggi. Pilihan untuk model terbuka terbesar atau beban kerja tingkat produksi.
- Multi-GPU (2x H100, 160 GB) — untuk model open-weight terbesar dan penyajian konkuren yang berat.
Mulailah dari model yang ingin Anda jalankan, hitung kebutuhan VRAM-nya, dan pilih kartu terkecil yang dapat menampungnya dengan ruang ekstra. Membayar untuk VRAM lebih dari yang digunakan model adalah pemborosan anggaran.
Pilih model Anda
Ekosistem open-weight pada 2026 sudah cukup kuat sehingga, untuk sebagian besar tugas, model yang di-self-host benar-benar kompetitif dengan API hosted. Keluarga utama yang perlu diketahui:
- Model keluarga Llama — model serbaguna yang didukung dengan baik dalam berbagai ukuran; pilihan aman default untuk sebagian besar beban kerja.
- DeepSeek — performa penalaran dan pengkodean yang kuat, dengan ukuran yang berjalan baik pada satu kartu berkapasitas VRAM tinggi.
- Qwen dan Mistral — kemampuan sangat baik per parameter, dengan varian yang lebih kecil yang berjalan nyaman pada kartu 24-32 GB.
- Varian uncensored atau abliterated — fine-tune komunitas dari model di atas dengan perilaku penolakan dihapus, untuk pengguna yang menginginkan model yang tidak menerapkan kebijakan konten penyedia hosted.
Pilih model terkecil yang benar-benar menyelesaikan tugas Anda dengan baik. Model 14B-30B yang dipilih dengan cermat pada satu 4090 atau 5090 sudah cukup untuk sebagian besar penggunaan nyata — bantuan coding, penyusunan teks, ringkasan, analisis — dan jauh lebih hemat biaya daripada menggunakan model 70B hanya karena kebiasaan.
Langkah 1 — Provisioning server GPU
Di ServPrivacy, pilih paket GPU dengan kartu yang telah Anda tentukan dan yurisdiksi yang Anda inginkan, lalu bayar dengan kripto. Server diprovisioning secara otomatis — CUDA dan driver NVIDIA sudah terpasang sebelumnya, sehingga mesin siap untuk pekerjaan inferensi begitu dinyalakan; tidak ada instalasi driver yang perlu diperjuangkan.
Hubungkan melalui SSH. Perintah nvidia-smi yang cepat mengonfirmasi GPU terdeteksi dan menampilkan VRAM yang tersedia. Dari sini Anda hanya selangkah lagi dari model yang berjalan.
Langkah 2 — Aktifkan layanan model
Ada dua jalur yang sudah teruji, tergantung pada apakah Anda menginginkan kesederhanaan atau throughput maksimum.
Jalur cepat: Ollama. Untuk membuat model menjawab prompt dalam hitungan menit, Ollama adalah pilihan paling sederhana. Instal dengan installer satu baris, lalu tarik dan jalankan model dengan satu perintah — misalnya ollama run llama3.1. Ollama menangani unduhan, kuantisasi, dan offload GPU, serta mengekspos API lokal. Untuk penggunaan pribadi dan pengembangan, ini sudah cukup bagi kebanyakan orang.
Jalur throughput: vLLM. Jika Anda perlu melayani banyak permintaan bersamaan secara efisien — backend aplikasi, bukan asisten pribadi — vLLM adalah pilihan standar. Ini adalah server inferensi berperforma tinggi yang menghasilkan token per detik jauh lebih banyak dari GPU yang sama, dan mengekspos API yang kompatibel dengan OpenAI, sehingga kode yang sudah ditulis untuk API hosted dapat diarahkan ke server Anda sendiri hanya dengan mengubah URL.
Dengan cara apapun, dalam beberapa menit setelah server menyala Anda sudah memiliki model yang menerima prompt.
Langkah 3 — Gunakan secara privat dan amankan endpoint
Secara default, server inferensi mendengarkan secara lokal. Ada dua cara yang masuk akal untuk mengaksesnya, dan satu aturan yang wajib diikuti.
Aturannya: jangan ekspos API inferensi mentah ke internet terbuka. Secara bawaan tidak ada autentikasi, dan endpoint yang terbuka akan ditemukan dan disalahgunakan. Sebagai gantinya, gunakan tunnel SSH — sehingga API tetap terikat ke localhost dan Anda mengaksesnya melalui koneksi SSH terenkripsi — atau tempatkan di belakang reverse proxy yang menerapkan autentikasi dan TLS. Untuk asisten pribadi, SSH tunnel adalah pilihan paling sederhana dan paling privat; untuk aplikasi, gunakan proxy yang terauthentikasi.
Dengan cara tersebut, prompt hanya bergerak antara Anda dan server Anda sendiri. Tidak ada yang dicatat oleh pihak ketiga, tidak ada yang disimpan di luar konfigurasi Anda, dan model menjawab tanpa kebijakan konten eksternal dalam jalurnya. Ini, dalam arti harfiah, adalah AI Anda sendiri.
Berapa biayanya
Ekonomi self-hosting sepenuhnya bergantung pada pola penggunaan. API hosted mengenakan biaya per token, yang sangat efisien untuk penggunaan ringan dan sesekali, namun mahal untuk penggunaan berat dan berkelanjutan. Server GPU sewaan memiliki biaya bulanan tetap, terlepas dari berapa banyak token yang Anda proses.
Titik balik datang dengan cepat bagi siapa pun yang menjalankan beban kerja nyata. Server RTX 4090 tunggal mulai dari sekitar $122/bulan di ServPrivacy; jika pengeluaran API bulanan Anda sudah dalam kisaran itu — dan untuk asisten coding, pemrosesan batch, atau backend aplikasi apa pun, seringkali memang demikian — GPU dedicated lebih murah dan tanpa batas penggunaan. Anda juga mendapatkan sesuatu yang tidak bisa diberikan oleh tagihan per token: tidak ada batas kecepatan, tidak ada penolakan kebijakan, biaya yang dapat diprediksi, dan privasi penuh. Untuk pertanyaan sesekali, API sudah cukup; untuk penggunaan reguler, self-hosting unggul dari segi biaya maupun kontrol.
Kapan self-hosting adalah pilihan yang tepat
Self-hosting LLM adalah pilihan yang tepat ketika salah satu dari tiga hal ini penting bagi Anda: privasi — prompt mengandung sesuatu yang tidak ingin Anda letakkan di server pihak ketiga; kontrol — Anda menginginkan model tertentu, termasuk model terbuka tanpa penolakan hosted; atau ekonomi — penggunaan Anda cukup berat sehingga biaya GPU tetap lebih menguntungkan daripada tagihan per token.
Jika Anda hanya sesekali mengajukan pertanyaan ke model, API hosted lebih sederhana dan lebih murah. Namun untuk penggunaan berkelanjutan, materi sensitif, atau kebutuhan model yang menjawab sesuai ketentuan Anda, server GPU yang menjalankan model Anda sendiri adalah setup yang lebih baik — dan pada host GPU offshore tanpa KYC, ini adalah endpoint AI pribadi yang hanya milik Anda.