LLM을 직접 운영해야 하는 이유
호스팅된 AI API를 호출하면, 전송하는 모든 프롬프트가 타인의 서버에서 처리됩니다. 서비스 제공자는 입력과 출력의 전체 내용을 볼 수 있고, 일반적으로 일정 기간 동안 이를 보관하며, 모델이 무엇을 말하고 말하지 않을지에 대해 자체적인 콘텐츠 정책을 적용합니다. 독점 코드, 기밀 문서, 개인 정보, 또는 단순히 제3자에게 남기고 싶지 않은 작업물 등 민감한 내용을 다룰 때 이는 상당한 노출 위험이 됩니다.
LLM을 직접 운영하면 중간 매개자가 사라집니다. GPU 서버를 임대하고, 공개 가중치 모델을 올린 뒤, 직접 추론을 실행하면 됩니다. 프롬프트는 내가 관리하는 인프라 밖으로 나가지 않으며, 내가 원하지 않는 한 아무것도 보관되지 않고, 모델은 내가 선택한 것을 사용합니다 — 내장된 거부 기능이 없는 공개 모델도 포함해서요. KYC 없이 이용 가능한 오프쇼어 GPU 서버와 결합하면, 어떤 기업도 로그를 남기거나, 정책으로 속도를 제한하거나, 제출을 강요받지 않는 완전히 비공개적인 AI 엔드포인트가 만들어집니다. 이 가이드에서는 하드웨어와 모델 선택, 서빙 시작 방법, 그리고 비용을 다룹니다.

GPU와 모델 매칭하기
모든 것을 결정하는 단 하나의 숫자는 VRAM — GPU의 메모리입니다. 모델이 제대로 실행되려면 VRAM에 완전히 적재되어야 하며, 필요한 용량은 모델의 파라미터 수와 로딩 정밀도에 따라 달라집니다. 대략적인 기준으로, 4비트로 양자화된 모델은 10억 파라미터당 0.5GB 조금 넘는 VRAM이 필요하고, 16비트 전체 정밀도로 로드하면 대략 두 배에 컨텍스트 창을 위한 여유 공간이 추가로 필요합니다.
실제로는 다음과 같이 각 카드에 깔끔하게 매핑됩니다:
- RTX 4090 / RTX 5090 (24-32 GB VRAM) — 양자화된 약 30B 파라미터 이하 모델을 원활하게 실행하며, 더 작은 모델은 전체 정밀도로도 구동 가능합니다. 대부분의 셀프 호스터에게 이상적인 선택: 빠르고, 가격도 적당하며, 최고의 중간 규모 공개 모델을 실행하기에 충분합니다.
- H100 SXM5 (80 GB VRAM) — 70B급 양자화 모델을 여유 있게 실행하고, 대형 컨텍스트 창을 처리하며, 높은 처리량으로 많은 동시 요청을 처리합니다. 가장 대형 공개 모델이나 프로덕션급 부하에 적합한 선택입니다.
- 멀티 GPU (2x H100, 160 GB) — 가장 대형 공개 가중치 모델과 대용량 동시 서빙에 사용합니다.
실행하려는 모델에서 출발해 필요한 VRAM을 계산하고, 여유 공간이 있는 가장 작은 카드를 선택하세요. 모델이 사용하지 않는 VRAM에 비용을 지불하는 것은 낭비입니다.
모델 선택하기
2026년의 공개 가중치 생태계는 대부분의 작업에서 셀프 호스팅 모델이 호스팅 API와 충분히 경쟁할 수 있을 만큼 성숙해 있습니다. 알아두어야 할 주요 모델 계열:
- Llama 계열 모델 — 다양한 크기로 제공되는, 광범위하게 지원되는 범용 모델로, 대부분의 작업에 무난한 기본 선택입니다.
- DeepSeek — 뛰어난 추론 및 코딩 성능을 제공하며, 단일 고용량 VRAM 카드에서 잘 실행되는 크기의 모델이 있습니다.
- Qwen 및 Mistral — 파라미터 대비 뛰어난 성능을 자랑하며, 더 작은 변형은 24-32 GB 카드에서 원활하게 실행됩니다.
- 검열 해제 또는 abliterated 변형 — 거부 동작이 제거된 위 모델들의 커뮤니티 파인튜닝 버전으로, 호스팅 서비스의 콘텐츠 정책을 적용받고 싶지 않은 사용자를 위한 것입니다.
맡은 작업을 실제로 잘 수행하는 가장 작은 모델을 선택하세요. 단일 4090 또는 5090에서 잘 선택된 14B-30B 모델은 코딩 지원, 문서 작성, 요약, 분석 등 대다수 실제 사용 사례에 충분하며, 습관적으로 70B 모델을 선택하는 것보다 훨씬 저렴합니다.
1단계 — GPU 서버 프로비저닝
ServPrivacy에서 원하는 카드와 관할권이 있는 GPU 플랜을 선택하고 암호화폐로 결제하세요. 서버는 자동으로 프로비저닝됩니다 — CUDA와 NVIDIA 드라이버가 사전 설치되어 있어, 서버가 부팅되는 순간부터 추론 작업을 시작할 수 있습니다. 드라이버 설치 과정을 거칠 필요가 없습니다.
SSH로 접속하세요. nvidia-smi를 빠르게 실행하면 GPU가 인식되어 있고 여유 VRAM을 확인할 수 있습니다. 이제 몇 가지 명령어만 실행하면 모델이 실행됩니다.
2단계 — 모델 서빙 시작하기
단순함을 원하는지, 최대 처리량을 원하는지에 따라 두 가지 잘 검증된 방법이 있습니다.
빠른 방법: Ollama. 몇 분 안에 모델이 프롬프트에 응답하도록 만들려면 Ollama가 가장 간단한 선택입니다. 한 줄 인스톨러로 설치한 뒤, 단일 명령어로 모델을 다운로드하고 실행하면 됩니다 — 예를 들어 ollama run llama3.1. Ollama는 다운로드, 양자화, GPU 오프로드를 처리하고 로컬 API를 노출합니다. 개인 사용 및 개발 목적으로는 이것으로 충분한 경우가 대부분입니다.
처리량 중심 방법: vLLM. 많은 동시 요청을 효율적으로 처리해야 한다면 — 개인 비서가 아닌 애플리케이션 백엔드의 경우 — vLLM이 표준 선택입니다. 동일한 GPU에서 훨씬 더 많은 토큰/초를 처리하는 고성능 추론 서버로, OpenAI 호환 API를 노출하기 때문에 호스팅 API용으로 작성된 기존 코드를 URL만 변경해 자체 서버로 전환할 수 있습니다.
어떤 방법을 선택하든, 서버가 부팅된 지 몇 분 이내에 프롬프트를 받아들이는 모델이 준비됩니다.
3단계 — 비공개로 사용하고 엔드포인트 보안 설정하기
기본적으로 추론 서버는 로컬로 수신 대기합니다. 접근하는 두 가지 합리적인 방법과 반드시 지켜야 할 한 가지 규칙이 있습니다.
규칙: 원시 추론 API를 공개 인터넷에 노출하지 마세요. 기본 설정에는 인증이 없어, 열린 엔드포인트는 금방 발견되어 악용됩니다. 대신, SSH를 통해 터널링하거나 — API가 localhost에 바인딩된 채로 암호화된 SSH 연결을 통해 접근 — 인증과 TLS를 강제하는 리버스 프록시 뒤에 두어야 합니다. 개인 비서 용도라면 SSH 터널이 가장 간단하고 비공개적인 옵션이고, 애플리케이션용이라면 인증된 프록시를 사용하세요.
이렇게 구성하면 프롬프트는 오직 나와 내 서버 사이에서만 이동합니다. 제3자가 로그를 남기지 않고, 내가 설정한 것 이상 아무것도 보관되지 않으며, 모델은 외부 콘텐츠 정책의 개입 없이 응답합니다. 말 그대로, 나만의 AI입니다.
비용은 얼마나 되나요
셀프 호스팅의 경제성은 전적으로 사용 패턴에 달려 있습니다. 호스팅 API는 토큰당 요금을 부과하므로 가볍고 간헐적인 사용에는 매우 경제적이지만 지속적인 고강도 사용에는 비용이 커집니다. 임대 GPU 서버는 얼마나 많은 토큰을 처리하든 관계없이 고정 월 비용이 발생합니다.
실제 워크로드를 실행하는 사람에게는 손익분기점이 빨리 찾아옵니다. ServPrivacy의 단일 RTX 4090 서버는 월 약 $122부터 시작하는데, 호스팅 API 이용 비용이 이미 매월 그 정도에 달한다면 — 코딩 보조, 배치 처리, 애플리케이션 백엔드 등에서는 흔한 일입니다 — 전용 GPU가 더 저렴하고 사용량 제한도 없습니다. 또한 토큰당 과금으로는 얻을 수 없는 것도 얻게 됩니다: 속도 제한 없음, 정책 거부 없음, 예측 가능한 비용, 완전한 프라이버시. 가끔씩 질문하는 용도라면 API로 충분하지만, 정기적인 사용이라면 비용과 통제 면에서 셀프 호스팅이 유리합니다.
셀프 호스팅이 올바른 선택인 경우
LLM 셀프 호스팅은 다음 세 가지 중 하나라도 중요하다면 올바른 선택입니다: 프라이버시 — 프롬프트에 제3자 서버에 남기고 싶지 않은 내용이 포함된 경우; 제어 — 호스팅 거부 기능이 없는 공개 모델을 포함해 특정 모델을 원하는 경우; 또는 경제성 — 사용량이 많아 고정 GPU 비용이 토큰당 과금보다 유리한 경우.
모델에 가끔 질문하는 정도라면 호스팅 API가 더 간단하고 저렴합니다. 하지만 지속적인 사용, 민감한 자료, 또는 내 조건으로 응답하는 모델이 필요하다면 GPU 서버에서 자체 모델을 실행하는 것이 더 나은 설정입니다 — 그리고 KYC 없이 이용 가능한 오프쇼어 GPU 호스트라면, 오로지 당신만의 비공개 AI 엔드포인트가 됩니다.