Ollama를 사용하여 Open WebUI를 설정하는 방법 (2026)
로컬 AI 모델을 위한 ChatGPT 스타일의 인터페이스 배포하기
Hypereal로 구축 시작하기
단일 API를 통해 Kling, Flux, Sora, Veo 등에 액세스하세요. 무료 크레딧으로 시작하고 수백만으로 확장하세요.
신용카드 불필요 • 10만 명 이상의 개발자 • 엔터프라이즈 지원
Open WebUI와 Ollama 설정 방법 (2026)
Open WebUI는 대규모 언어 모델(LLM)과 상호작용하기 위한 오픈 소스 기반의 자체 호스팅 웹 인터페이스입니다. 로컬에서 LLM을 실행하는 도구인 Ollama와 결합하면, 외부 API 키나 구독료 없이 모든 데이터가 내 컴퓨터 내에 머무는 ChatGPT와 유사한 환경을 본인의 하드웨어에서 구현할 수 있습니다.
이 가이드에서는 Ollama 설치부터 고급 기능을 갖춘 Open WebUI 구성까지 전체 설정 과정을 안내합니다.
왜 Open WebUI + Ollama인가요?
| 기능 | ChatGPT | Open WebUI + Ollama |
|---|---|---|
| 비용 | 월 $20-200 | 무료 (본인 하드웨어 사용) |
| 개인정보 보호 | 데이터가 OpenAI로 전송됨 | 모든 데이터가 로컬에 유지됨 |
| 인터넷 연결 | 필요함 | 불필요 (설치 이후) |
| 모델 선택 | GPT-4o, o1 모델만 가능 | 모든 오픈 소스 모델 가능 |
| 커스터마이징 | 제한적임 | 완전한 제어 가능 |
| 속도 제한 | 있음 | 없음 |
| 다중 사용자 | 불가 (계정당 사용) | 가능 (기본 내장) |
사전 요구 사항
- 하드웨어: 최소 8GB 이상의 RAM이 장착된 컴퓨터. 대규모 모델의 원활한 성능을 위해 16GB 이상의 RAM과 8GB 이상의 VRAM을 갖춘 GPU를 권장합니다.
- 운영체제: macOS, Linux 또는 Windows (Docker용 WSL2 필요).
- Docker: Open WebUI 실행에 필요합니다. docker.com에서 설치하세요.
1단계: Ollama 설치
Ollama는 로컬에서 AI 모델을 다운로드하고 실행하는 백엔드 역할을 합니다.
macOS
# 웹사이트에서 다운로드 및 설치
# 또는 Homebrew 사용:
brew install ollama
Linux
curl -fsSL https://ollama.ai/install.sh | sh
Windows
ollama.com/download에서 설치 프로그램을 다운로드하세요.
설치 확인
ollama --version
# 출력 예시: ollama version 0.x.x
2단계: 첫 번째 모델 다운로드
UI를 설정하기 전에 모델을 먼저 가져옵니다:
# 권장 시작 모델 (품질과 속도의 균형이 좋음)
ollama pull llama3.1:8b
# 더 성능이 좋은 응답을 원하는 경우 (16GB 이상의 RAM 필요)
ollama pull llama3.3:70b
# 코딩용
ollama pull qwen2.5-coder:14b
# 빠르고 가벼운 용도
ollama pull phi4-mini
모델 크기 가이드
| 모델 | 필요한 RAM | 필요한 VRAM | 품질 |
|---|---|---|---|
| phi4-mini (3.8B) | 4GB | 3GB | 단순 작업에 적합 |
| llama3.1:8b | 8GB | 6GB | 일반적인 용도로 적합 |
| qwen2.5-coder:14b | 12GB | 10GB | 코딩에 탁월 |
| llama3.3:70b | 48GB | 40GB | 모든 면에서 뛰어남 |
| deepseek-v3 (양자화) | 32GB+ | 24GB+ | 최상급 추론 능력 |
모델 테스트:
ollama run llama3.1:8b "What is the capital of France?"
응답이 온다면 Ollama가 정상적으로 작동하는 것입니다.
3단계: Docker로 Open WebUI 설치
Open WebUI를 실행하는 가장 쉬운 방법은 Docker를 사용하는 것입니다. 명령어 하나로 모든 설정이 완료됩니다:
docker run -d \
-p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data \
--name open-webui \
--restart always \
ghcr.io/open-webui/open-webui:main
이 명령어의 역할:
- Open WebUI를 3000번 포트에서 실행합니다.
- 로컬 Ollama 인스턴스에 자동으로 연결합니다.
- 데이터(채팅, 설정, 사용자)를 Docker 볼륨에 영구 저장합니다.
- 컴퓨터 재부팅 시 자동으로 다시 시작합니다.
대안: Docker Compose
더 세밀한 제어를 위해 docker-compose.yml 파일을 사용할 수 있습니다:
version: "3.8"
services:
open-webui:
image: ghcr.io/open-webui/open-webui:main
container_name: open-webui
ports:
- "3000:8080"
volumes:
- open-webui:/app/backend/data
extra_hosts:
- "host.docker.internal:host-gateway"
environment:
- OLLAMA_BASE_URL=http://host.docker.internal:11434
- WEBUI_AUTH=true
- WEBUI_SECRET_KEY=your-secret-key-here
restart: always
volumes:
open-webui:
실행:
docker compose up -d
4단계: 초기 구성
- 브라우저를 열고
http://localhost:3000으로 접속합니다. - 관리자 계정을 생성합니다. 가장 먼저 등록하는 사용자가 관리자가 됩니다.
- 모델 선택 드롭다운에 Ollama 모델 목록이 표시되는지 확인합니다.
모델이 나타나지 않는 경우:
- Ollama가 실행 중인지 확인하세요:
ollama list - Open WebUI 내 Ollama URL을 확인하세요: Admin Panel > Settings > Connections로 이동하여 URL이
http://host.docker.internal:11434로 설정되어 있는지 확인합니다.
5단계: UI에서 모델 가져오기
Open WebUI에서 직접 새 모델을 다운로드할 수 있습니다:
- Admin Panel > Settings > Models로 이동합니다.
- "Pull a model" 필드에 모델 이름(예:
qwen2.5:14b)을 입력합니다. - 다운로드 버튼을 클릭합니다.
- 다운로드가 완료될 때까지 기다립니다. 진행 상황은 UI에 표시됩니다.
6단계: 고급 기능 설정
웹 검색 활성화
Open WebUI는 여러 제공업체를 통한 웹 검색을 지원합니다.
- Admin Panel > Settings > Web Search로 이동합니다.
- 웹 검색을 활성화합니다.
- 검색 엔진을 선택합니다 (자체 호스팅의 경우 SearXNG, 또는 Google, Brave 등).
- 필요한 경우 API 키를 추가합니다.
완전한 자체 호스팅 솔루션을 위해 Open WebUI와 함께 SearXNG를 배포하세요:
# docker-compose.yml에 추가
searxng:
image: searxng/searxng:latest
container_name: searxng
ports:
- "8888:8080"
volumes:
- ./searxng:/etc/searxng
restart: always
그 다음 Open WebUI의 검색 URL을 http://searxng:8080으로 설정합니다.
RAG (문서 채팅) 활성화
Open WebUI에는 RAG 기능이 기본 내장되어 있습니다:
- 채팅창에서 + 버튼을 클릭하고 문서(PDF, TXT, DOCX 등)를 업로드합니다.
- Open WebUI가 문서를 분할(chunk), 임베딩, 인덱싱합니다.
- 문서 내용에 대해 질문을 시작합니다.
임베딩 모델 설정을 위해 Admin Panel > Settings > Documents에서 다음을 구성하세요:
- Embedding model:
nomic-embed-text(먼저 Ollama를 통해 가져오세요) - Chunk size: 1000 (대부분의 경우 기본값이 적당합니다)
- Chunk overlap: 200
# 임베딩 모델 가져오기
ollama pull nomic-embed-text
이미지 생성 활성화
Open WebUI를 로컬 Stable Diffusion 또는 DALL-E 인스턴스에 연결할 수 있습니다:
- Admin Panel > Settings > Images로 이동합니다.
- 백엔드를 선택합니다 (Automatic1111, ComfyUI 또는 OpenAI 호환).
- API URL을 입력합니다 (예: Automatic1111의 경우
http://host.docker.internal:7860).
다중 사용자 설정
Open WebUI는 역할 기반 액세스 제어를 통한 다중 사용자를 지원합니다:
- Admin Panel > Users로 이동합니다.
- 신규 가입자의 기본 역할(user, pending 또는 admin)을 설정합니다.
- 개별 사용자 권한을 관리합니다.
- 각 사용자는 자신만의 채팅 기록과 설정을 갖게 됩니다.
이 기능은 팀, 가족 또는 강의실 환경에서 사용하기에 적합합니다.
7단계: 외부 API 연결 (선택 사항)
Open WebUI는 Ollama와 함께 원격 API도 연결할 수 있습니다.
OpenAI API
- Admin Panel > Settings > Connections로 이동합니다.
- "OpenAI API" 항목에 API 키를 추가합니다.
- 모델 선택기에서 로컬 Ollama 모델과 함께 GPT-4o 같은 모델이 나타납니다.
기타 OpenAI 호환 API
OpenAI 형식을 사용하는 모든 제공업체를 추가할 수 있습니다:
URL: https://api.groq.com/openai/v1
Key: your-groq-api-key
이를 통해 하나의 인터페이스에서 로컬 모델(Ollama)과 원격 모델(API)을 섞어서 사용할 수 있습니다.
성능 최적화
GPU 가속
Ollama가 GPU를 사용하고 있는지 확인하세요:
# GPU 감지 여부 확인
ollama run llama3.1:8b --verbose
# 출력 결과에서 "GPU" 문구를 확인하세요
NVIDIA GPU 사용자의 경우, Docker GPU 패스스루를 위해 NVIDIA Container Toolkit을 설치하세요:
# Ubuntu/Debian
sudo apt-get install nvidia-container-toolkit
sudo systemctl restart docker
메모리 관리
메모리가 부족한 경우:
# 양자화 모델 사용 (더 작고 품질이 소폭 낮음)
ollama pull llama3.1:8b-q4_0 # 4비트 양자화, 약 4GB
ollama pull llama3.1:8b-q8_0 # 8비트 양자화, 약 8GB
컨텍스트 길이 (Context Length)
모델의 컨텍스트 길이를 늘리려면 사용자 정의 Modelfile을 생성하세요:
# Modelfile 생성
cat > Modelfile << 'EOF'
FROM llama3.1:8b
PARAMETER num_ctx 16384
PARAMETER temperature 0.7
SYSTEM You are a helpful coding assistant.
EOF
# 사용자 정의 모델 생성
ollama create llama3.1-16k -f Modelfile
문제 해결
| 문제 | 해결 방법 |
|---|---|
| "Ollama not connected" | Ollama가 실행 중인지 확인하세요 (ollama serve). 설정에서 연결 URL을 확인하세요. |
| 모델이 로드되지 않음 | RAM을 확인하세요. ollama ps를 사용하여 실행 중인 모델을 확인하세요. |
| 응답 속도가 느림 | 더 작은 모델을 사용하거나 GPU 가속을 활성화하세요. |
| Docker 권한 거부(Permission denied) | 사용자를 docker 그룹에 추가하세요: sudo usermod -aG docker $USER |
| 채팅 기록이 사라짐 | Docker 볼륨이 영구적으로 설정되었는지 확인하세요 (-v open-webui:/app/backend/data). |
마치며
Ollama를 결합한 Open WebUI는 본인의 하드웨어에서 실행되는 완전한 개인용, 맞춤형 ChatGPT 대안을 제공합니다. 설정은 약 15분 정도 소요되며, 일단 실행되면 구독료, 속도 제한, 개인정보 유출 걱정 없이 강력한 AI 모델을 무제한으로 사용할 수 있습니다.
텍스트를 넘어 이미지 생성, 비디오 제작, 말하는 아바타 등 AI 생성 미디어 기능이 필요하다면 Hypereal AI를 무료로 체험해보세요 (35 크레딧 제공, 신용카드 불필요). 간단한 API를 통해 클라우드 기반 미디어 생성을 지원함으로써 로컬 LLM 설정을 보완해 줍니다.
