Ollama를 사용하여 GPT-OSS를 실행하는 방법 (2026)
터미널 명령 몇 가지만으로 오픈 소스 GPT 모델을 로컬에서 실행해 보세요
Hypereal로 구축 시작하기
단일 API를 통해 Kling, Flux, Sora, Veo 등에 액세스하세요. 무료 크레딧으로 시작하고 수백만으로 확장하세요.
신용카드 불필요 • 10만 명 이상의 개발자 • 엔터프라이즈 지원
Ollama를 사용하여 GPT-OSS를 실행하는 방법 (2026)
OpenAI는 GPT-OSS 이니셔티브를 통해 오픈 소스 모델 가중치(weights)를 공개하여, 사용자가 데이터를 OpenAI 서버로 전송하지 않고도 개인 하드웨어에서 GPT급 모델을 실행할 수 있게 했습니다. Ollama는 이러한 모델을 로컬에서 실행하는 가장 쉬운 방법입니다. 이 가이드에서는 설치부터 API 연동까지 전체 설정 과정을 안내합니다.
GPT-OSS란 무엇인가요?
GPT-OSS는 OpenAI가 커뮤니티를 위해 공개한 오픈 웨이트(open-weight) GPT 모델 제품군을 의미합니다. 이 모델들은 관계 법령에 따른 허용 비중이 높은 라이선스로 제공되며 자유롭게 다운로드, 수정 및 배포할 수 있습니다. 공개된 오픈 소스 모델은 다음과 같습니다:
| 모델 | 파라미터 수 | 컨텍스트 윈도우 | 필요 VRAM | 최적 용도 |
|---|---|---|---|---|
| GPT-OSS Small | 7B | 32K | 6 GB | 빠른 추론, 엣지 디바이스 |
| GPT-OSS Medium | 30B | 64K | 20 GB | 품질과 속도의 균형 |
| GPT-OSS Large | 70B | 128K | 48 GB | 최대 품질, 서버 배포 |
이 모델들은 GPT-4o나 GPT-5와는 다릅니다. OpenAI의 주요 제품군과 아키텍처 DNA를 공유하지만 로컬 및 자체 호스팅 배포를 위해 특수 제작된 오픈 모델입니다.
왜 GPT-OSS에 Ollama를 사용해야 할까요?
직접 raw transformers, vLLM 또는 llama.cpp를 사용하여 GPT-OSS 모델을 실행할 수도 있지만, Ollama는 이 과정을 획기적으로 단순화합니다:
- 명령어 하나로 모델 다운로드 및 설정 -- 수동 가중치 변환이 필요 없음
- 자동 양자화(Quantization) -- 적은 VRAM으로 더 큰 모델 실행 가능
- OpenAI 호환 API -- base URL 변경만으로 기존 애플리케이션에 즉시 적용
- GPU 자동 감지 -- NVIDIA CUDA, AMD ROCm 및 Apple Metal 자동 지원
- 모델 관리 -- 모델 목록 확인, pull, 삭제 및 커스터마이징이 용이함
사전 요구 사항
시작하기 전에 시스템이 준비되었는지 확인하세요:
| 요구 사항 | 상세 내용 |
|---|---|
| OS | macOS 12+, Linux (Ubuntu 20.04+), 또는 Windows 10+ |
| RAM | 최소 8 GB, 16 GB 이상 권장 |
| 저장 공간 | 최소 10 GB 여유 공간 (모델 크기 4-40 GB) |
| GPU (선택 사항) | 6 GB 이상의 VRAM을 가진 NVIDIA GPU 또는 Apple Silicon |
| 인터넷 | 초기 모델 다운로드를 위해 필요 |
1단계: Ollama 설치
macOS
# 공식 스크립트를 통해 다운로드 및 설치
curl -fsSL https://ollama.com/install.sh | sh
# 또는 Homebrew를 통해 설치
brew install ollama
Linux
curl -fsSL https://ollama.com/install.sh | sh
Windows
ollama.com/download에서 설치 파일을 다운로드하거나 winget을 사용하세요:
winget install Ollama.Ollama
설치 확인:
ollama --version
# 출력 예시: ollama version 0.6.x
2단계: GPT-OSS 모델 가져오기(Pull)
Ollama의 모델 라이브러리에는 GPT-OSS 모델이 포함되어 있습니다. 사용자 하드웨어에 맞는 모델을 가져오세요:
# 7B 모델 가져오기 (가장 작으며 대부분의 하드웨어에서 실행 가능)
ollama pull gpt-oss:7b
# 30B 모델 가져오기 (20 GB 이상의 VRAM 또는 CPU 실행 시 32 GB 이상의 RAM 필요)
ollama pull gpt-oss:30b
# 낮은 VRAM을 위한 양자화 버전 가져오기
ollama pull gpt-oss:30b-q4_K_M
다운로드 시간은 연결 속도에 따라 몇 분 정도 소요될 수 있습니다. 모델은 로컬의 ~/.ollama/models/에 캐시됩니다.
사용 가능한 양자화 옵션
전체 모델이 VRAM에 들어가지 않는 경우 양자화 버전을 사용하세요:
| 양자화 | 크기 (7B) | 크기 (30B) | 품질 영향 |
|---|---|---|---|
| f16 (full) | 14 GB | 60 GB | 없음 |
| q8_0 | 7.5 GB | 32 GB | 매우 적음 |
| q4_K_M | 4.5 GB | 18 GB | 적음 |
| q4_0 | 4 GB | 16 GB | 보통 |
3단계: 모델 실행
대화형 채팅 세션을 시작합니다:
ollama run gpt-oss:7b
메시지를 입력할 수 있는 프롬프트가 나타납니다:
>>> What are the key differences between REST and GraphQL?
REST는 미리 결정된 데이터 구조를 반환하는 고정된 엔드포인트를 사용하는 반면, GraphQL은
클라이언트가 필요한 데이터를 정확히 지정할 수 있는 단일 엔드포인트를 노출합니다...
종료하려면 Ctrl+D를 누르거나 /bye를 입력하세요.
4단계: API 사용
Ollama는 자동으로 localhost:11434에서 HTTP 서버를 시작합니다. 모든 HTTP 클라이언트에서 이를 사용할 수 있습니다.
cURL 사용 예시
curl http://localhost:11434/api/chat -d '{
"model": "gpt-oss:7b",
"messages": [
{"role": "user", "content": "정렬된 두 리스트를 병합하는 파이썬 함수를 작성해줘."}
],
"stream": false
}'
OpenAI 호환 엔드포인트 사용
Ollama는 /v1/에서 OpenAI 호환 API를 제공하므로 표준 OpenAI SDK를 사용할 수 있습니다:
from openai import OpenAI
client = OpenAI(
api_key="ollama", # 아무 문자열이나 가능
base_url="http://localhost:11434/v1"
)
response = client.chat.completions.create(
model="gpt-oss:7b",
messages=[
{"role": "system", "content": "당신은 유능한 코딩 도우미입니다."},
{"role": "user", "content": "타입 힌트가 포함된 파이썬 이진 탐색 함수를 작성해줘."}
],
temperature=0.7
)
print(response.choices[0].message.content)
JavaScript/TypeScript 사용 예시
import OpenAI from "openai";
const client = new OpenAI({
apiKey: "ollama",
baseURL: "http://localhost:11434/v1",
});
const response = await client.chat.completions.create({
model: "gpt-oss:7b",
messages: [
{ role: "user", content: "자바스크립트의 클로저를 예제와 함께 설명해줘." },
],
});
console.log(response.choices[0].message.content);
5단계: Modelfile을 사용하여 모델 커스터마이징
Modelfile을 사용하여 특정 시스템 프롬프트, 파라미터 또는 LoRA 어댑터가 적용된 커스텀 GPT-OSS 버전을 만들 수 있습니다:
# Modelfile
FROM gpt-oss:7b
SYSTEM "당신은 시니어 소프트웨어 엔지니어입니다. 항상 에러 처리, 타입 힌트 및 docstring이 포함된 프로덕션 준비 수준의 코드를 제공하세요."
PARAMETER temperature 0.3
PARAMETER top_p 0.9
PARAMETER num_ctx 8192
커스텀 모델 빌드 및 실행:
# 커스텀 모델 생성
ollama create gpt-oss-coder -f Modelfile
# 실행
ollama run gpt-oss-coder
6단계: 모델 관리
로컬 모델 관리에 유용한 명령어들입니다:
# 다운로드된 모든 모델 목록 확인
ollama list
# 모델 세부 정보 표시 (크기, 양자화, 파라미터)
ollama show gpt-oss:7b
# 디스크 공간 확보를 위해 모델 삭제
ollama rm gpt-oss:30b
# 모델 복사 (커스터마이징 전 유용)
ollama cp gpt-oss:7b gpt-oss-backup:7b
성능 팁
GPU 가속
Ollama는 GPU를 자동 감지합니다. GPU 사용 여부를 확인하려면 다음을 입력하세요:
# GPU 사용 여부 확인 (NVIDIA)
nvidia-smi
# GPU 감지에 대한 Ollama 로그 확인
ollama run gpt-oss:7b --verbose
여러 모델 실행
Ollama는 여러 모델을 동시에 서비스할 수 있습니다. 각 요청에서 사용할 모델을 지정하면 됩니다:
# 여러 모델 가져오기
ollama pull gpt-oss:7b
ollama pull gpt-oss:30b
# API가 자동으로 라우팅을 처리합니다.
curl http://localhost:11434/api/chat -d '{"model": "gpt-oss:7b", "messages": [...]}'
curl http://localhost:11434/api/chat -d '{"model": "gpt-oss:30b", "messages": [...]}'
컨텍스트 길이 늘리기
기본적으로 Ollama는 2048 토큰의 컨텍스트 윈도우를 사용합니다. 긴 대화나 문서를 처리하려면 다음과 같이 설정하세요:
# 실행 시 컨텍스트 길이 설정
ollama run gpt-oss:7b --num-ctx 16384
# 또는 Modelfile에서 설정
# PARAMETER num_ctx 16384
GPT-OSS vs. 다른 오픈 모델 비교
| 모델 | 파라미터 수 | 라이선스 | 코딩 능력 | 추론 능력 | 속도 |
|---|---|---|---|---|---|
| GPT-OSS 7B | 7B | Apache 2.0 | 좋음 | 좋음 | 빠름 |
| Llama 3.3 70B | 70B | Llama License | 매우 우수 | 매우 우수 | 느림 |
| Mistral Large | 123B | Apache 2.0 | 매우 좋음 | 매우 좋음 | 느림 |
| Qwen 2.5 72B | 72B | Apache 2.0 | 매우 우수 | 매우 좋음 | 느림 |
| Gemma 3 27B | 27B | Gemma License | 좋음 | 좋음 | 보통 |
| GPT-OSS 30B | 30B | Apache 2.0 | 매우 좋음 | 매우 좋음 | 보통 |
문제 해결
"Model not found" 에러
ollama pull gpt-oss:7b로 모델을 먼저 가져왔는지 확인하세요. ollama list로 사용 가능한 모델을 확인할 수 있습니다.
CPU에서 느린 추론 속도
GPU가 없는 경우 가장 작은 양자화 모델인 ollama pull gpt-oss:7b-q4_0을 사용하세요. 실시간 추론을 위해 GPU가 장착된 시스템으로 업그레이드하는 것을 고려해 보십시오.
메모리 부족(Out of memory) 에러
더 작은 양자화 버전을 사용하세요. 30B 모델을 사용 중이라면 gpt-oss:30b-q4_0을 시도하거나 7B 버전으로 낮추세요.
포트 충돌 11434 포트가 이미 사용 중이라면 커스텀 포트를 설정하세요:
OLLAMA_HOST=0.0.0.0:11435 ollama serve
마치며
Ollama를 통해 GPT-OSS 모델을 로컬에서 실행하면 AI 스택에 대한 완전한 통제권을 가질 수 있습니다. API 키나 속도 제한이 없으며 데이터가 외부로 유출되지도 않습니다. 설정에는 10분도 채 걸리지 않으며, OpenAI 호환 API 덕분에 거의 모든 기존 애플리케이션에 바로 연결할 수 있습니다.
워크플로우에 이미지, 비디오 또는 말하는 아바타와 같은 AI 생성 미디어가 포함되어 있다면, 모든 유형의 AI 미디어 생성을 처리하는 통합 API인 Hypereal AI를 확인해 보세요.
Hypereal AI 무료 체험하기 -- 신용카드 없이 35 크레딧 제공.
