Ollama를 사용하여 GPT-OSS를 실행하는 방법 (2026)

OpenAI는 GPT-OSS 이니셔티브를 통해 오픈 소스 모델 가중치(weights)를 공개하여, 사용자가 데이터를 OpenAI 서버로 전송하지 않고도 개인 하드웨어에서 GPT급 모델을 실행할 수 있게 했습니다. Ollama는 이러한 모델을 로컬에서 실행하는 가장 쉬운 방법입니다. 이 가이드에서는 설치부터 API 연동까지 전체 설정 과정을 안내합니다.

GPT-OSS란 무엇인가요?

GPT-OSS는 OpenAI가 커뮤니티를 위해 공개한 오픈 웨이트(open-weight) GPT 모델 제품군을 의미합니다. 이 모델들은 관계 법령에 따른 허용 비중이 높은 라이선스로 제공되며 자유롭게 다운로드, 수정 및 배포할 수 있습니다. 공개된 오픈 소스 모델은 다음과 같습니다:

모델	파라미터 수	컨텍스트 윈도우	필요 VRAM	최적 용도
GPT-OSS Small	7B	32K	6 GB	빠른 추론, 엣지 디바이스
GPT-OSS Medium	30B	64K	20 GB	품질과 속도의 균형
GPT-OSS Large	70B	128K	48 GB	최대 품질, 서버 배포

이 모델들은 GPT-4o나 GPT-5와는 다릅니다. OpenAI의 주요 제품군과 아키텍처 DNA를 공유하지만 로컬 및 자체 호스팅 배포를 위해 특수 제작된 오픈 모델입니다.

왜 GPT-OSS에 Ollama를 사용해야 할까요?

직접 raw transformers, vLLM 또는 llama.cpp를 사용하여 GPT-OSS 모델을 실행할 수도 있지만, Ollama는 이 과정을 획기적으로 단순화합니다:

명령어 하나로 모델 다운로드 및 설정 -- 수동 가중치 변환이 필요 없음
자동 양자화(Quantization) -- 적은 VRAM으로 더 큰 모델 실행 가능
OpenAI 호환 API -- base URL 변경만으로 기존 애플리케이션에 즉시 적용
GPU 자동 감지 -- NVIDIA CUDA, AMD ROCm 및 Apple Metal 자동 지원
모델 관리 -- 모델 목록 확인, pull, 삭제 및 커스터마이징이 용이함

사전 요구 사항

시작하기 전에 시스템이 준비되었는지 확인하세요:

요구 사항	상세 내용
OS	macOS 12+, Linux (Ubuntu 20.04+), 또는 Windows 10+
RAM	최소 8 GB, 16 GB 이상 권장
저장 공간	최소 10 GB 여유 공간 (모델 크기 4-40 GB)
GPU (선택 사항)	6 GB 이상의 VRAM을 가진 NVIDIA GPU 또는 Apple Silicon
인터넷	초기 모델 다운로드를 위해 필요

1단계: Ollama 설치

macOS

# 공식 스크립트를 통해 다운로드 및 설치
curl -fsSL https://ollama.com/install.sh | sh

# 또는 Homebrew를 통해 설치
brew install ollama

Linux

curl -fsSL https://ollama.com/install.sh | sh

Windows

ollama.com/download에서 설치 파일을 다운로드하거나 winget을 사용하세요:

winget install Ollama.Ollama

설치 확인:

ollama --version
# 출력 예시: ollama version 0.6.x

2단계: GPT-OSS 모델 가져오기(Pull)

Ollama의 모델 라이브러리에는 GPT-OSS 모델이 포함되어 있습니다. 사용자 하드웨어에 맞는 모델을 가져오세요:

# 7B 모델 가져오기 (가장 작으며 대부분의 하드웨어에서 실행 가능)
ollama pull gpt-oss:7b

# 30B 모델 가져오기 (20 GB 이상의 VRAM 또는 CPU 실행 시 32 GB 이상의 RAM 필요)
ollama pull gpt-oss:30b

# 낮은 VRAM을 위한 양자화 버전 가져오기
ollama pull gpt-oss:30b-q4_K_M

다운로드 시간은 연결 속도에 따라 몇 분 정도 소요될 수 있습니다. 모델은 로컬의 ~/.ollama/models/에 캐시됩니다.

사용 가능한 양자화 옵션

전체 모델이 VRAM에 들어가지 않는 경우 양자화 버전을 사용하세요:

양자화	크기 (7B)	크기 (30B)	품질 영향
f16 (full)	14 GB	60 GB	없음
q8_0	7.5 GB	32 GB	매우 적음
q4_K_M	4.5 GB	18 GB	적음
q4_0	4 GB	16 GB	보통

3단계: 모델 실행

대화형 채팅 세션을 시작합니다:

ollama run gpt-oss:7b

메시지를 입력할 수 있는 프롬프트가 나타납니다:

>>> What are the key differences between REST and GraphQL?

REST는 미리 결정된 데이터 구조를 반환하는 고정된 엔드포인트를 사용하는 반면, GraphQL은
클라이언트가 필요한 데이터를 정확히 지정할 수 있는 단일 엔드포인트를 노출합니다...

종료하려면 Ctrl+D를 누르거나 /bye를 입력하세요.

4단계: API 사용

Ollama는 자동으로 localhost:11434에서 HTTP 서버를 시작합니다. 모든 HTTP 클라이언트에서 이를 사용할 수 있습니다.

cURL 사용 예시

curl http://localhost:11434/api/chat -d '{
  "model": "gpt-oss:7b",
  "messages": [
    {"role": "user", "content": "정렬된 두 리스트를 병합하는 파이썬 함수를 작성해줘."}
  ],
  "stream": false
}'

OpenAI 호환 엔드포인트 사용

Ollama는 /v1/에서 OpenAI 호환 API를 제공하므로 표준 OpenAI SDK를 사용할 수 있습니다:

from openai import OpenAI

client = OpenAI(
    api_key="ollama",  # 아무 문자열이나 가능
    base_url="http://localhost:11434/v1"
)

response = client.chat.completions.create(
    model="gpt-oss:7b",
    messages=[
        {"role": "system", "content": "당신은 유능한 코딩 도우미입니다."},
        {"role": "user", "content": "타입 힌트가 포함된 파이썬 이진 탐색 함수를 작성해줘."}
    ],
    temperature=0.7
)

print(response.choices[0].message.content)

JavaScript/TypeScript 사용 예시

import OpenAI from "openai";

const client = new OpenAI({
  apiKey: "ollama",
  baseURL: "http://localhost:11434/v1",
});

const response = await client.chat.completions.create({
  model: "gpt-oss:7b",
  messages: [
    { role: "user", content: "자바스크립트의 클로저를 예제와 함께 설명해줘." },
  ],
});

console.log(response.choices[0].message.content);

5단계: Modelfile을 사용하여 모델 커스터마이징

Modelfile을 사용하여 특정 시스템 프롬프트, 파라미터 또는 LoRA 어댑터가 적용된 커스텀 GPT-OSS 버전을 만들 수 있습니다:

# Modelfile
FROM gpt-oss:7b

SYSTEM "당신은 시니어 소프트웨어 엔지니어입니다. 항상 에러 처리, 타입 힌트 및 docstring이 포함된 프로덕션 준비 수준의 코드를 제공하세요."

PARAMETER temperature 0.3
PARAMETER top_p 0.9
PARAMETER num_ctx 8192

커스텀 모델 빌드 및 실행:

# 커스텀 모델 생성
ollama create gpt-oss-coder -f Modelfile

# 실행
ollama run gpt-oss-coder

6단계: 모델 관리

로컬 모델 관리에 유용한 명령어들입니다:

# 다운로드된 모든 모델 목록 확인
ollama list

# 모델 세부 정보 표시 (크기, 양자화, 파라미터)
ollama show gpt-oss:7b

# 디스크 공간 확보를 위해 모델 삭제
ollama rm gpt-oss:30b

# 모델 복사 (커스터마이징 전 유용)
ollama cp gpt-oss:7b gpt-oss-backup:7b

성능 팁

GPU 가속

Ollama는 GPU를 자동 감지합니다. GPU 사용 여부를 확인하려면 다음을 입력하세요:

# GPU 사용 여부 확인 (NVIDIA)
nvidia-smi

# GPU 감지에 대한 Ollama 로그 확인
ollama run gpt-oss:7b --verbose

여러 모델 실행

Ollama는 여러 모델을 동시에 서비스할 수 있습니다. 각 요청에서 사용할 모델을 지정하면 됩니다:

# 여러 모델 가져오기
ollama pull gpt-oss:7b
ollama pull gpt-oss:30b

# API가 자동으로 라우팅을 처리합니다.
curl http://localhost:11434/api/chat -d '{"model": "gpt-oss:7b", "messages": [...]}'
curl http://localhost:11434/api/chat -d '{"model": "gpt-oss:30b", "messages": [...]}'

컨텍스트 길이 늘리기

기본적으로 Ollama는 2048 토큰의 컨텍스트 윈도우를 사용합니다. 긴 대화나 문서를 처리하려면 다음과 같이 설정하세요:

# 실행 시 컨텍스트 길이 설정
ollama run gpt-oss:7b --num-ctx 16384

# 또는 Modelfile에서 설정
# PARAMETER num_ctx 16384

GPT-OSS vs. 다른 오픈 모델 비교

모델	파라미터 수	라이선스	코딩 능력	추론 능력	속도
GPT-OSS 7B	7B	Apache 2.0	좋음	좋음	빠름
Llama 3.3 70B	70B	Llama License	매우 우수	매우 우수	느림
Mistral Large	123B	Apache 2.0	매우 좋음	매우 좋음	느림
Qwen 2.5 72B	72B	Apache 2.0	매우 우수	매우 좋음	느림
Gemma 3 27B	27B	Gemma License	좋음	좋음	보통
GPT-OSS 30B	30B	Apache 2.0	매우 좋음	매우 좋음	보통

문제 해결

"Model not found" 에러 ollama pull gpt-oss:7b로 모델을 먼저 가져왔는지 확인하세요. ollama list로 사용 가능한 모델을 확인할 수 있습니다.

CPU에서 느린 추론 속도 GPU가 없는 경우 가장 작은 양자화 모델인 ollama pull gpt-oss:7b-q4_0을 사용하세요. 실시간 추론을 위해 GPU가 장착된 시스템으로 업그레이드하는 것을 고려해 보십시오.

메모리 부족(Out of memory) 에러 더 작은 양자화 버전을 사용하세요. 30B 모델을 사용 중이라면 gpt-oss:30b-q4_0을 시도하거나 7B 버전으로 낮추세요.

포트 충돌 11434 포트가 이미 사용 중이라면 커스텀 포트를 설정하세요:

OLLAMA_HOST=0.0.0.0:11435 ollama serve

마치며

Ollama를 통해 GPT-OSS 모델을 로컬에서 실행하면 AI 스택에 대한 완전한 통제권을 가질 수 있습니다. API 키나 속도 제한이 없으며 데이터가 외부로 유출되지도 않습니다. 설정에는 10분도 채 걸리지 않으며, OpenAI 호환 API 덕분에 거의 모든 기존 애플리케이션에 바로 연결할 수 있습니다.

워크플로우에 이미지, 비디오 또는 말하는 아바타와 같은 AI 생성 미디어가 포함되어 있다면, 모든 유형의 AI 미디어 생성을 처리하는 통합 API인 Hypereal AI를 확인해 보세요.

Hypereal AI 무료 체험하기 -- 신용카드 없이 35 크레딧 제공.