로컬에서 Qwen 3 양자화 모델을 실행하는 방법 (2026)
자체 하드웨어에서 양자화된 Qwen 3를 실행하기 위한 단계별 가이드
Hypereal로 구축 시작하기
단일 API를 통해 Kling, Flux, Sora, Veo 등에 액세스하세요. 무료 크레딧으로 시작하고 수백만으로 확장하세요.
신용카드 불필요 • 10만 명 이상의 개발자 • 엔터프라이즈 지원
2026년 Qwen 3 양자화 모델을 로컬에서 실행하는 방법
Alibaba Cloud의 Qwen 3는 현재 사용 가능한 가장 강력한 오픈 가중치(open-weight) 모델 제품군 중 하나입니다. 0.6B에서 235B 파라미터에 이르는 다양한 크기로 제공되며, Dense 모델과 Mixture of Experts (MoE) 변체 모델을 모두 포함합니다. 특히 MoE 모델은 토큰당 파라미터의 일부만 활성화하기 때문에 연산 대비 성능 비율이 훨씬 뛰어납니다.
이 모델들을 로컬에서 실행하려면 소비자용 하드웨어에 맞게 크기를 줄여주는 양자화(quantization)가 필요합니다. 이 가이드에서는 가장 대중적인 도구들을 사용하여 고유한 머신에서 Qwen 3 모델을 다운로드하고, 양자화하며, 실행하는 과정을 단계별로 안내합니다.
Qwen 3 모델 제품군 개요
| 모델 | 유형 | 전체 파라미터 | 활성 파라미터 | 최소 VRAM (Q4) | 주요 사용 사례 |
|---|---|---|---|---|---|
| Qwen3-0.6B | Dense | 0.6B | 0.6B | 1 GB | 엣지 디바이스, 모바일 |
| Qwen3-1.7B | Dense | 1.7B | 1.7B | 2 GB | 단순 작업, 빠른 응답 |
| Qwen3-4B | Dense | 4B | 4B | 3 GB | 저사양 하드웨어 범용 |
| Qwen3-8B | Dense | 8B | 8B | 6 GB | 강력한 범용 모델 |
| Qwen3-14B | Dense | 14B | 14B | 10 GB | 고급 추론, 코딩 |
| Qwen3-32B | Dense | 32B | 32B | 20 GB | 최상위권에 근접한 품질 |
| Qwen3-30B-A3B | MoE | 30B | 3B | 4 GB | 저연산 고품질 |
| Qwen3-235B-A22B | MoE | 235B | 22B | 16 GB | 최첨단(Frontier)급 성능 |
MoE 모델이 특히 돋보입니다. Qwen3-30B-A3B는 총 300억 개의 파라미터를 가지고 있지만 토큰당 30억 개만 활성화하므로, 훨씬 더 큰 모델에 가까운 성능을 내면서도 3B Dense 모델만큼 빠르게 실행됩니다.
양자화 포맷 이해하기
양자화는 모델의 정밀도를 낮추어 메모리 요구 사항을 줄입니다. 다음은 일반적인 GGUF 양자화 레벨입니다.
| 양자화 | 비트(Bits) | 크기 감소량 | 품질 영향 | 권장 용도 |
|---|---|---|---|---|
| Q2_K | 2-bit | ~75% 감소 | 눈에 띄게 저하 | 테스트용 |
| Q3_K_M | 3-bit | ~65% 감소 | 약간의 저하 | 저용량 VRAM 시스템 |
| Q4_K_M | 4-bit | ~55% 감소 | 영향 미미 | 품질/크기의 최적 균형 |
| Q5_K_M | 5-bit | ~45% 감소 | 매우 미미함 | 고품질, 합리적 크기 |
| Q6_K | 6-bit | ~35% 감소 | 거의 손실 없음 | 고품질 |
| Q8_0 | 8-bit | ~25% 감소 | 실질적 무손실 | VRAM 여유 시 |
| FP16 | 16-bit | 기준 | 영향 없음 | 전체 정밀도 |
대부분의 사용자에게 가장 적합한 선택지는 Q4_K_M입니다. 모델의 거의 모든 품질을 유지하면서 크기는 대략 절반으로 줄여줍니다. VRAM에 여유가 있다면 Q5_K_M 또는 Q6_K가 더 나은 결과를 제공합니다.
방법 1: Ollama로 Qwen 3 실행하기
Ollama는 가장 간단한 시작 방법입니다. 다운로드, 양자화 선택 및 서빙을 자동으로 처리합니다.
Ollama 설치:
curl -fsSL https://ollama.com/install.sh | sh
Qwen 3 모델 다운로드 및 실행:
# Qwen 3 8B 실행 (기본 양자화)
ollama run qwen3:8b
# Q4_K_M 양자화가 적용된 Qwen 3 32B 실행
ollama run qwen3:32b-q4_K_M
# MoE 모델 실행 (총 30B, 활성 3B)
ollama run qwen3:30b-a3b
# 저사양 시스템용 Qwen 3 4B 실행
ollama run qwen3:4b
# 사용 가능한 양자화 목록 확인
ollama show qwen3:8b --modelfile
Qwen 3를 API로 사용하기:
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "qwen3:32b-q4_K_M",
"messages": [
{"role": "system", "content": "You are a helpful coding assistant."},
{"role": "user", "content": "Write a Python function to find the longest palindromic substring."}
],
"temperature": 0.7
}'
생각(Thinking) 모드 활성화 또는 비활성화:
Qwen 3는 향상된 추론을 위해 "생각" 모드를 지원합니다. enable_thinking 파라미터로 이를 조절할 수 있습니다.
# Ollama 채팅 내에서 /set 명령으로 설정
ollama run qwen3:32b-q4_K_M
# 채팅창 입력:
/set parameter num_predict 8192
방법 2: llama.cpp로 실행하기
추론 과정을 최대한 제어하고 싶다면 llama.cpp를 직접 사용하세요.
1단계: GGUF 모델 다운로드
Hugging Face에서 미리 양자화된 GGUF 파일을 다운로드합니다.
# huggingface-hub CLI 설치
pip install huggingface-hub
# Qwen3-32B Q4_K_M 다운로드
huggingface-cli download Qwen/Qwen3-32B-GGUF \
qwen3-32b-q4_k_m.gguf \
--local-dir ./models
# MoE 변체 모델 다운로드
huggingface-cli download Qwen/Qwen3-30B-A3B-GGUF \
qwen3-30b-a3b-q4_k_m.gguf \
--local-dir ./models
2단계: llama.cpp 빌드
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp
# NVIDIA GPU 사용 시
cmake -B build -DGGML_CUDA=ON
cmake --build build --config Release -j
# Apple Silicon 사용 시
cmake -B build -DGGML_METAL=ON
cmake --build build --config Release -j
# CPU 전용
cmake -B build
cmake --build build --config Release -j
3단계: 모델 실행
# 대화형 채팅
./build/bin/llama-cli \
-m ../models/qwen3-32b-q4_k_m.gguf \
--chat-template chatml \
-c 16384 \
-ngl 99 \
--temp 0.7 \
--top-p 0.9 \
--interactive
# API 서버 시작
./build/bin/llama-server \
-m ../models/qwen3-32b-q4_k_m.gguf \
--host 0.0.0.0 \
--port 8080 \
-c 16384 \
-ngl 99
주요 플래그 설명:
| 플래그 | 설명 |
|---|---|
-m |
GGUF 모델 파일 경로 |
-c |
컨텍스트 길이 (대화 내 최대 토큰 수) |
-ngl |
GPU로 오프로드할 레이어 수 (99 = 전체) |
--temp |
무작위성을 위한 온도 설정 (0.0-2.0) |
--top-p |
Nucleus 샘플링 임계값 |
--chat-template |
채팅 포맷 템플릿 |
방법 3: LM Studio로 실행하기
LM Studio는 양자화된 모델을 다운로드하고 실행할 수 있는 시각적 인터페이스를 제공합니다.
- lmstudio.ai에서 LM Studio를 다운로드하고 설치합니다.
- Discover 탭에서 "Qwen3"를 검색합니다.
- 원하는 크기와 양자화 레벨(Q4_K_M 권장)을 선택합니다.
- Download를 클릭하고 파일 다운로드가 완료될 때까지 기다립니다.
- Chat 탭으로 이동하여 Qwen 3 모델을 선택하고 채팅을 시작합니다.
LM Studio는 자동으로 하드웨어를 감지하고 최적의 설정을 적용합니다. 오른쪽 패널에서 컨텍스트 길이, 온도 및 기타 파라미터를 조정할 수 있습니다.
성능 벤치마크
일반적인 하드웨어에서의 Qwen 3 모델 실제 성능 수치는 다음과 같습니다.
Apple M4 Pro (48 GB RAM):
| 모델 | 양자화 | 토큰/초 | 사용 RAM |
|---|---|---|---|
| Qwen3-8B | Q4_K_M | 42 t/s | 5.8 GB |
| Qwen3-14B | Q4_K_M | 28 t/s | 9.6 GB |
| Qwen3-32B | Q4_K_M | 14 t/s | 20.1 GB |
| Qwen3-30B-A3B | Q4_K_M | 38 t/s | 4.2 GB |
NVIDIA RTX 4090 (24 GB VRAM):
| 모델 | 양자화 | 토큰/초 | 사용 VRAM |
|---|---|---|---|
| Qwen3-8B | Q4_K_M | 95 t/s | 5.5 GB |
| Qwen3-14B | Q4_K_M | 62 t/s | 9.2 GB |
| Qwen3-32B | Q4_K_M | 31 t/s | 19.8 GB |
| Qwen3-30B-A3B | Q4_K_M | 88 t/s | 3.9 GB |
MoE 모델인 Qwen3-30B-A3B는 속도 대비 품질 측면에서 확실히 뛰어납니다. 8B Dense 모델만큼 빠르게 작동하면서도 훨씬 더 우수한 품질의 결과를 내놓습니다.
하드웨어별 권장 모델
| 하드웨어 | 권장 모델 | 양자화 |
|---|---|---|
| 8 GB RAM 노트북 | Qwen3-4B 또는 Qwen3-30B-A3B | Q4_K_M |
| 16 GB RAM 노트북 | Qwen3-8B 또는 Qwen3-30B-A3B | Q4_K_M |
| 24 GB GPU (RTX 4090) | Qwen3-32B | Q4_K_M |
| 32 GB RAM Mac | Qwen3-14B 또는 Qwen3-32B | Q4_K_M / Q3_K_M |
| 64 GB+ RAM Mac | Qwen3-32B | Q6_K 또는 Q8_0 |
결론
Qwen 3 양자화 모델은 성능과 접근성 사이의 뛰어난 균형을 제공합니다. 특히 MoE 변체 모델은 비교적 저렴한 하드웨어에서도 최첨단 수준의 AI 성능을 가능하게 합니다. 간편한 Ollama, 세밀한 제어가 가능한 llama.cpp, 시각적 경험을 제공하는 LM Studio 중 무엇을 사용하든 로컬에서 Qwen 3를 구동하는 방법은 매우 직관적입니다.
텍스트 생성 외에도 AI 아바타 제작, 이미지 기반 영상 생성, 목소리 클로닝과 같은 작업이 필요한 경우, Hypereal AI는 최신 생성형 미디어 모델을 위한 간편한 종량제 API를 제공하여 로컬 LLM 환경에 강력한 시각 및 오디오 기능을 보완해 줄 수 있습니다.
