로컬에서 Qwen 3 양자화 모델을 실행하는 방법 (2026)

2026년 Qwen 3 양자화 모델을 로컬에서 실행하는 방법

Alibaba Cloud의 Qwen 3는 현재 사용 가능한 가장 강력한 오픈 가중치(open-weight) 모델 제품군 중 하나입니다. 0.6B에서 235B 파라미터에 이르는 다양한 크기로 제공되며, Dense 모델과 Mixture of Experts (MoE) 변체 모델을 모두 포함합니다. 특히 MoE 모델은 토큰당 파라미터의 일부만 활성화하기 때문에 연산 대비 성능 비율이 훨씬 뛰어납니다.

이 모델들을 로컬에서 실행하려면 소비자용 하드웨어에 맞게 크기를 줄여주는 양자화(quantization)가 필요합니다. 이 가이드에서는 가장 대중적인 도구들을 사용하여 고유한 머신에서 Qwen 3 모델을 다운로드하고, 양자화하며, 실행하는 과정을 단계별로 안내합니다.

Qwen 3 모델 제품군 개요

모델	유형	전체 파라미터	활성 파라미터	최소 VRAM (Q4)	주요 사용 사례
Qwen3-0.6B	Dense	0.6B	0.6B	1 GB	엣지 디바이스, 모바일
Qwen3-1.7B	Dense	1.7B	1.7B	2 GB	단순 작업, 빠른 응답
Qwen3-4B	Dense	4B	4B	3 GB	저사양 하드웨어 범용
Qwen3-8B	Dense	8B	8B	6 GB	강력한 범용 모델
Qwen3-14B	Dense	14B	14B	10 GB	고급 추론, 코딩
Qwen3-32B	Dense	32B	32B	20 GB	최상위권에 근접한 품질
Qwen3-30B-A3B	MoE	30B	3B	4 GB	저연산 고품질
Qwen3-235B-A22B	MoE	235B	22B	16 GB	최첨단(Frontier)급 성능

MoE 모델이 특히 돋보입니다. Qwen3-30B-A3B는 총 300억 개의 파라미터를 가지고 있지만 토큰당 30억 개만 활성화하므로, 훨씬 더 큰 모델에 가까운 성능을 내면서도 3B Dense 모델만큼 빠르게 실행됩니다.

양자화 포맷 이해하기

양자화는 모델의 정밀도를 낮추어 메모리 요구 사항을 줄입니다. 다음은 일반적인 GGUF 양자화 레벨입니다.

양자화	비트(Bits)	크기 감소량	품질 영향	권장 용도
Q2_K	2-bit	~75% 감소	눈에 띄게 저하	테스트용
Q3_K_M	3-bit	~65% 감소	약간의 저하	저용량 VRAM 시스템
Q4_K_M	4-bit	~55% 감소	영향 미미	품질/크기의 최적 균형
Q5_K_M	5-bit	~45% 감소	매우 미미함	고품질, 합리적 크기
Q6_K	6-bit	~35% 감소	거의 손실 없음	고품질
Q8_0	8-bit	~25% 감소	실질적 무손실	VRAM 여유 시
FP16	16-bit	기준	영향 없음	전체 정밀도

대부분의 사용자에게 가장 적합한 선택지는 Q4_K_M입니다. 모델의 거의 모든 품질을 유지하면서 크기는 대략 절반으로 줄여줍니다. VRAM에 여유가 있다면 Q5_K_M 또는 Q6_K가 더 나은 결과를 제공합니다.

방법 1: Ollama로 Qwen 3 실행하기

Ollama는 가장 간단한 시작 방법입니다. 다운로드, 양자화 선택 및 서빙을 자동으로 처리합니다.

Ollama 설치:

curl -fsSL https://ollama.com/install.sh | sh

Qwen 3 모델 다운로드 및 실행:

# Qwen 3 8B 실행 (기본 양자화)
ollama run qwen3:8b

# Q4_K_M 양자화가 적용된 Qwen 3 32B 실행
ollama run qwen3:32b-q4_K_M

# MoE 모델 실행 (총 30B, 활성 3B)
ollama run qwen3:30b-a3b

# 저사양 시스템용 Qwen 3 4B 실행
ollama run qwen3:4b

# 사용 가능한 양자화 목록 확인
ollama show qwen3:8b --modelfile

Qwen 3를 API로 사용하기:

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3:32b-q4_K_M",
    "messages": [
      {"role": "system", "content": "You are a helpful coding assistant."},
      {"role": "user", "content": "Write a Python function to find the longest palindromic substring."}
    ],
    "temperature": 0.7
  }'

생각(Thinking) 모드 활성화 또는 비활성화:

Qwen 3는 향상된 추론을 위해 "생각" 모드를 지원합니다. enable_thinking 파라미터로 이를 조절할 수 있습니다.

# Ollama 채팅 내에서 /set 명령으로 설정
ollama run qwen3:32b-q4_K_M

# 채팅창 입력:
/set parameter num_predict 8192

방법 2: llama.cpp로 실행하기

추론 과정을 최대한 제어하고 싶다면 llama.cpp를 직접 사용하세요.

1단계: GGUF 모델 다운로드

Hugging Face에서 미리 양자화된 GGUF 파일을 다운로드합니다.

# huggingface-hub CLI 설치
pip install huggingface-hub

# Qwen3-32B Q4_K_M 다운로드
huggingface-cli download Qwen/Qwen3-32B-GGUF \
  qwen3-32b-q4_k_m.gguf \
  --local-dir ./models

# MoE 변체 모델 다운로드
huggingface-cli download Qwen/Qwen3-30B-A3B-GGUF \
  qwen3-30b-a3b-q4_k_m.gguf \
  --local-dir ./models

2단계: llama.cpp 빌드

git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp

# NVIDIA GPU 사용 시
cmake -B build -DGGML_CUDA=ON
cmake --build build --config Release -j

# Apple Silicon 사용 시
cmake -B build -DGGML_METAL=ON
cmake --build build --config Release -j

# CPU 전용
cmake -B build
cmake --build build --config Release -j

3단계: 모델 실행

# 대화형 채팅
./build/bin/llama-cli \
  -m ../models/qwen3-32b-q4_k_m.gguf \
  --chat-template chatml \
  -c 16384 \
  -ngl 99 \
  --temp 0.7 \
  --top-p 0.9 \
  --interactive

# API 서버 시작
./build/bin/llama-server \
  -m ../models/qwen3-32b-q4_k_m.gguf \
  --host 0.0.0.0 \
  --port 8080 \
  -c 16384 \
  -ngl 99

주요 플래그 설명:

플래그	설명
`-m`	GGUF 모델 파일 경로
`-c`	컨텍스트 길이 (대화 내 최대 토큰 수)
`-ngl`	GPU로 오프로드할 레이어 수 (99 = 전체)
`--temp`	무작위성을 위한 온도 설정 (0.0-2.0)
`--top-p`	Nucleus 샘플링 임계값
`--chat-template`	채팅 포맷 템플릿

방법 3: LM Studio로 실행하기

LM Studio는 양자화된 모델을 다운로드하고 실행할 수 있는 시각적 인터페이스를 제공합니다.

lmstudio.ai에서 LM Studio를 다운로드하고 설치합니다.
Discover 탭에서 "Qwen3"를 검색합니다.
원하는 크기와 양자화 레벨(Q4_K_M 권장)을 선택합니다.
Download를 클릭하고 파일 다운로드가 완료될 때까지 기다립니다.
Chat 탭으로 이동하여 Qwen 3 모델을 선택하고 채팅을 시작합니다.

LM Studio는 자동으로 하드웨어를 감지하고 최적의 설정을 적용합니다. 오른쪽 패널에서 컨텍스트 길이, 온도 및 기타 파라미터를 조정할 수 있습니다.

성능 벤치마크

일반적인 하드웨어에서의 Qwen 3 모델 실제 성능 수치는 다음과 같습니다.

Apple M4 Pro (48 GB RAM):

모델	양자화	토큰/초	사용 RAM
Qwen3-8B	Q4_K_M	42 t/s	5.8 GB
Qwen3-14B	Q4_K_M	28 t/s	9.6 GB
Qwen3-32B	Q4_K_M	14 t/s	20.1 GB
Qwen3-30B-A3B	Q4_K_M	38 t/s	4.2 GB

NVIDIA RTX 4090 (24 GB VRAM):

모델	양자화	토큰/초	사용 VRAM
Qwen3-8B	Q4_K_M	95 t/s	5.5 GB
Qwen3-14B	Q4_K_M	62 t/s	9.2 GB
Qwen3-32B	Q4_K_M	31 t/s	19.8 GB
Qwen3-30B-A3B	Q4_K_M	88 t/s	3.9 GB

MoE 모델인 Qwen3-30B-A3B는 속도 대비 품질 측면에서 확실히 뛰어납니다. 8B Dense 모델만큼 빠르게 작동하면서도 훨씬 더 우수한 품질의 결과를 내놓습니다.

하드웨어별 권장 모델

하드웨어	권장 모델	양자화
8 GB RAM 노트북	Qwen3-4B 또는 Qwen3-30B-A3B	Q4_K_M
16 GB RAM 노트북	Qwen3-8B 또는 Qwen3-30B-A3B	Q4_K_M
24 GB GPU (RTX 4090)	Qwen3-32B	Q4_K_M
32 GB RAM Mac	Qwen3-14B 또는 Qwen3-32B	Q4_K_M / Q3_K_M
64 GB+ RAM Mac	Qwen3-32B	Q6_K 또는 Q8_0

결론

Qwen 3 양자화 모델은 성능과 접근성 사이의 뛰어난 균형을 제공합니다. 특히 MoE 변체 모델은 비교적 저렴한 하드웨어에서도 최첨단 수준의 AI 성능을 가능하게 합니다. 간편한 Ollama, 세밀한 제어가 가능한 llama.cpp, 시각적 경험을 제공하는 LM Studio 중 무엇을 사용하든 로컬에서 Qwen 3를 구동하는 방법은 매우 직관적입니다.

텍스트 생성 외에도 AI 아바타 제작, 이미지 기반 영상 생성, 목소리 클로닝과 같은 작업이 필요한 경우, Hypereal AI는 최신 생성형 미디어 모델을 위한 간편한 종량제 API를 제공하여 로컬 LLM 환경에 강력한 시각 및 오디오 기능을 보완해 줄 수 있습니다.

2026년 Qwen 3 양자화 모델을 로컬에서 실행하는 방법

Qwen 3 모델 제품군 개요

모델	유형	전체 파라미터	활성 파라미터	최소 VRAM (Q4)	주요 사용 사례
Qwen3-0.6B	Dense	0.6B	0.6B	1 GB	엣지 디바이스, 모바일
Qwen3-1.7B	Dense	1.7B	1.7B	2 GB	단순 작업, 빠른 응답
Qwen3-4B	Dense	4B	4B	3 GB	저사양 하드웨어 범용
Qwen3-8B	Dense	8B	8B	6 GB	강력한 범용 모델
Qwen3-14B	Dense	14B	14B	10 GB	고급 추론, 코딩
Qwen3-32B	Dense	32B	32B	20 GB	최상위권에 근접한 품질
Qwen3-30B-A3B	MoE	30B	3B	4 GB	저연산 고품질
Qwen3-235B-A22B	MoE	235B	22B	16 GB	최첨단(Frontier)급 성능

양자화 포맷 이해하기

양자화는 모델의 정밀도를 낮추어 메모리 요구 사항을 줄입니다. 다음은 일반적인 GGUF 양자화 레벨입니다.

양자화	비트(Bits)	크기 감소량	품질 영향	권장 용도
Q2_K	2-bit	~75% 감소	눈에 띄게 저하	테스트용
Q3_K_M	3-bit	~65% 감소	약간의 저하	저용량 VRAM 시스템
Q4_K_M	4-bit	~55% 감소	영향 미미	품질/크기의 최적 균형
Q5_K_M	5-bit	~45% 감소	매우 미미함	고품질, 합리적 크기
Q6_K	6-bit	~35% 감소	거의 손실 없음	고품질
Q8_0	8-bit	~25% 감소	실질적 무손실	VRAM 여유 시
FP16	16-bit	기준	영향 없음	전체 정밀도

방법 1: Ollama로 Qwen 3 실행하기

Ollama는 가장 간단한 시작 방법입니다. 다운로드, 양자화 선택 및 서빙을 자동으로 처리합니다.

Ollama 설치:

curl -fsSL https://ollama.com/install.sh | sh

Qwen 3 모델 다운로드 및 실행:

# Qwen 3 8B 실행 (기본 양자화)
ollama run qwen3:8b

# Q4_K_M 양자화가 적용된 Qwen 3 32B 실행
ollama run qwen3:32b-q4_K_M

# MoE 모델 실행 (총 30B, 활성 3B)
ollama run qwen3:30b-a3b

# 저사양 시스템용 Qwen 3 4B 실행
ollama run qwen3:4b

# 사용 가능한 양자화 목록 확인
ollama show qwen3:8b --modelfile

Qwen 3를 API로 사용하기:

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3:32b-q4_K_M",
    "messages": [
      {"role": "system", "content": "You are a helpful coding assistant."},
      {"role": "user", "content": "Write a Python function to find the longest palindromic substring."}
    ],
    "temperature": 0.7
  }'

생각(Thinking) 모드 활성화 또는 비활성화:

Qwen 3는 향상된 추론을 위해 "생각" 모드를 지원합니다. enable_thinking 파라미터로 이를 조절할 수 있습니다.

# Ollama 채팅 내에서 /set 명령으로 설정
ollama run qwen3:32b-q4_K_M

# 채팅창 입력:
/set parameter num_predict 8192

방법 2: llama.cpp로 실행하기

추론 과정을 최대한 제어하고 싶다면 llama.cpp를 직접 사용하세요.

1단계: GGUF 모델 다운로드

Hugging Face에서 미리 양자화된 GGUF 파일을 다운로드합니다.

# huggingface-hub CLI 설치
pip install huggingface-hub

# Qwen3-32B Q4_K_M 다운로드
huggingface-cli download Qwen/Qwen3-32B-GGUF \
  qwen3-32b-q4_k_m.gguf \
  --local-dir ./models

# MoE 변체 모델 다운로드
huggingface-cli download Qwen/Qwen3-30B-A3B-GGUF \
  qwen3-30b-a3b-q4_k_m.gguf \
  --local-dir ./models

2단계: llama.cpp 빌드

git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp

# NVIDIA GPU 사용 시
cmake -B build -DGGML_CUDA=ON
cmake --build build --config Release -j

# Apple Silicon 사용 시
cmake -B build -DGGML_METAL=ON
cmake --build build --config Release -j

# CPU 전용
cmake -B build
cmake --build build --config Release -j

3단계: 모델 실행

# 대화형 채팅
./build/bin/llama-cli \
  -m ../models/qwen3-32b-q4_k_m.gguf \
  --chat-template chatml \
  -c 16384 \
  -ngl 99 \
  --temp 0.7 \
  --top-p 0.9 \
  --interactive

# API 서버 시작
./build/bin/llama-server \
  -m ../models/qwen3-32b-q4_k_m.gguf \
  --host 0.0.0.0 \
  --port 8080 \
  -c 16384 \
  -ngl 99

주요 플래그 설명:

플래그	설명
`-m`	GGUF 모델 파일 경로
`-c`	컨텍스트 길이 (대화 내 최대 토큰 수)
`-ngl`	GPU로 오프로드할 레이어 수 (99 = 전체)
`--temp`	무작위성을 위한 온도 설정 (0.0-2.0)
`--top-p`	Nucleus 샘플링 임계값
`--chat-template`	채팅 포맷 템플릿

방법 3: LM Studio로 실행하기

LM Studio는 양자화된 모델을 다운로드하고 실행할 수 있는 시각적 인터페이스를 제공합니다.

lmstudio.ai에서 LM Studio를 다운로드하고 설치합니다.
Discover 탭에서 "Qwen3"를 검색합니다.
원하는 크기와 양자화 레벨(Q4_K_M 권장)을 선택합니다.
Download를 클릭하고 파일 다운로드가 완료될 때까지 기다립니다.
Chat 탭으로 이동하여 Qwen 3 모델을 선택하고 채팅을 시작합니다.

LM Studio는 자동으로 하드웨어를 감지하고 최적의 설정을 적용합니다. 오른쪽 패널에서 컨텍스트 길이, 온도 및 기타 파라미터를 조정할 수 있습니다.

성능 벤치마크

일반적인 하드웨어에서의 Qwen 3 모델 실제 성능 수치는 다음과 같습니다.

Apple M4 Pro (48 GB RAM):

모델	양자화	토큰/초	사용 RAM
Qwen3-8B	Q4_K_M	42 t/s	5.8 GB
Qwen3-14B	Q4_K_M	28 t/s	9.6 GB
Qwen3-32B	Q4_K_M	14 t/s	20.1 GB
Qwen3-30B-A3B	Q4_K_M	38 t/s	4.2 GB

NVIDIA RTX 4090 (24 GB VRAM):

모델	양자화	토큰/초	사용 VRAM
Qwen3-8B	Q4_K_M	95 t/s	5.5 GB
Qwen3-14B	Q4_K_M	62 t/s	9.2 GB
Qwen3-32B	Q4_K_M	31 t/s	19.8 GB
Qwen3-30B-A3B	Q4_K_M	88 t/s	3.9 GB

하드웨어별 권장 모델

하드웨어	권장 모델	양자화
8 GB RAM 노트북	Qwen3-4B 또는 Qwen3-30B-A3B	Q4_K_M
16 GB RAM 노트북	Qwen3-8B 또는 Qwen3-30B-A3B	Q4_K_M
24 GB GPU (RTX 4090)	Qwen3-32B	Q4_K_M
32 GB RAM Mac	Qwen3-14B 또는 Qwen3-32B	Q4_K_M / Q3_K_M
64 GB+ RAM Mac	Qwen3-32B	Q6_K 또는 Q8_0

로컬에서 Qwen 3 양자화 모델을 실행하는 방법 (2026)

Hypereal로 구축 시작하기

2026년 Qwen 3 양자화 모델을 로컬에서 실행하는 방법

Qwen 3 모델 제품군 개요

양자화 포맷 이해하기

방법 1: Ollama로 Qwen 3 실행하기

방법 2: llama.cpp로 실행하기

방법 3: LM Studio로 실행하기

성능 벤치마크

하드웨어별 권장 모델

결론

관련 아티클

2026년 최고의 오픈 소스 RAG 프레임워크

LM Studio: 로컬 LLM 추론 완벽 가이드 (2026)

Ollama를 사용하여 Open WebUI를 설정하는 방법 (2026)

지금 바로 개발을 시작하세요

로컬에서 Qwen 3 양자화 모델을 실행하는 방법 (2026)

Hypereal로 구축 시작하기

2026년 Qwen 3 양자화 모델을 로컬에서 실행하는 방법

Qwen 3 모델 제품군 개요

양자화 포맷 이해하기

방법 1: Ollama로 Qwen 3 실행하기

방법 2: llama.cpp로 실행하기

방법 3: LM Studio로 실행하기

성능 벤치마크

하드웨어별 권장 모델

결론

관련 아티클

2026년 최고의 오픈 소스 RAG 프레임워크

LM Studio: 로컬 LLM 추론 완벽 가이드 (2026)

Ollama를 사용하여 Open WebUI를 설정하는 방법 (2026)

지금 바로 개발을 시작하세요