如何在本地运行 Qwen 3:完整指南 (2026)
在您自己的硬件上运行 Qwen 3 模型的逐步操作指南
开始使用 Hypereal 构建
通过单个 API 访问 Kling、Flux、Sora、Veo 等。免费积分开始,扩展到数百万。
无需信用卡 • 10万+ 开发者 • 企业级服务
如何在本地运行 Qwen 3:完整指南 (2026)
Qwen 3 是阿里巴巴最新的开源大语言模型系列,也是 2026 年最强大的开源权重模型之一。它提供多种尺寸,支持稠密(Dense)和混合专家(MoE)架构,在多项基准测试中表现与 GPT-4o 和 Claude Sonnet 等私有模型不相上下。
最棒的是:你完全可以在自己的硬件上运行它,无需 API 费用,没有速率限制,并拥有完整的数据隐私。本指南将逐步教你如何操作。
Qwen 3 模型阵容
Qwen 3 提供多种尺寸以适配不同硬件:
| 模型 | 参数量 | 激活参数 | 架构 | 最小显存 (VRAM) | 适用场景 |
|---|---|---|---|---|---|
| Qwen3-0.6B | 0.6B | 0.6B | Dense | 2 GB | 边缘设备、移动端 |
| Qwen3-1.7B | 1.7B | 1.7B | Dense | 4 GB | 轻量级任务 |
| Qwen3-4B | 4B | 4B | Dense | 6 GB | 平衡性能 |
| Qwen3-8B | 8B | 8B | Dense | 8 GB | 通用场景 |
| Qwen3-14B | 14B | 14B | Dense | 12 GB | 强逻辑推理 |
| Qwen3-32B | 32B | 32B | Dense | 24 GB | 接近顶尖水平 |
| Qwen3-30B-A3B | 30B | 3B | MoE | 6 GB | 快速、高效 |
| Qwen3-235B-A22B | 235B | 22B | MoE | 48 GB+ | 顶级旗舰性能 |
MoE(Mixture of Experts)模型尤其值得关注。Qwen3-30B-A3B 总共有 300 亿参数,但每个 token 仅激活 30 亿参数,这使其在保持高质量的同时,速度极快且极具显存效率。
方法 1:Ollama(最简单)
Ollama 是在本地运行 LLM 最简单的方法。它只需一条命令即可处理模型下载、量化和服务。
安装 Ollama
# macOS / Linux
curl -fsSL https://ollama.ai/install.sh | sh
# macOS (Homebrew)
brew install ollama
# Windows: 从 ollama.ai 下载安装包
下载并运行 Qwen 3
# 拉取并运行 Qwen 3 8B (推荐入门建议)
ollama run qwen3:8b
# 其他尺寸
ollama run qwen3:0.6b # 极小,极快
ollama run qwen3:1.7b # 轻量型
ollama run qwen3:4b # 良好平衡
ollama run qwen3:14b # 强逻辑推理
ollama run qwen3:32b # 高质量 (需要 24GB+ 显存)
ollama run qwen3:30b-a3b # MoE - 兼顾速度与质量
# 特定量化版本
ollama run qwen3:8b-q4_K_M # 4-bit 量化 (更小、更快)
ollama run qwen3:8b-q8_0 # 8-bit 量化 (质量更好)
ollama run qwen3:8b-fp16 # 全精度 (质量最高,最耗显存)
模型下载完成后,你会看到一个交互式提示符,可以开始聊天。
作为 API 使用
Ollama 在 11434 端口运行本地 API 服务器:
# 启动服务器 (安装后通常自动运行)
ollama serve
# 对话补全 (兼容 OpenAI 格式)
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "qwen3:8b",
"messages": [
{"role": "user", "content": "写一个 Python 函数来合并两个已排序的列表"}
]
}'
结合 Python 使用
# 使用 OpenAI Python 库 (Ollama 兼容 OpenAI 协议)
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:11434/v1",
api_key="ollama" # 任意字符串即可
)
response = client.chat.completions.create(
model="qwen3:8b",
messages=[
{"role": "system", "content": "你是一个得力的编程助手。"},
{"role": "user", "content": "解释 Python 中 async 和 threading 的区别"}
]
)
print(response.choices[0].message.content)
连接到代码编辑器
Ollama 可以集成到 AI 代码编辑器中:
Cursor:
- 进入 Settings > Models。
- 添加 OpenAI-compatible 模型。
- 将 Base URL 设置为
http://localhost:11434/v1。 - 将模型名称设置为
qwen3:8b。
Continue.dev (VS Code):
// ~/.continue/config.json
{
"models": [
{
"title": "Qwen 3 8B (Local)",
"provider": "ollama",
"model": "qwen3:8b"
}
]
}
Claude Code:
# 作为自定义 provider 使用 (实验性)
export CLAUDE_MODEL="qwen3:8b"
export ANTHROPIC_BASE_URL="http://localhost:11434/v1"
方法 2:llama.cpp(极致性能)
若要获得最大的控制权和性能,请直接使用 llama.cpp。它支持 CPU、CUDA、Metal 和 Vulkan 加速。
安装 llama.cpp
# 克隆并构建
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
# 使用 CUDA 构建 (NVIDIA GPU)
cmake -B build -DGGML_CUDA=ON
cmake --build build --config Release -j
# 使用 Metal 构建 (Apple Silicon Mac)
cmake -B build -DGGML_METAL=ON
cmake --build build --config Release -j
# 仅使用 CPU 构建
cmake -B build
cmake --build build --config Release -j
下载 GGUF 模型
GGUF 是 llama.cpp 的优化模型格式。从 Hugging Face 下载:
# 安装 huggingface-cli
pip install huggingface_hub
# 下载 Qwen 3 8B 的 Q4_K_M 量化版本
huggingface-cli download Qwen/Qwen3-8B-GGUF \
qwen3-8b-q4_k_m.gguf \
--local-dir ./models/
运行模型
# 交互式对话
./build/bin/llama-cli \
-m models/qwen3-8b-q4_k_m.gguf \
-ngl 99 \
--chat-template chatml \
-c 8192 \
-cnv
# 启动 API 服务器
./build/bin/llama-server \
-m models/qwen3-8b-q4_k_m.gguf \
-ngl 99 \
-c 8192 \
--host 0.0.0.0 \
--port 8080
| 参数 | 描述 |
|---|---|
-m |
GGUF 模型文件路径 |
-ngl 99 |
将所有层卸载到 GPU (GPU 加速) |
-c 8192 |
上下文长度 (根据内存/显存调整) |
-cnv |
启用对话模式 |
--chat-template chatml |
使用 ChatML 模板 (Qwen 格式) |
-t 8 |
CPU 线程数 |
量化版本对比
| 量化等级 | 文件大小 (8B 模型) | 质量 | 速度 | 显存需求 |
|---|---|---|---|---|
| Q2_K | ~3 GB | 低 | 最快 | 最少 |
| Q4_K_M | ~5 GB | 良好 | 快 | 低 |
| Q5_K_M | ~6 GB | 非常好 | 中等 | 中等 |
| Q6_K | ~7 GB | 优秀 | 中等 | 中等 |
| Q8_0 | ~9 GB | 接近无损 | 较慢 | 较高 |
| FP16 | ~16 GB | 完美 | 最慢 | 最高 |
建议: 对于大多数用户,Q4_K_M 是质量与性能的最佳平衡点。如果显存充足,请使用 Q6_K 或 Q8_0。
方法 3:vLLM(生产级部署)
对于需要批处理和 Paged Attention 的高吞吐量生产环境,请使用 vLLM:
# 安装 vLLM
pip install vllm
# 部署 Qwen 3 8B
vllm serve Qwen/Qwen3-8B \
--dtype auto \
--max-model-len 8192 \
--gpu-memory-utilization 0.9
# 部署 MoE 模型
vllm serve Qwen/Qwen3-30B-A3B \
--dtype auto \
--max-model-len 8192 \
--trust-remote-code
vLLM 会在 8000 端口提供 OpenAI 兼容的 API:
from openai import OpenAI
client = OpenAI(base_url="http://localhost:8000/v1", api_key="token")
response = client.chat.completions.create(
model="Qwen/Qwen3-8B",
messages=[{"role": "user", "content": "你好!"}]
)
硬件要求
NVIDIA GPU
| GPU 型号 | 显存 (VRAM) | 推荐 Qwen 3 模型 |
|---|---|---|
| RTX 3060 | 12 GB | 8B (Q4) 或 30B-A3B (Q4) |
| RTX 3090 | 24 GB | 14B (Q8) 或 32B (Q4) |
| RTX 4070 Ti | 12 GB | 8B (Q4) 或 30B-A3B (Q4) |
| RTX 4080 | 16 GB | 14B (Q4) 或 8B (Q8) |
| RTX 4090 | 24 GB | 32B (Q4) 或 14B (FP16) |
| RTX 5090 | 32 GB | 32B (Q6) |
| A100 | 80 GB | 235B-A22B (Q4) |
Apple Silicon (Mac)
| 设备 | 内存 (RAM) | 推荐 Qwen 3 模型 |
|---|---|---|
| M1/M2 (8 GB) | 8 GB | 4B (Q4) 或 0.6B |
| M1/M2 (16 GB) | 16 GB | 8B (Q4) 或 30B-A3B (Q4) |
| M1/M2 Pro (32 GB) | 32 GB | 14B (Q6) 或 32B (Q4) |
| M1/M2 Max (64 GB) | 64 GB | 32B (Q8) |
| M1/M2 Ultra (128 GB) | 128 GB | 235B-A22B (Q4) |
| M3/M4 系列 | 同上 | 同上,速度略快 |
Apple Silicon 使用统一内存,因此所有系统内存都可供模型使用。这使得拥有大内存的 Mac 在运行 LLM 时表现异常出色。
性能优化技巧
1. 设置合理的上下文长度
较长的上下文会消耗更多内存并降低推理速度。请根据实际需求设置上下文:
# 简单的问答 (短上下文即可)
ollama run qwen3:8b --ctx-size 4096
# 代码分析 (需要较多上下文)
ollama run qwen3:8b --ctx-size 16384
# 处理长文档 (最大化上下文)
ollama run qwen3:8b --ctx-size 32768
2. 启用 Flash Attention
Flash Attention 可以减少内存占用并加速推理:
# Ollama 会自动启用
# llama.cpp:添加 -fa 标志
./build/bin/llama-server -m model.gguf -ngl 99 -fa
3. 使用 KV 缓存量化
减少长上下文下的显存占用:
# llama.cpp:对 KV 缓存进行量化
./build/bin/llama-server \
-m model.gguf \
-ngl 99 \
--cache-type-k q4_0 \
--cache-type-v q4_0
4. 优先尝试 MoE 模型
如果你不确定硬件能否跑动,先尝试 Qwen3-30B-A3B。它在 8B 级别的硬件上运行,但性能接近 14-32B 级别的模型:
ollama run qwen3:30b-a3b
Qwen 3 思考模式 (Thinking Mode)
Qwen 3 支持类似于 OpenAI o1 模型的“思考”模式,在回答之前会进行深入的逐步推理:
# 在 Ollama 中启用思考模式
ollama run qwen3:8b
> /set parameter num_ctx 8192
> 逐步思考:在掷四次公平的骰子中,至少掷出一个 6 的概率是多少?
通过编程方式切换思考模式:
response = client.chat.completions.create(
model="qwen3:8b",
messages=[
{
"role": "user",
"content": "逐步思考:解决这个优化问题..."
}
],
extra_body={
"enable_thinking": True
}
)
思考模式在数学、逻辑和复杂推理任务中会产生更好的结果,但会消耗更多 token 且耗时更长。
常见问题解答 (FAQ)
我应该从哪个 Qwen 3 模型开始? 对于大多数用户,推荐 Qwen3-8B(Q4_K_M 量化版本)。如果显存小于 8 GB,请尝试 Qwen3-30B-A3B,它每个 token 仅激活 30 亿参数。
Qwen 3 与 Llama 3 相比如何? Qwen 3 在很多基准测试中与 Meta 的 Llama 3.3 70B 旗鼓相当甚至更胜一筹,特别是在多语言任务、编程和数学方面。MoE 版本提供了极高的单位算力质量。
我可以在本地微调 Qwen 3 吗? 可以。使用 Unsloth、Axolotl 或 LLaMA-Factory 等工具进行 LoRA 微调。通过 QLoRA,8B 模型可以在显存为 16 GB 的单卡 GPU 上进行微调。
Qwen 3 是否有审查? Qwen 3 经过了安全对齐,但比商业闭源模型限制更少。开源特性意味着社区可以创建去审查版本,尽管使用时需要考虑伦理问题。
Qwen 3 支持函数调用 / 工具使用吗? 支持。Qwen 3 支持与 OpenAI 函数调用格式一致的结构化工具使用。这在 Ollama 和 vLLM 中均可运行。
Qwen 3 可以商用吗? 可以。Qwen 3 采用 Apache 2.0 许可证发布,允许无限制的商业用途。
总结
在本地运行 Qwen 3 为你提供了一个世界级的 AI 模型,既没有持续费用,又能完全保护隐私。结合 Ollama 的简洁性、MoE 版本的高效性以及该模型在编程、数学和通用任务中的强悍表现,Qwen 3 是 2026 年在本地运行的最佳开源模型之一。
从 ollama run qwen3:8b 开始你的体验,如果追求更极致的显存性价比,请尝试 MoE 版本,并随着硬件的提升逐步尝试更大的模型。
如果你的项目在本地 LLM 能力之外还需要 AI 生成图像、视频或数字人,可以免费试用 Hypereal AI -- 无需信用卡。它能处理消费级硬件上本地 LLM 无法完成的多媒体生成任务。
