如何在本地运行 Qwen 3：完整指南 (2026)

Qwen 3 是阿里巴巴最新的开源大语言模型系列，也是 2026 年最强大的开源权重模型之一。它提供多种尺寸，支持稠密（Dense）和混合专家（MoE）架构，在多项基准测试中表现与 GPT-4o 和 Claude Sonnet 等私有模型不相上下。

最棒的是：你完全可以在自己的硬件上运行它，无需 API 费用，没有速率限制，并拥有完整的数据隐私。本指南将逐步教你如何操作。

Qwen 3 模型阵容

Qwen 3 提供多种尺寸以适配不同硬件：

模型	参数量	激活参数	架构	最小显存 (VRAM)	适用场景
Qwen3-0.6B	0.6B	0.6B	Dense	2 GB	边缘设备、移动端
Qwen3-1.7B	1.7B	1.7B	Dense	4 GB	轻量级任务
Qwen3-4B	4B	4B	Dense	6 GB	平衡性能
Qwen3-8B	8B	8B	Dense	8 GB	通用场景
Qwen3-14B	14B	14B	Dense	12 GB	强逻辑推理
Qwen3-32B	32B	32B	Dense	24 GB	接近顶尖水平
Qwen3-30B-A3B	30B	3B	MoE	6 GB	快速、高效
Qwen3-235B-A22B	235B	22B	MoE	48 GB+	顶级旗舰性能

MoE（Mixture of Experts）模型尤其值得关注。Qwen3-30B-A3B 总共有 300 亿参数，但每个 token 仅激活 30 亿参数，这使其在保持高质量的同时，速度极快且极具显存效率。

方法 1：Ollama（最简单）

Ollama 是在本地运行 LLM 最简单的方法。它只需一条命令即可处理模型下载、量化和服务。

安装 Ollama

# macOS / Linux
curl -fsSL https://ollama.ai/install.sh | sh

# macOS (Homebrew)
brew install ollama

# Windows: 从 ollama.ai 下载安装包

下载并运行 Qwen 3

# 拉取并运行 Qwen 3 8B (推荐入门建议)
ollama run qwen3:8b

# 其他尺寸
ollama run qwen3:0.6b    # 极小，极快
ollama run qwen3:1.7b    # 轻量型
ollama run qwen3:4b      # 良好平衡
ollama run qwen3:14b     # 强逻辑推理
ollama run qwen3:32b     # 高质量 (需要 24GB+ 显存)
ollama run qwen3:30b-a3b # MoE - 兼顾速度与质量

# 特定量化版本
ollama run qwen3:8b-q4_K_M   # 4-bit 量化 (更小、更快)
ollama run qwen3:8b-q8_0     # 8-bit 量化 (质量更好)
ollama run qwen3:8b-fp16     # 全精度 (质量最高，最耗显存)

模型下载完成后，你会看到一个交互式提示符，可以开始聊天。

作为 API 使用

Ollama 在 11434 端口运行本地 API 服务器：

# 启动服务器 (安装后通常自动运行)
ollama serve

# 对话补全 (兼容 OpenAI 格式)
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3:8b",
    "messages": [
      {"role": "user", "content": "写一个 Python 函数来合并两个已排序的列表"}
    ]
  }'

结合 Python 使用

# 使用 OpenAI Python 库 (Ollama 兼容 OpenAI 协议)
from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama"  # 任意字符串即可
)

response = client.chat.completions.create(
    model="qwen3:8b",
    messages=[
        {"role": "system", "content": "你是一个得力的编程助手。"},
        {"role": "user", "content": "解释 Python 中 async 和 threading 的区别"}
    ]
)

print(response.choices[0].message.content)

连接到代码编辑器

Ollama 可以集成到 AI 代码编辑器中：

Cursor:

进入 Settings > Models。
添加 OpenAI-compatible 模型。
将 Base URL 设置为 http://localhost:11434/v1。
将模型名称设置为 qwen3:8b。

Continue.dev (VS Code):

// ~/.continue/config.json
{
  "models": [
    {
      "title": "Qwen 3 8B (Local)",
      "provider": "ollama",
      "model": "qwen3:8b"
    }
  ]
}

Claude Code:

# 作为自定义 provider 使用 (实验性)
export CLAUDE_MODEL="qwen3:8b"
export ANTHROPIC_BASE_URL="http://localhost:11434/v1"

方法 2：llama.cpp（极致性能）

若要获得最大的控制权和性能，请直接使用 llama.cpp。它支持 CPU、CUDA、Metal 和 Vulkan 加速。

安装 llama.cpp

# 克隆并构建
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp

# 使用 CUDA 构建 (NVIDIA GPU)
cmake -B build -DGGML_CUDA=ON
cmake --build build --config Release -j

# 使用 Metal 构建 (Apple Silicon Mac)
cmake -B build -DGGML_METAL=ON
cmake --build build --config Release -j

# 仅使用 CPU 构建
cmake -B build
cmake --build build --config Release -j

下载 GGUF 模型

GGUF 是 llama.cpp 的优化模型格式。从 Hugging Face 下载：

# 安装 huggingface-cli
pip install huggingface_hub

# 下载 Qwen 3 8B 的 Q4_K_M 量化版本
huggingface-cli download Qwen/Qwen3-8B-GGUF \
  qwen3-8b-q4_k_m.gguf \
  --local-dir ./models/

运行模型

# 交互式对话
./build/bin/llama-cli \
  -m models/qwen3-8b-q4_k_m.gguf \
  -ngl 99 \
  --chat-template chatml \
  -c 8192 \
  -cnv

# 启动 API 服务器
./build/bin/llama-server \
  -m models/qwen3-8b-q4_k_m.gguf \
  -ngl 99 \
  -c 8192 \
  --host 0.0.0.0 \
  --port 8080

参数	描述
`-m`	GGUF 模型文件路径
`-ngl 99`	将所有层卸载到 GPU (GPU 加速)
`-c 8192`	上下文长度 (根据内存/显存调整)
`-cnv`	启用对话模式
`--chat-template chatml`	使用 ChatML 模板 (Qwen 格式)
`-t 8`	CPU 线程数

量化版本对比

量化等级	文件大小 (8B 模型)	质量	速度	显存需求
Q2_K	~3 GB	低	最快	最少
Q4_K_M	~5 GB	良好	快	低
Q5_K_M	~6 GB	非常好	中等	中等
Q6_K	~7 GB	优秀	中等	中等
Q8_0	~9 GB	接近无损	较慢	较高
FP16	~16 GB	完美	最慢	最高

建议： 对于大多数用户，Q4_K_M 是质量与性能的最佳平衡点。如果显存充足，请使用 Q6_K 或 Q8_0。

方法 3：vLLM（生产级部署）

对于需要批处理和 Paged Attention 的高吞吐量生产环境，请使用 vLLM：

# 安装 vLLM
pip install vllm

# 部署 Qwen 3 8B
vllm serve Qwen/Qwen3-8B \
  --dtype auto \
  --max-model-len 8192 \
  --gpu-memory-utilization 0.9

# 部署 MoE 模型
vllm serve Qwen/Qwen3-30B-A3B \
  --dtype auto \
  --max-model-len 8192 \
  --trust-remote-code

vLLM 会在 8000 端口提供 OpenAI 兼容的 API：

from openai import OpenAI

client = OpenAI(base_url="http://localhost:8000/v1", api_key="token")

response = client.chat.completions.create(
    model="Qwen/Qwen3-8B",
    messages=[{"role": "user", "content": "你好！"}]
)

硬件要求

NVIDIA GPU

GPU 型号	显存 (VRAM)	推荐 Qwen 3 模型
RTX 3060	12 GB	8B (Q4) 或 30B-A3B (Q4)
RTX 3090	24 GB	14B (Q8) 或 32B (Q4)
RTX 4070 Ti	12 GB	8B (Q4) 或 30B-A3B (Q4)
RTX 4080	16 GB	14B (Q4) 或 8B (Q8)
RTX 4090	24 GB	32B (Q4) 或 14B (FP16)
RTX 5090	32 GB	32B (Q6)
A100	80 GB	235B-A22B (Q4)

Apple Silicon (Mac)

设备	内存 (RAM)	推荐 Qwen 3 模型
M1/M2 (8 GB)	8 GB	4B (Q4) 或 0.6B
M1/M2 (16 GB)	16 GB	8B (Q4) 或 30B-A3B (Q4)
M1/M2 Pro (32 GB)	32 GB	14B (Q6) 或 32B (Q4)
M1/M2 Max (64 GB)	64 GB	32B (Q8)
M1/M2 Ultra (128 GB)	128 GB	235B-A22B (Q4)
M3/M4 系列	同上	同上，速度略快

Apple Silicon 使用统一内存，因此所有系统内存都可供模型使用。这使得拥有大内存的 Mac 在运行 LLM 时表现异常出色。

性能优化技巧

1. 设置合理的上下文长度

较长的上下文会消耗更多内存并降低推理速度。请根据实际需求设置上下文：

# 简单的问答 (短上下文即可)
ollama run qwen3:8b --ctx-size 4096

# 代码分析 (需要较多上下文)
ollama run qwen3:8b --ctx-size 16384

# 处理长文档 (最大化上下文)
ollama run qwen3:8b --ctx-size 32768

2. 启用 Flash Attention

Flash Attention 可以减少内存占用并加速推理：

# Ollama 会自动启用

# llama.cpp：添加 -fa 标志
./build/bin/llama-server -m model.gguf -ngl 99 -fa

3. 使用 KV 缓存量化

减少长上下文下的显存占用：

# llama.cpp：对 KV 缓存进行量化
./build/bin/llama-server \
  -m model.gguf \
  -ngl 99 \
  --cache-type-k q4_0 \
  --cache-type-v q4_0

4. 优先尝试 MoE 模型

如果你不确定硬件能否跑动，先尝试 Qwen3-30B-A3B。它在 8B 级别的硬件上运行，但性能接近 14-32B 级别的模型：

ollama run qwen3:30b-a3b

Qwen 3 思考模式 (Thinking Mode)

Qwen 3 支持类似于 OpenAI o1 模型的“思考”模式，在回答之前会进行深入的逐步推理：

# 在 Ollama 中启用思考模式
ollama run qwen3:8b

> /set parameter num_ctx 8192
> 逐步思考：在掷四次公平的骰子中，至少掷出一个 6 的概率是多少？

通过编程方式切换思考模式：

response = client.chat.completions.create(
    model="qwen3:8b",
    messages=[
        {
            "role": "user",
            "content": "逐步思考：解决这个优化问题..."
        }
    ],
    extra_body={
        "enable_thinking": True
    }
)

思考模式在数学、逻辑和复杂推理任务中会产生更好的结果，但会消耗更多 token 且耗时更长。

常见问题解答 (FAQ)

我应该从哪个 Qwen 3 模型开始？ 对于大多数用户，推荐 Qwen3-8B（Q4_K_M 量化版本）。如果显存小于 8 GB，请尝试 Qwen3-30B-A3B，它每个 token 仅激活 30 亿参数。

Qwen 3 与 Llama 3 相比如何？ Qwen 3 在很多基准测试中与 Meta 的 Llama 3.3 70B 旗鼓相当甚至更胜一筹，特别是在多语言任务、编程和数学方面。MoE 版本提供了极高的单位算力质量。

我可以在本地微调 Qwen 3 吗？ 可以。使用 Unsloth、Axolotl 或 LLaMA-Factory 等工具进行 LoRA 微调。通过 QLoRA，8B 模型可以在显存为 16 GB 的单卡 GPU 上进行微调。

Qwen 3 是否有审查？ Qwen 3 经过了安全对齐，但比商业闭源模型限制更少。开源特性意味着社区可以创建去审查版本，尽管使用时需要考虑伦理问题。

Qwen 3 支持函数调用 / 工具使用吗？ 支持。Qwen 3 支持与 OpenAI 函数调用格式一致的结构化工具使用。这在 Ollama 和 vLLM 中均可运行。

Qwen 3 可以商用吗？ 可以。Qwen 3 采用 Apache 2.0 许可证发布，允许无限制的商业用途。

总结

在本地运行 Qwen 3 为你提供了一个世界级的 AI 模型，既没有持续费用，又能完全保护隐私。结合 Ollama 的简洁性、MoE 版本的高效性以及该模型在编程、数学和通用任务中的强悍表现，Qwen 3 是 2026 年在本地运行的最佳开源模型之一。

从 ollama run qwen3:8b 开始你的体验，如果追求更极致的显存性价比，请尝试 MoE 版本，并随着硬件的提升逐步尝试更大的模型。

如果你的项目在本地 LLM 能力之外还需要 AI 生成图像、视频或数字人，可以免费试用 Hypereal AI -- 无需信用卡。它能处理消费级硬件上本地 LLM 无法完成的多媒体生成任务。