Qwen 3 をローカルで実行する方法:完全ガイド (2026年版)
自身のハードウェアで Qwen 3 モデルを実行するためのステップ・バイ・ステップの手順
Hyperealで構築を始めよう
Kling、Flux、Sora、Veoなどに単一のAPIでアクセス。無料クレジットで開始、数百万規模まで拡張可能。
クレジットカード不要 • 10万人以上の開発者 • エンタープライズ対応
Qwen 3 をローカルで実行する方法:完全ガイド (2026年版)
Qwen 3 は Alibaba が提供する最新のオープンソース大規模言語モデル(LLM)ファミリーであり、2026年時点で利用可能な最強のオープンウェイトモデルの一つです。複数のサイズが用意されており、Dense(密)アーキテクチャと Mixture-of-Experts (MoE) アーキテクチャの両方をサポートしています。多くのベンチマークにおいて、GPT-4o や Claude Sonnet といった商用モデルに匹敵するパフォーマンスを発揮します。
最大の特徴は、API コストやリクエスト制限なしに、完全なデータプライバシーを保ちながら、すべて自前のハードウェア上で実行できる点です。このガイドでは、その手順をステップバイステップで解説します。
Qwen 3 モデルのラインナップ
Qwen 3 は、さまざまなハードウェアに適合するよう複数のサイズが用意されています。
| モデル | パラメータ数 | アクティブパラメータ | アーキテクチャ | 最小 VRAM | 最適な用途 |
|---|---|---|---|---|---|
| Qwen3-0.6B | 0.6B | 0.6B | Dense | 2 GB | エッジデバイス、モバイル |
| Qwen3-1.7B | 1.7B | 1.7B | Dense | 4 GB | 軽量なタスク |
| Qwen3-4B | 4B | 4B | Dense | 6 GB | バランスの取れた性能 |
| Qwen3-8B | 8B | 8B | Dense | 8 GB | 一般的な利用 |
| Qwen3-14B | 14B | 14B | Dense | 12 GB | 高度な推論 |
| Qwen3-32B | 32B | 32B | Dense | 24 GB | フロンティア級に近い品質 |
| Qwen3-30B-A3B | 30B | 3B | MoE | 6 GB | 高速・効率的 |
| Qwen3-235B-A22B | 235B | 22B | MoE | 48 GB+ | 最高峰(フロンティア)クラス |
MoE (Mixture of Experts) モデルは特に注目に値します。Qwen3-30B-A3B は総パラメータ数が 300億ですが、1トークンあたり 30億のみをアクティブ化するため、高い品質を維持しながら高速かつメモリ効率に優れています。
方法 1: Ollama (最も簡単)
Ollama は、LLM をローカルで実行する最もシンプルな方法です。モデルのダウンロード、量子化、サーバー提供を一つのコマンドで処理できます。
Ollama のインストール
# macOS / Linux
curl -fsSL https://ollama.ai/install.sh | sh
# macOS (Homebrew)
brew install ollama
# Windows: ollama.ai からダウンロード
Qwen 3 のダウンロードと実行
# Qwen 3 8B をプルして実行 (最初にお勧めのモデル)
ollama run qwen3:8b
# その他のサイズ
ollama run qwen3:0.6b # 非常に小さく高速
ollama run qwen3:1.7b # 軽量
ollama run qwen3:4b # 優れたバランス
ollama run qwen3:14b # 高度な推論
ollama run qwen3:32b # 高品質 (24GB以上の VRAM が必要)
ollama run qwen3:30b-a3b # MoE - 高速かつ高品質
# 特定の量子化バージョン
ollama run qwen3:8b-q4_K_M # 4-bit 量子化 (軽量・高速)
ollama run qwen3:8b-q8_0 # 8-bit 量子化 (より高品質)
ollama run qwen3:8b-fp16 # フル精度 (最高品質・最大 VRAM)
モデルのダウンロードが完了すると、対話型のプロンプトが表示され、チャットを開始できます。
API として使用する
Ollama はローカルのポート 11434 で API サーバーを稼働させます。
# サーバーの起動 (インストール時に自動実行されます)
ollama serve
# チャット補完 (OpenAI 互換)
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "qwen3:8b",
"messages": [
{"role": "user", "content": "2つのソート済みリストをマージする Python 関数を書いてください"}
]
}'
Python で使用する
# OpenAI Python ライブラリを使用 (Ollama は OpenAI 互換)
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:11434/v1",
api_key="ollama" # 任意の文字列で動作します
)
response = client.chat.completions.create(
model="qwen3:8b",
messages=[
{"role": "system", "content": "あなたは優秀なコーディングアシスタントです。"},
{"role": "user", "content": "Python における async と threading の違いを説明してください"}
]
)
print(response.choices[0].message.content)
コードエディタと接続する
Ollama は AI コードエディタと統合可能です。
Cursor:
- Settings > Models を開く。
- OpenAI-compatible model を追加。
- Base URL を
http://localhost:11434/v1に設定。 - Model Name を
qwen3:8bに設定。
Continue.dev (VS Code):
// ~/.continue/config.json
{
"models": [
{
"title": "Qwen 3 8B (Local)",
"provider": "ollama",
"model": "qwen3:8b"
}
]
}
Claude Code:
# カスタムプロバイダーとして使用 (実験的)
export CLAUDE_MODEL="qwen3:8b"
export ANTHROPIC_BASE_URL="http://localhost:11434/v1"
方法 2: llama.cpp (最大パフォーマンス)
最大限の制御とパフォーマンスが必要な場合は、llama.cpp を直接使用します。CPU、CUDA、Metal、Vulkan アクセラレーションをサポートしています。
llama.cpp のインストール
# クローンとビルド
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
# CUDA (NVIDIA GPU) でビルド
cmake -B build -DGGML_CUDA=ON
cmake --build build --config Release -j
# Metal (Apple Silicon) でビルド
cmake -B build -DGGML_METAL=ON
cmake --build build --config Release -j
# CPU のみでビルド
cmake -B build
cmake --build build --config Release -j
GGUF モデルのダウンロード
GGUF は llama.cpp に最適化されたモデル形式です。Hugging Face からダウンロードします。
# huggingface-cli のインストール
pip install huggingface_hub
# Qwen 3 8B (Q4_K_M 量子化) のダウンロード
huggingface-cli download Qwen/Qwen3-8B-GGUF \
qwen3-8b-q4_k_m.gguf \
--local-dir ./models/
モデルの実行
# 対話型チャット
./build/bin/llama-cli \
-m models/qwen3-8b-q4_k_m.gguf \
-ngl 99 \
--chat-template chatml \
-c 8192 \
-cnv
# API サーバーの起動
./build/bin/llama-server \
-m models/qwen3-8b-q4_k_m.gguf \
-ngl 99 \
-c 8192 \
--host 0.0.0.0 \
--port 8080
| フラグ | 説明 |
|---|---|
-m |
GGUF モデルファイルへのパス |
-ngl 99 |
すべてのレイヤーを GPU にオフロード |
-c 8192 |
コンテキスト長 (RAM/VRAM に合わせて調整) |
-cnv |
会話モードを有効化 |
--chat-template chatml |
ChatML テンプレート (Qwen 形式) を使用 |
-t 8 |
CPU スレッド数 |
量子化の比較
| 量子化 | サイズ (8B モデル) | 品質 | 速度 | VRAM |
|---|---|---|---|---|
| Q2_K | ~3 GB | 低 | 最速 | 最小 |
| Q4_K_M | ~5 GB | 良 | 高速 | 低 |
| Q5_K_M | ~6 GB | 優 | 中 | 中 |
| Q6_K | ~7 GB | 秀 | 中 | 中 |
| Q8_0 | ~9 GB | ほぼ完璧 | 低速 | 多 |
| FP16 | ~16 GB | 完璧 | 最鈍 | 最大 |
推奨: ほとんどのユーザーにとって、品質とパフォーマンスのバランスが最も良いのは Q4_K_M です。VRAM に余裕がある場合は Q6_K や Q8_0 を使用してください。
方法 3: vLLM (プロダクション向けサービング)
バッチ処理や Paged Attention を備えた、高スループットなプロダクション環境でのサービングには vLLM を使用します。
# vLLM のインストール
pip install vllm
# Qwen 3 8B のサービング
vllm serve Qwen/Qwen3-8B \
--dtype auto \
--max-model-len 8192 \
--gpu-memory-utilization 0.9
# MoE モデルのサービング
vllm serve Qwen/Qwen3-30B-A3B \
--dtype auto \
--max-model-len 8192 \
--trust-remote-code
vLLM はポート 8000 で OpenAI 互換の API を提供します。
from openai import OpenAI
client = OpenAI(base_url="http://localhost:8000/v1", api_key="token")
response = client.chat.completions.create(
model="Qwen/Qwen3-8B",
messages=[{"role": "user", "content": "こんにちは!"}]
)
ハードウェア要件
NVIDIA GPU
| GPU | VRAM | 最適な Qwen 3 モデル |
|---|---|---|
| RTX 3060 | 12 GB | 8B (Q4) または 30B-A3B (Q4) |
| RTX 3090 | 24 GB | 14B (Q8) または 32B (Q4) |
| RTX 4070 Ti | 12 GB | 8B (Q4) または 30B-A3B (Q4) |
| RTX 4080 | 16 GB | 14B (Q4) または 8B (Q8) |
| RTX 4090 | 24 GB | 32B (Q4) または 14B (FP16) |
| RTX 5090 | 32 GB | 32B (Q6) |
| A100 | 80 GB | 235B-A22B (Q4) |
Apple Silicon (Mac)
| Mac | RAM | 最適な Qwen 3 モデル |
|---|---|---|
| M1/M2 (8 GB) | 8 GB | 4B (Q4) または 0.6B |
| M1/M2 (16 GB) | 16 GB | 8B (Q4) または 30B-A3B (Q4) |
| M1/M2 Pro (32 GB) | 32 GB | 14B (Q6) または 32B (Q4) |
| M1/M2 Max (64 GB) | 64 GB | 32B (Q8) |
| M1/M2 Ultra (128 GB) | 128 GB | 235B-A22B (Q4) |
| M3/M4 系列 | 上記と同じ | 同様、若干高速 |
Apple Silicon はユニファイドメモリを使用するため、すべてのシステム RAM をモデルに使用できます。これにより、大容量 RAM を搭載した Mac は LLM 実行において驚異的な能力を発揮します。
パフォーマンス最適化のヒント
1. 適切なコンテキスト長を使用する
コンテキストが長いほどメモリを消費し、推論が遅くなります。必要に応じた長さを設定してください。
# 単純な Q&A 用 (短いコンテキストで十分)
ollama run qwen3:8b --ctx-size 4096
# コード解析用 (より長いコンテキストが必要)
ollama run qwen3:8b --ctx-size 16384
# 長いドキュメント用 (最大コンテキスト)
ollama run qwen3:8b --ctx-size 32768
2. Flash Attention を有効にする
Flash Attention はメモリ使用量を抑え、推論を高速化します。
# Ollama はこれを自動で有効にします
# llama.cpp: -fa フラグを追加
./build/bin/llama-server -m model.gguf -ngl 99 -fa
3. KV キャッシュ量子化を使用する
長いコンテキスト実行時のメモリ使用量を削減します。
# llama.cpp: KV キャッシュを量子化
./build/bin/llama-server \
-m model.gguf \
-ngl 99 \
--cache-type-k q4_0 \
--cache-type-v q4_0
4. まずは MoE モデルを試す
ハードウェアに不安がある場合は、Qwen3-30B-A3B から始めてください。8B モデルと同じハードウェアで動作しながら、14〜32B モデルに近い性能を発揮します。
ollama run qwen3:30b-a3b
Qwen 3 Thinking Mode (思考モード)
Qwen 3 は、OpenAI の o1 モデルのように、回答の前にステップバイステップで思考する「Thinking Mode」をサポートしています。
# Ollama での思考モードの有効化
ollama run qwen3:8b
> /set parameter num_ctx 8192
> Think step by step: 公正なサイコロを4回振って、少なくとも1回 6 が出る確率は?
プログラムから思考モードを切り替える場合:
# 例:プロンプトで明示的に指示する
response = client.chat.completions.create(
model="qwen3:8b",
messages=[
{
"role": "user",
"content": "Think step by step: 次の最適化問題を解いてください..."
}
],
extra_body={
"enable_thinking": True
}
)
思考モードは数学、論理、複雑な推論タスクでより良い結果を出しますが、トークン消費量が増え、回答までに時間がかかります。
よくある質問 (FAQ)
どの Qwen 3 モデルから始めるべきですか? ほとんどのユーザーには Qwen3-8B (Q4_K_M 量子化) が適しています。VRAM が 8 GB 未満の場合は、1トークンあたり 30億パラメータのみをアクティブにする Qwen3-30B-A3B を試してください。
Qwen 3 は Llama 3 と比べてどうですか? Qwen 3 は、多くのベンチマークにおいて Meta の Llama 3.3 70B に匹敵、あるいはそれを上回る性能を見せています。特に多言語タスク、コーディング、数学に強みがあります。また、MoE バリアントは計算効率(品質あたりの FLOPs)に優れています。
ローカルで Qwen 3 を微調整(ファインチューニング)できますか? はい。Unsloth、Axolotl、LLaMA-Factory などのツールを使用して LoRA 微調整が可能です。8B モデルであれば、QLoRA を用いることで 16 GB VRAM の GPU 1枚で微調整できます。
Qwen 3 に検閲はありますか? Qwen 3 にはセーフティアライメントが適用されていますが、商用モデルほど制限は厳しくありません。オープンソースであるため、コミュニティによって無検閲(Uncensored)版も作成される可能性がありますが、倫理的な利用には注意が必要です。
Qwen 3 は Function Calling(ツール利用)をサポートしていますか? はい。Qwen 3 は OpenAI 形式の構造化されたツール利用に対応しています。これは Ollama や vLLM の両方で動作します。
Qwen 3 を商用利用できますか? はい。Qwen 3 は Apache 2.0 ライセンスで公開されており、制限なしで商用利用が可能です。
まとめ
Qwen 3 をローカルで実行することで、継続的なコストをかけず、完全なプライバシーを保ちながらフロンティアクラスの AI モデルを利用できます。Ollama の手軽さ、MoE バリアントの効率性、そしてコーディングや数学、一般タスクにおける高い性能を兼ね備えた Qwen 3 は、2026年においてローカル実行するのに最適なオープンソースモデルの一つです。
まずは ollama run qwen3:8b から始め、必要に応じて MoE バリアントを試し、ハードウェアが許す限りより大きなモデルへとスケールアップしてみてください。
もし、ローカル LLM の機能に加えて、AI 生成の画像、動画、アバターが必要なプロジェクトであれば、Hypereal AI を無料でお試しください(クレジットカード不要)。ローカルの消費者向けハードウェアでは困難なメディア生成を強力にサポートします。
