Qwen 3 をローカルで実行する方法：完全ガイド (2026年版)

Qwen 3 は Alibaba が提供する最新のオープンソース大規模言語モデル（LLM）ファミリーであり、2026年時点で利用可能な最強のオープンウェイトモデルの一つです。複数のサイズが用意されており、Dense（密）アーキテクチャと Mixture-of-Experts (MoE) アーキテクチャの両方をサポートしています。多くのベンチマークにおいて、GPT-4o や Claude Sonnet といった商用モデルに匹敵するパフォーマンスを発揮します。

最大の特徴は、API コストやリクエスト制限なしに、完全なデータプライバシーを保ちながら、すべて自前のハードウェア上で実行できる点です。このガイドでは、その手順をステップバイステップで解説します。

Qwen 3 モデルのラインナップ

Qwen 3 は、さまざまなハードウェアに適合するよう複数のサイズが用意されています。

モデル	パラメータ数	アクティブパラメータ	アーキテクチャ	最小 VRAM	最適な用途
Qwen3-0.6B	0.6B	0.6B	Dense	2 GB	エッジデバイス、モバイル
Qwen3-1.7B	1.7B	1.7B	Dense	4 GB	軽量なタスク
Qwen3-4B	4B	4B	Dense	6 GB	バランスの取れた性能
Qwen3-8B	8B	8B	Dense	8 GB	一般的な利用
Qwen3-14B	14B	14B	Dense	12 GB	高度な推論
Qwen3-32B	32B	32B	Dense	24 GB	フロンティア級に近い品質
Qwen3-30B-A3B	30B	3B	MoE	6 GB	高速・効率的
Qwen3-235B-A22B	235B	22B	MoE	48 GB+	最高峰（フロンティア）クラス

MoE (Mixture of Experts) モデルは特に注目に値します。Qwen3-30B-A3B は総パラメータ数が 300億ですが、1トークンあたり 30億のみをアクティブ化するため、高い品質を維持しながら高速かつメモリ効率に優れています。

方法 1: Ollama (最も簡単)

Ollama は、LLM をローカルで実行する最もシンプルな方法です。モデルのダウンロード、量子化、サーバー提供を一つのコマンドで処理できます。

Ollama のインストール

# macOS / Linux
curl -fsSL https://ollama.ai/install.sh | sh

# macOS (Homebrew)
brew install ollama

# Windows: ollama.ai からダウンロード

Qwen 3 のダウンロードと実行

# Qwen 3 8B をプルして実行 (最初にお勧めのモデル)
ollama run qwen3:8b

# その他のサイズ
ollama run qwen3:0.6b    # 非常に小さく高速
ollama run qwen3:1.7b    # 軽量
ollama run qwen3:4b      # 優れたバランス
ollama run qwen3:14b     # 高度な推論
ollama run qwen3:32b     # 高品質 (24GB以上の VRAM が必要)
ollama run qwen3:30b-a3b # MoE - 高速かつ高品質

# 特定の量子化バージョン
ollama run qwen3:8b-q4_K_M   # 4-bit 量子化 (軽量・高速)
ollama run qwen3:8b-q8_0     # 8-bit 量子化 (より高品質)
ollama run qwen3:8b-fp16     # フル精度 (最高品質・最大 VRAM)

モデルのダウンロードが完了すると、対話型のプロンプトが表示され、チャットを開始できます。

API として使用する

Ollama はローカルのポート 11434 で API サーバーを稼働させます。

# サーバーの起動 (インストール時に自動実行されます)
ollama serve

# チャット補完 (OpenAI 互換)
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3:8b",
    "messages": [
      {"role": "user", "content": "2つのソート済みリストをマージする Python 関数を書いてください"}
    ]
  }'

Python で使用する

# OpenAI Python ライブラリを使用 (Ollama は OpenAI 互換)
from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama"  # 任意の文字列で動作します
)

response = client.chat.completions.create(
    model="qwen3:8b",
    messages=[
        {"role": "system", "content": "あなたは優秀なコーディングアシスタントです。"},
        {"role": "user", "content": "Python における async と threading の違いを説明してください"}
    ]
)

print(response.choices[0].message.content)

コードエディタと接続する

Ollama は AI コードエディタと統合可能です。

Cursor:

Settings > Models を開く。
OpenAI-compatible model を追加。
Base URL を http://localhost:11434/v1 に設定。
Model Name を qwen3:8b に設定。

Continue.dev (VS Code):

// ~/.continue/config.json
{
  "models": [
    {
      "title": "Qwen 3 8B (Local)",
      "provider": "ollama",
      "model": "qwen3:8b"
    }
  ]
}

Claude Code:

# カスタムプロバイダーとして使用 (実験的)
export CLAUDE_MODEL="qwen3:8b"
export ANTHROPIC_BASE_URL="http://localhost:11434/v1"

方法 2: llama.cpp (最大パフォーマンス)

最大限の制御とパフォーマンスが必要な場合は、llama.cpp を直接使用します。CPU、CUDA、Metal、Vulkan アクセラレーションをサポートしています。

llama.cpp のインストール

# クローンとビルド
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp

# CUDA (NVIDIA GPU) でビルド
cmake -B build -DGGML_CUDA=ON
cmake --build build --config Release -j

# Metal (Apple Silicon) でビルド
cmake -B build -DGGML_METAL=ON
cmake --build build --config Release -j

# CPU のみでビルド
cmake -B build
cmake --build build --config Release -j

GGUF モデルのダウンロード

GGUF は llama.cpp に最適化されたモデル形式です。Hugging Face からダウンロードします。

# huggingface-cli のインストール
pip install huggingface_hub

# Qwen 3 8B (Q4_K_M 量子化) のダウンロード
huggingface-cli download Qwen/Qwen3-8B-GGUF \
  qwen3-8b-q4_k_m.gguf \
  --local-dir ./models/

モデルの実行

# 対話型チャット
./build/bin/llama-cli \
  -m models/qwen3-8b-q4_k_m.gguf \
  -ngl 99 \
  --chat-template chatml \
  -c 8192 \
  -cnv

# API サーバーの起動
./build/bin/llama-server \
  -m models/qwen3-8b-q4_k_m.gguf \
  -ngl 99 \
  -c 8192 \
  --host 0.0.0.0 \
  --port 8080

フラグ	説明
`-m`	GGUF モデルファイルへのパス
`-ngl 99`	すべてのレイヤーを GPU にオフロード
`-c 8192`	コンテキスト長 (RAM/VRAM に合わせて調整)
`-cnv`	会話モードを有効化
`--chat-template chatml`	ChatML テンプレート (Qwen 形式) を使用
`-t 8`	CPU スレッド数

量子化の比較

量子化	サイズ (8B モデル)	品質	速度	VRAM
Q2_K	~3 GB	低	最速	最小
Q4_K_M	~5 GB	良	高速	低
Q5_K_M	~6 GB	優	中	中
Q6_K	~7 GB	秀	中	中
Q8_0	~9 GB	ほぼ完璧	低速	多
FP16	~16 GB	完璧	最鈍	最大

推奨: ほとんどのユーザーにとって、品質とパフォーマンスのバランスが最も良いのは Q4_K_M です。VRAM に余裕がある場合は Q6_K や Q8_0 を使用してください。

方法 3: vLLM (プロダクション向けサービング)

バッチ処理や Paged Attention を備えた、高スループットなプロダクション環境でのサービングには vLLM を使用します。

# vLLM のインストール
pip install vllm

# Qwen 3 8B のサービング
vllm serve Qwen/Qwen3-8B \
  --dtype auto \
  --max-model-len 8192 \
  --gpu-memory-utilization 0.9

# MoE モデルのサービング
vllm serve Qwen/Qwen3-30B-A3B \
  --dtype auto \
  --max-model-len 8192 \
  --trust-remote-code

vLLM はポート 8000 で OpenAI 互換の API を提供します。

from openai import OpenAI

client = OpenAI(base_url="http://localhost:8000/v1", api_key="token")

response = client.chat.completions.create(
    model="Qwen/Qwen3-8B",
    messages=[{"role": "user", "content": "こんにちは！"}]
)

ハードウェア要件

NVIDIA GPU

GPU	VRAM	最適な Qwen 3 モデル
RTX 3060	12 GB	8B (Q4) または 30B-A3B (Q4)
RTX 3090	24 GB	14B (Q8) または 32B (Q4)
RTX 4070 Ti	12 GB	8B (Q4) または 30B-A3B (Q4)
RTX 4080	16 GB	14B (Q4) または 8B (Q8)
RTX 4090	24 GB	32B (Q4) または 14B (FP16)
RTX 5090	32 GB	32B (Q6)
A100	80 GB	235B-A22B (Q4)

Apple Silicon (Mac)

Mac	RAM	最適な Qwen 3 モデル
M1/M2 (8 GB)	8 GB	4B (Q4) または 0.6B
M1/M2 (16 GB)	16 GB	8B (Q4) または 30B-A3B (Q4)
M1/M2 Pro (32 GB)	32 GB	14B (Q6) または 32B (Q4)
M1/M2 Max (64 GB)	64 GB	32B (Q8)
M1/M2 Ultra (128 GB)	128 GB	235B-A22B (Q4)
M3/M4 系列	上記と同じ	同様、若干高速

Apple Silicon はユニファイドメモリを使用するため、すべてのシステム RAM をモデルに使用できます。これにより、大容量 RAM を搭載した Mac は LLM 実行において驚異的な能力を発揮します。

パフォーマンス最適化のヒント

1. 適切なコンテキスト長を使用する

コンテキストが長いほどメモリを消費し、推論が遅くなります。必要に応じた長さを設定してください。

# 単純な Q&A 用 (短いコンテキストで十分)
ollama run qwen3:8b --ctx-size 4096

# コード解析用 (より長いコンテキストが必要)
ollama run qwen3:8b --ctx-size 16384

# 長いドキュメント用 (最大コンテキスト)
ollama run qwen3:8b --ctx-size 32768

2. Flash Attention を有効にする

Flash Attention はメモリ使用量を抑え、推論を高速化します。

# Ollama はこれを自動で有効にします

# llama.cpp: -fa フラグを追加
./build/bin/llama-server -m model.gguf -ngl 99 -fa

3. KV キャッシュ量子化を使用する

長いコンテキスト実行時のメモリ使用量を削減します。

# llama.cpp: KV キャッシュを量子化
./build/bin/llama-server \
  -m model.gguf \
  -ngl 99 \
  --cache-type-k q4_0 \
  --cache-type-v q4_0

4. まずは MoE モデルを試す

ハードウェアに不安がある場合は、Qwen3-30B-A3B から始めてください。8B モデルと同じハードウェアで動作しながら、14〜32B モデルに近い性能を発揮します。

ollama run qwen3:30b-a3b

Qwen 3 Thinking Mode (思考モード)

Qwen 3 は、OpenAI の o1 モデルのように、回答の前にステップバイステップで思考する「Thinking Mode」をサポートしています。

# Ollama での思考モードの有効化
ollama run qwen3:8b

> /set parameter num_ctx 8192
> Think step by step: 公正なサイコロを4回振って、少なくとも1回 6 が出る確率は？

プログラムから思考モードを切り替える場合：

# 例：プロンプトで明示的に指示する
response = client.chat.completions.create(
    model="qwen3:8b",
    messages=[
        {
            "role": "user",
            "content": "Think step by step: 次の最適化問題を解いてください..."
        }
    ],
    extra_body={
        "enable_thinking": True
    }
)

思考モードは数学、論理、複雑な推論タスクでより良い結果を出しますが、トークン消費量が増え、回答までに時間がかかります。

よくある質問 (FAQ)

どの Qwen 3 モデルから始めるべきですか？ ほとんどのユーザーには Qwen3-8B (Q4_K_M 量子化) が適しています。VRAM が 8 GB 未満の場合は、1トークンあたり 30億パラメータのみをアクティブにする Qwen3-30B-A3B を試してください。

Qwen 3 は Llama 3 と比べてどうですか？ Qwen 3 は、多くのベンチマークにおいて Meta の Llama 3.3 70B に匹敵、あるいはそれを上回る性能を見せています。特に多言語タスク、コーディング、数学に強みがあります。また、MoE バリアントは計算効率（品質あたりの FLOPs）に優れています。

ローカルで Qwen 3 を微調整（ファインチューニング）できますか？ はい。Unsloth、Axolotl、LLaMA-Factory などのツールを使用して LoRA 微調整が可能です。8B モデルであれば、QLoRA を用いることで 16 GB VRAM の GPU 1枚で微調整できます。

Qwen 3 に検閲はありますか？ Qwen 3 にはセーフティアライメントが適用されていますが、商用モデルほど制限は厳しくありません。オープンソースであるため、コミュニティによって無検閲（Uncensored）版も作成される可能性がありますが、倫理的な利用には注意が必要です。

Qwen 3 は Function Calling（ツール利用）をサポートしていますか？ はい。Qwen 3 は OpenAI 形式の構造化されたツール利用に対応しています。これは Ollama や vLLM の両方で動作します。

Qwen 3 を商用利用できますか？ はい。Qwen 3 は Apache 2.0 ライセンスで公開されており、制限なしで商用利用が可能です。

まとめ

Qwen 3 をローカルで実行することで、継続的なコストをかけず、完全なプライバシーを保ちながらフロンティアクラスの AI モデルを利用できます。Ollama の手軽さ、MoE バリアントの効率性、そしてコーディングや数学、一般タスクにおける高い性能を兼ね備えた Qwen 3 は、2026年においてローカル実行するのに最適なオープンソースモデルの一つです。

まずは ollama run qwen3:8b から始め、必要に応じて MoE バリアントを試し、ハードウェアが許す限りより大きなモデルへとスケールアップしてみてください。

もし、ローカル LLM の機能に加えて、AI 生成の画像、動画、アバターが必要なプロジェクトであれば、Hypereal AI を無料でお試しください（クレジットカード不要）。ローカルの消費者向けハードウェアでは困難なメディア生成を強力にサポートします。