Ollama を使用して Qwen 3 VL をローカルで実行する方法 (2026年版)
Alibabaのvision-languageモデルを独自のハードウェアで実行する
Hyperealで構築を始めよう
Kling、Flux、Sora、Veoなどに単一のAPIでアクセス。無料クレジットで開始、数百万規模まで拡張可能。
クレジットカード不要 • 10万人以上の開発者 • エンタープライズ対応
Qwen 3 VL を Ollama でローカル実行する方法 (2026年版)
Qwen 3 VL は、テキストと画像の両方を理解できる Alibaba の最新ビジョン言語モデルです。これを Ollama を使用してローカルで実行することで、API コストなし、データ流出の心配なし、レート制限なしで、自身のハードウェア上で強力なマルチモーダル AI を利用できます。このガイドでは、インストールから実用的な使い方まで、完全なセットアッププロセスを解説します。
Qwen 3 VL とは?
Qwen 3 VL (Vision-Language) は、Alibaba Cloud の Qwen 3 モデルファミリーのマルチモーダル版です。テキストと画像の両方を処理できるため、以下のようなことが可能です:
- 画像の説明と分析
- スクリーンショットやドキュメントからのテキスト抽出 (OCR)
- 視覚的コンテンツに関する質問への回答
- チャート、図表、UI モックアップの理解
- 手書き文字の読み取り
- 複数の画像の比較
- 視覚的入力からの構造化データの生成
モデルバリアントと VRAM 要件
| モデル | パラメータ数 | 必要 VRAM (FP16) | 必要 VRAM (Q4_K_M) | 推奨 GPU |
|---|---|---|---|---|
| Qwen3-VL-2B | 20億 | ~5 GB | ~2.5 GB | 4GB 以上の GPU |
| Qwen3-VL-8B | 80億 | ~17 GB | ~6 GB | RTX 3060 12GB 以上 |
| Qwen3-VL-32B | 320億 | ~65 GB | ~20 GB | RTX 4090 24GB または デュアル GPU |
| Qwen3-VL-72B | 720億 | ~145 GB | ~42 GB | マルチ GPU / クラウド専用 |
ほとんどのユーザーにとって、8B Q4 量子化バージョンが品質とハードウェア要件のバランスが最も優れています。
ステップ 1: Ollama のインストール
Ollama がまだインストールされていない場合は、公式サイトからダウンロードしてください。
macOS:
# ウェブサイトからダウンロードしてインストール
# または Homebrew を使用:
brew install ollama
Linux:
curl -fsSL https://ollama.com/install.sh | sh
Windows:
ollama.com/download からインストーラーをダウンロードして実行します。
インストールの確認:
ollama --version
# 出力: ollama version 0.6.x (またはそれ以降)
Ollama サーバーを起動します(バックグラウンドサービスとして動作しますが、手動で開始することも可能です):
ollama serve
ステップ 2: Qwen 3 VL モデルのプル
ハードウェアに適したモデルサイズを選択してください。ほとんどの環境では 8B モデルが推奨されます。
# 推奨: 8B パラメータモデル (品質と性能のバランスが最高)
ollama pull qwen3-vl:8b
# 軽量: 2B モデル (ほぼすべてのハードウェアで動作)
ollama pull qwen3-vl:2b
# 高品質: 32B モデル (24GB 以上の VRAM が必要)
ollama pull qwen3-vl:32b
ダウンロードサイズはモデルによって異なります:
| モデル | ダウンロードサイズ | ディスク容量 |
|---|---|---|
| qwen3-vl:2b | ~1.5 GB | ~2 GB |
| qwen3-vl:8b | ~5 GB | ~6 GB |
| qwen3-vl:32b | ~19 GB | ~22 GB |
ターミナルでダウンロードの進捗を確認してください。大きなモデルはインターネット接続環境によって数分かかる場合があります。
ステップ 3: 最初のクエリを実行する
テキストのみのクエリ
シンプルなテキストプロンプトでモデルが動作するかテストします:
ollama run qwen3-vl:8b "日本の首都はどこですか?"
画像分析
画像を分析するには、マルチモーダル入力形式を使用します:
# ローカルの画像ファイルを分析
ollama run qwen3-vl:8b "この画像を詳しく説明してください" --images ./photo.jpg
# スクリーンショットを分析
ollama run qwen3-vl:8b "このスクリーンショットにはどのようなテキストがありますか?" --images ./screenshot.png
インタラクティブモード
対話型チャットセッションを開始します:
ollama run qwen3-vl:8b
プロンプトでメッセージを入力します:
>>> この画像に何が写っているか説明してください /path/to/image.jpg
>>> このコードのスクリーンショットに映っているプログラミング言語は何ですか? /path/to/code.png
>>> /bye
ステップ 4: API を使用する
Ollama はデフォルトでポート 11434 で REST API を公開しており、アプリケーションへの統合が容易です。
基本的な API 呼び出し (テキスト)
curl http://localhost:11434/api/chat -d '{
"model": "qwen3-vl:8b",
"messages": [
{
"role": "user",
"content": "機械学習について3文で説明してください。"
}
],
"stream": false
}'
画像を含む API 呼び出し
画像分析を行う場合は、画像を base64 でエンコードします:
import base64
import requests
# 画像を読み込んでエンコード
with open("screenshot.png", "rb") as f:
image_base64 = base64.b64encode(f.read()).decode("utf-8")
# Ollama API へ送信
