Ollama を使用して GPT-OSS を実行する方法 (2026年版)

OpenAI は GPT-OSS イニシアチブの下でオープンソースのモデル重みを公開しました。これにより、OpenAI のサーバーにデータを送信することなく、自身のハードウェア上で GPT クラスのモデルを実行することが可能になりました。Ollama は、これらのモデルをローカルで実行するための最も簡単な方法です。このガイドでは、インストールから API 連携まで、セットアップの全工程を解説します。

GPT-OSS とは？

GPT-OSS は、OpenAI がコミュニティ向けにリリースしたオープンウェイトの GPT モデルファミリーを指します。これらのモデルは寛容なライセンスで提供されており、自由にダウンロード、改変、デプロイが可能です。オープンソース版のリリースには以下が含まれます：

モデル	パラメータ数	コンテキストウィンドウ	必要 VRAM	最適な用途
GPT-OSS Small	7B	32K	6 GB	高速推論、エッジデバイス
GPT-OSS Medium	30B	64K	20 GB	品質と速度のバランス
GPT-OSS Large	70B	128K	48 GB	最高品質、サーバーデプロイ

これらは GPT-4o や GPT-5 と同一ではありません。OpenAI のフラッグシップ製品のアーキテクチャ設計を継承しつつも、ローカルおよびセルフホストでのデプロイ向けに特化して構築されたオープンモデルです。

なぜ GPT-OSS に Ollama を使うのか？

GPT-OSS モデルは、生の transformers、vLLM、または llama.cpp を直接使用して実行することもできますが、Ollama はそのプロセスを劇的に簡略化します：

コマンド一つでモデルのダウンロードとセットアップ -- 手動の重み変換は不要です
自動量子化 -- より少ない VRAM で大きなモデルを実行できます
OpenAI 互換 API -- ベース URL を変更するだけで、既存のアプリケーションに組み込めます
GPU 自動検出 -- NVIDIA CUDA、AMD ROCm、Apple Metal を自動的にサポートします
モデル管理 -- モデルのリスト表示、プル、削除、カスタマイズが容易です

前提条件

開始する前に、システムが準備できているか確認してください：

要件	詳細
OS	macOS 12+、Linux (Ubuntu 20.04+)、Windows 10+
RAM	最低 8 GB（16 GB 以上を推奨）
ストレージ	10 GB 以上の空き容量（モデルは 4〜40 GB の範囲）
GPU (任意)	6 GB 以上の VRAM を搭載した NVIDIA GPU または Apple Silicon
インターネット	初回のモデルダウンロードに必要

ステップ 1: Ollama のインストール

macOS

# 公式スクリプト経由でダウンロードしインストール
curl -fsSL https://ollama.com/install.sh | sh

# または Homebrew 経由でインストール
brew install ollama

Linux

curl -fsSL https://ollama.com/install.sh | sh

Windows

ollama.com/download からインストーラーをダウンロードするか、winget を使用します：

winget install Ollama.Ollama

インストールの確認：

ollama --version
# ollama version 0.6.x のように出力されます

ステップ 2: GPT-OSS モデルのプル

Ollama のモデルライブラリには GPT-OSS モデルが含まれています。ハードウェアに適合するものをプルしてください：

# 7B モデルをプル（最小で、ほとんどのハードウェアで動作）
ollama pull gpt-oss:7b

# 30B モデルをプル（20 GB 以上の VRAM または CPU 用の 32 GB RAM が必要）
ollama pull gpt-oss:30b

# VRAM 節約のために量子化バージョンをプル
ollama pull gpt-oss:30b-q4_K_M

ダウンロードは接続速度によりますが数分かかります。モデルはローカルの ~/.ollama/models/ にキャッシュされます。

利用可能な量子化

フルモデルが VRAM に収まらない場合は、量子化バージョンを使用してください：

量子化	サイズ (7B)	サイズ (30B)	品質への影響
f16 (フル)	14 GB	60 GB	なし
q8_0	7.5 GB	32 GB	最小限
q4_K_M	4.5 GB	18 GB	軽微
q4_0	4 GB	16 GB	中程度

ステップ 3: モデルの実行

インタラクティブなチャットセッションを開始します：

ollama run gpt-oss:7b

メッセージを入力できるプロンプトが表示されます：

>>> REST と GraphQL の主な違いは何ですか？

REST は所定のデータ構造を返す固定エンドポイントを使用しますが、GraphQL 
はクライアントが必要なデータを正確に指定できる単一のエンドポイントを公開します...

終了するには Ctrl+D を押すか、/bye と入力します。

ステップ 4: API の使用

Ollama は自動的に localhost:11434 で HTTP サーバーを起動します。任意の HTTP クライアントで使用できます。

cURL を使用する場合

curl http://localhost:11434/api/chat - d '{
  "model": "gpt-oss:7b",
  "messages": [
    {"role": "user", "content": "2つのソートされたリストをマージする Python 関数を書いて。"}
  ],
  "stream": false
}'

OpenAI 互換エンドポイントを使用する場合

Ollama は /v1/ で OpenAI 互換 API を公開しているため、標準の OpenAI SDK を使用できます：

from openai import OpenAI

client = OpenAI(
    api_key="ollama",  # 任意の文字列で動作します
    base_url="http://localhost:11434/v1"
)

response = client.chat.completions.create(
    model="gpt-oss:7b",
    messages=[
        {"role": "system", "content": "あなたは役に立つコーディングアシスタントです。"},
        {"role": "user", "content": "型ヒント付きのバイナリサーチ関数を Python で書いて。"}
    ],
    temperature=0.7
)

print(response.choices[0].message.content)

JavaScript/TypeScript を使用する場合

import OpenAI from "openai";

const client = new OpenAI({
  apiKey: "ollama",
  baseURL: "http://localhost:11434/v1",
});

const response = await client.chat.completions.create({
  model: "gpt-oss:7b",
  messages: [
    { role: "user", content: "JavaScript のクロージャについて例を挙げて説明して。" },
  ],
});

console.log(response.choices[0].message.content);

ステップ 5: Modelfile によるモデルのカスタマイズ

Modelfile を使用して、特定のシステムプロンプト、パラメータ、または LoRA アダプタを備えたカスタムバージョンの GPT-OSS を作成できます：

# Modelfile
FROM gpt-oss:7b

SYSTEM "あなたはシニアソフトウェアエンジニアです。エラー処理、型ヒント、docstring を備えたプロダクションレディなコードを常に提供してください。"

PARAMETER temperature 0.3
PARAMETER top_p 0.9
PARAMETER num_ctx 8192

カスタムモデルのビルドと実行：

# カスタムモデルを作成
ollama create gpt-oss-coder -f Modelfile

# 実行
ollama run gpt-oss-coder

ステップ 6: モデルの管理

ローカルモデル管理のための便利なコマンド：

# ダウンロード済みのモデルをすべて表示
ollama list

# モデルの詳細（サイズ、量子化、パラメータ）を表示
ollama show gpt-oss:7b

# ディスク容量を確保するためにモデルを削除
ollama rm gpt-oss:30b

# モデルをコピー（カスタマイズ前のバックアップに便利）
ollama cp gpt-oss:7b gpt-oss-backup:7b

パフォーマンス向上のヒント

GPU 加速

Ollama は GPU を自動検出します。GPU の使用状況を確認するには：

# GPU が使用されているか確認 (NVIDIA)
nvidia-smi

# GPU 検出のための Ollama ログを確認
ollama run gpt-oss:7b --verbose

複数のモデルの実行

Ollama は複数のモデルを同時に提供できます。各リクエストで使用するモデルを指定します：

# 複数のモデルをプル
ollama pull gpt-oss:7b
ollama pull gpt-oss:30b

# API が自動的にルーティングを処理します
curl http://localhost:11434/api/chat -d '{"model": "gpt-oss:7b", "messages": [...]}'
curl http://localhost:11434/api/chat -d '{"model": "gpt-oss:30b", "messages": [...]}'

コンテキスト長の拡張

デフォルトでは、Ollama は 2048 トークンのコンテキストウィンドウを使用します。より長い会話やドキュメントの場合は次のように設定します：

# 実行時にコンテキスト長を設定
ollama run gpt-oss:7b --num-ctx 16384

# または Modelfile に設定
# PARAMETER num_ctx 16384

GPT-OSS と他のオープンモデルの比較

モデル	パラメータ数	ライセンス	コーディング	推論	速度
GPT-OSS 7B	7B	Apache 2.0	良	良	高速
Llama 3.3 70B	70B	Llama License	優秀	優秀	低速
Mistral Large	123B	Apache 2.0	非常に良い	非常に良い	低速
Qwen 2.5 72B	72B	Apache 2.0	優秀	非常に良い	低速
Gemma 3 27B	27B	Gemma License	良	良	中速
GPT-OSS 30B	30B	Apache 2.0	非常に良い	非常に良い	中速

トラブルシューティング

「Model not found」エラー まず ollama pull gpt-oss:7b でモデルをプルしたか確認してください。ollama list で利用可能なモデルを確認できます。

CPU での推論が遅い GPU がない場合は、最小の量子化モデル ollama pull gpt-oss:7b-q4_0 を使用してください。リアルタイム推論を行うには、GPU を搭載したシステムへのアップグレードを検討してください。

メモリ不足 (Out of memory) エラー より小さな量子化バージョンに切り替えてください。30B モデルを使用している場合は gpt-oss:30b-q4_0 を試すか、7B バリアントに下げてください。

ポートが既に使用されている ポート 11434 が使用されている場合は、カスタムポートを設定します：

OLLAMA_HOST=0.0.0.0:11435 ollama serve

まとめ

Ollama を使用して GPT-OSS モデルをローカルで実行することで、AI スタックを完全に制御できます。API キーは不要で、レート制限もなく、データがマシン外に出ることもありません。セットアップは10分以内に完了し、OpenAI 互換の API により、ほぼすべての既存アプリケーションに組み込むことができます。

ワークフローに画像、動画、トーキングアバターなどの AI 生成メディアが含まれる場合は、あらゆるタイプの AI メディア生成を処理する統合 API を提供する Hypereal AI をチェックしてみてください。

Hypereal AI を無料で試す -- 35 クレジット付与、クレジットカード不要。