Ollama を使用して GPT-OSS を実行する方法 (2026年版)
わずか数回のターミナルコマンドで、オープンソースのGPTモデルをローカル環境で実行する
Hyperealで構築を始めよう
Kling、Flux、Sora、Veoなどに単一のAPIでアクセス。無料クレジットで開始、数百万規模まで拡張可能。
クレジットカード不要 • 10万人以上の開発者 • エンタープライズ対応
Ollama を使用して GPT-OSS を実行する方法 (2026年版)
OpenAI は GPT-OSS イニシアチブの下でオープンソースのモデル重みを公開しました。これにより、OpenAI のサーバーにデータを送信することなく、自身のハードウェア上で GPT クラスのモデルを実行することが可能になりました。Ollama は、これらのモデルをローカルで実行するための最も簡単な方法です。このガイドでは、インストールから API 連携まで、セットアップの全工程を解説します。
GPT-OSS とは?
GPT-OSS は、OpenAI がコミュニティ向けにリリースしたオープンウェイトの GPT モデルファミリーを指します。これらのモデルは寛容なライセンスで提供されており、自由にダウンロード、改変、デプロイが可能です。オープンソース版のリリースには以下が含まれます:
| モデル | パラメータ数 | コンテキストウィンドウ | 必要 VRAM | 最適な用途 |
|---|---|---|---|---|
| GPT-OSS Small | 7B | 32K | 6 GB | 高速推論、エッジデバイス |
| GPT-OSS Medium | 30B | 64K | 20 GB | 品質と速度のバランス |
| GPT-OSS Large | 70B | 128K | 48 GB | 最高品質、サーバーデプロイ |
これらは GPT-4o や GPT-5 と同一ではありません。OpenAI のフラッグシップ製品のアーキテクチャ設計を継承しつつも、ローカルおよびセルフホストでのデプロイ向けに特化して構築されたオープンモデルです。
なぜ GPT-OSS に Ollama を使うのか?
GPT-OSS モデルは、生の transformers、vLLM、または llama.cpp を直接使用して実行することもできますが、Ollama はそのプロセスを劇的に簡略化します:
- コマンド一つでモデルのダウンロードとセットアップ -- 手動の重み変換は不要です
- 自動量子化 -- より少ない VRAM で大きなモデルを実行できます
- OpenAI 互換 API -- ベース URL を変更するだけで、既存のアプリケーションに組み込めます
- GPU 自動検出 -- NVIDIA CUDA、AMD ROCm、Apple Metal を自動的にサポートします
- モデル管理 -- モデルのリスト表示、プル、削除、カスタマイズが容易です
前提条件
開始する前に、システムが準備できているか確認してください:
| 要件 | 詳細 |
|---|---|
| OS | macOS 12+、Linux (Ubuntu 20.04+)、Windows 10+ |
| RAM | 最低 8 GB(16 GB 以上を推奨) |
| ストレージ | 10 GB 以上の空き容量(モデルは 4〜40 GB の範囲) |
| GPU (任意) | 6 GB 以上の VRAM を搭載した NVIDIA GPU または Apple Silicon |
| インターネット | 初回のモデルダウンロードに必要 |
ステップ 1: Ollama のインストール
macOS
# 公式スクリプト経由でダウンロードしインストール
curl -fsSL https://ollama.com/install.sh | sh
# または Homebrew 経由でインストール
brew install ollama
Linux
curl -fsSL https://ollama.com/install.sh | sh
Windows
ollama.com/download からインストーラーをダウンロードするか、winget を使用します:
winget install Ollama.Ollama
インストールの確認:
ollama --version
# ollama version 0.6.x のように出力されます
ステップ 2: GPT-OSS モデルのプル
Ollama のモデルライブラリには GPT-OSS モデルが含まれています。ハードウェアに適合するものをプルしてください:
# 7B モデルをプル(最小で、ほとんどのハードウェアで動作)
ollama pull gpt-oss:7b
# 30B モデルをプル(20 GB 以上の VRAM または CPU 用の 32 GB RAM が必要)
ollama pull gpt-oss:30b
# VRAM 節約のために量子化バージョンをプル
ollama pull gpt-oss:30b-q4_K_M
ダウンロードは接続速度によりますが数分かかります。モデルはローカルの ~/.ollama/models/ にキャッシュされます。
利用可能な量子化
フルモデルが VRAM に収まらない場合は、量子化バージョンを使用してください:
| 量子化 | サイズ (7B) | サイズ (30B) | 品質への影響 |
|---|---|---|---|
| f16 (フル) | 14 GB | 60 GB | なし |
| q8_0 | 7.5 GB | 32 GB | 最小限 |
| q4_K_M | 4.5 GB | 18 GB | 軽微 |
| q4_0 | 4 GB | 16 GB | 中程度 |
ステップ 3: モデルの実行
インタラクティブなチャットセッションを開始します:
ollama run gpt-oss:7b
メッセージを入力できるプロンプトが表示されます:
>>> REST と GraphQL の主な違いは何ですか?
REST は所定のデータ構造を返す固定エンドポイントを使用しますが、GraphQL
はクライアントが必要なデータを正確に指定できる単一のエンドポイントを公開します...
終了するには Ctrl+D を押すか、/bye と入力します。
ステップ 4: API の使用
Ollama は自動的に localhost:11434 で HTTP サーバーを起動します。任意の HTTP クライアントで使用できます。
cURL を使用する場合
curl http://localhost:11434/api/chat - d '{
"model": "gpt-oss:7b",
"messages": [
{"role": "user", "content": "2つのソートされたリストをマージする Python 関数を書いて。"}
],
"stream": false
}'
OpenAI 互換エンドポイントを使用する場合
Ollama は /v1/ で OpenAI 互換 API を公開しているため、標準の OpenAI SDK を使用できます:
from openai import OpenAI
client = OpenAI(
api_key="ollama", # 任意の文字列で動作します
base_url="http://localhost:11434/v1"
)
response = client.chat.completions.create(
model="gpt-oss:7b",
messages=[
{"role": "system", "content": "あなたは役に立つコーディングアシスタントです。"},
{"role": "user", "content": "型ヒント付きのバイナリサーチ関数を Python で書いて。"}
],
temperature=0.7
)
print(response.choices[0].message.content)
JavaScript/TypeScript を使用する場合
import OpenAI from "openai";
const client = new OpenAI({
apiKey: "ollama",
baseURL: "http://localhost:11434/v1",
});
const response = await client.chat.completions.create({
model: "gpt-oss:7b",
messages: [
{ role: "user", content: "JavaScript のクロージャについて例を挙げて説明して。" },
],
});
console.log(response.choices[0].message.content);
ステップ 5: Modelfile によるモデルのカスタマイズ
Modelfile を使用して、特定のシステムプロンプト、パラメータ、または LoRA アダプタを備えたカスタムバージョンの GPT-OSS を作成できます:
# Modelfile
FROM gpt-oss:7b
SYSTEM "あなたはシニアソフトウェアエンジニアです。エラー処理、型ヒント、docstring を備えたプロダクションレディなコードを常に提供してください。"
PARAMETER temperature 0.3
PARAMETER top_p 0.9
PARAMETER num_ctx 8192
カスタムモデルのビルドと実行:
# カスタムモデルを作成
ollama create gpt-oss-coder -f Modelfile
# 実行
ollama run gpt-oss-coder
ステップ 6: モデルの管理
ローカルモデル管理のための便利なコマンド:
# ダウンロード済みのモデルをすべて表示
ollama list
# モデルの詳細(サイズ、量子化、パラメータ)を表示
ollama show gpt-oss:7b
# ディスク容量を確保するためにモデルを削除
ollama rm gpt-oss:30b
# モデルをコピー(カスタマイズ前のバックアップに便利)
ollama cp gpt-oss:7b gpt-oss-backup:7b
パフォーマンス向上のヒント
GPU 加速
Ollama は GPU を自動検出します。GPU の使用状況を確認するには:
# GPU が使用されているか確認 (NVIDIA)
nvidia-smi
# GPU 検出のための Ollama ログを確認
ollama run gpt-oss:7b --verbose
複数のモデルの実行
Ollama は複数のモデルを同時に提供できます。各リクエストで使用するモデルを指定します:
# 複数のモデルをプル
ollama pull gpt-oss:7b
ollama pull gpt-oss:30b
# API が自動的にルーティングを処理します
curl http://localhost:11434/api/chat -d '{"model": "gpt-oss:7b", "messages": [...]}'
curl http://localhost:11434/api/chat -d '{"model": "gpt-oss:30b", "messages": [...]}'
コンテキスト長の拡張
デフォルトでは、Ollama は 2048 トークンのコンテキストウィンドウを使用します。より長い会話やドキュメントの場合は次のように設定します:
# 実行時にコンテキスト長を設定
ollama run gpt-oss:7b --num-ctx 16384
# または Modelfile に設定
# PARAMETER num_ctx 16384
GPT-OSS と他のオープンモデルの比較
| モデル | パラメータ数 | ライセンス | コーディング | 推論 | 速度 |
|---|---|---|---|---|---|
| GPT-OSS 7B | 7B | Apache 2.0 | 良 | 良 | 高速 |
| Llama 3.3 70B | 70B | Llama License | 優秀 | 優秀 | 低速 |
| Mistral Large | 123B | Apache 2.0 | 非常に良い | 非常に良い | 低速 |
| Qwen 2.5 72B | 72B | Apache 2.0 | 優秀 | 非常に良い | 低速 |
| Gemma 3 27B | 27B | Gemma License | 良 | 良 | 中速 |
| GPT-OSS 30B | 30B | Apache 2.0 | 非常に良い | 非常に良い | 中速 |
トラブルシューティング
「Model not found」エラー
まず ollama pull gpt-oss:7b でモデルをプルしたか確認してください。ollama list で利用可能なモデルを確認できます。
CPU での推論が遅い
GPU がない場合は、最小の量子化モデル ollama pull gpt-oss:7b-q4_0 を使用してください。リアルタイム推論を行うには、GPU を搭載したシステムへのアップグレードを検討してください。
メモリ不足 (Out of memory) エラー
より小さな量子化バージョンに切り替えてください。30B モデルを使用している場合は gpt-oss:30b-q4_0 を試すか、7B バリアントに下げてください。
ポートが既に使用されている ポート 11434 が使用されている場合は、カスタムポートを設定します:
OLLAMA_HOST=0.0.0.0:11435 ollama serve
まとめ
Ollama を使用して GPT-OSS モデルをローカルで実行することで、AI スタックを完全に制御できます。API キーは不要で、レート制限もなく、データがマシン外に出ることもありません。セットアップは10分以内に完了し、OpenAI 互換の API により、ほぼすべての既存アプリケーションに組み込むことができます。
ワークフローに画像、動画、トーキングアバターなどの AI 生成メディアが含まれる場合は、あらゆるタイプの AI メディア生成を処理する統合 API を提供する Hypereal AI をチェックしてみてください。
Hypereal AI を無料で試す -- 35 クレジット付与、クレジットカード不要。
