Ollamaの使い方:完全初心者ガイド(2026年版)
お手元のマシン上で、強力なLLMをローカルに実行する
Hyperealで構築を始めよう
Kling、Flux、Sora、Veoなどに単一のAPIでアクセス。無料クレジットで開始、数百万規模まで拡張可能。
クレジットカード不要 • 10万人以上の開発者 • エンタープライズ対応
Ollama 活用術:完全初心者ガイド (2026年版)
Ollama は、大規模言語モデル(LLM)をローカル環境で実行するための事実上の標準となりました。クラウド API にデータを送信せず、トークンごとの料金を支払わず、レート制限に悩まされることもなく、自身のハードウェアで AI モデルを使用したいのであれば、Ollama は最適なツールです。オープンソース LLM のダウンロード、管理、実行のプロセスを、わずか数行のターミナルコマンドに簡略化してくれます。
このガイドでは、インストールからモデル管理、API 連携、カスタマイズ、パフォーマンスの最適化といった高度な使用法まで、すべてを網羅します。
Ollama とは?
Ollama は、macOS、Linux、Windows 上で大規模言語モデルを簡単にローカル実行できるオープンソースツールです。モデルのダウンロード、量子化、GPU 加速を処理し、OpenAI API フォーマットと互換性のあるシンプルな API を提供します。つまり、既存のほとんどの AI アプリケーションにおいて、最小限のコード変更で Ollama に差し替えることが可能です。
いわば「LLM 版の Docker」と言えるでしょう。モデルを pull して run し、クリーンなコマンドラインインターフェースや HTTP API を通じてやり取りするだけです。
システム要件
インストールする前に、システムが最小要件を満たしているか確認してください。
| コンポーネント | 最小構成 | 推奨構成 |
|---|---|---|
| RAM | 8 GB | 16 GB 以上 |
| ストレージ | 空き容量 10 GB | 空き容量 50 GB 以上(モデルは大容量です) |
| GPU (オプション) | 4 GB 以上の VRAM を搭載した NVIDIA GPU | NVIDIA RTX 3060 以上 (12 GB VRAM) または Apple Silicon |
| OS | macOS 12+, Ubuntu 20.04+, Windows 10+ | 最新の安定版 OS |
GPU がない場合、Ollama は CPU で動作しますが、推論速度は大幅に遅くなります。
ステップ 1: Ollama のインストール
macOS
# オプション 1: 公式サイトからダウンロード
# https://ollama.com にアクセスし、macOS 用インストーラーをダウンロード
# オプション 2: Homebrew を使用
brew install ollama
Linux
curl -fsSL https://ollama.com/install.sh | sh
Windows
ollama.com からインストーラーをダウンロードして実行します。Windows では、Ollama はシステムサービスとして動作します。
インストールの確認
ollama --version
# 出力例: ollama version 0.5.x
ステップ 2: 初めてのモデルの Pull と Run
Ollama は Docker ライクな pull/run ワークフローを採用しています。
# モデルを Pull する(マシンにダウンロード)
ollama pull llama3.2
# モデルを対話型で実行する
ollama run llama3.2
これで対話型のチャットセッションが始まります。メッセージを入力して Enter キーを押すとレスポンスが返ってきます。/bye と入力すると終了します。
おすすめのスターターモデル
人気のモデルとそのリソース要件の比較です:
| モデル | パラメータ数 | 必要 RAM | 必要 VRAM | 最適な用途 |
|---|---|---|---|---|
| llama3.2:3b | 3B | 4 GB | 3 GB | 軽いタスク、低スペックマシン |
| llama3.2 | 8B | 8 GB | 6 GB | 汎用、バランス良好 |
| llama3.1:70b | 70B | 48 GB | 40 GB | 複雑な推論、ハイエンド環境 |
| mistral | 7B | 8 GB | 5 GB | 高速、指示への追従性が高い |
| gemma2:9b | 9B | 8 GB | 6 GB | Google のオープンモデル、高い推論能力 |
| codellama | 7B | 8 GB | 5 GB | コード生成および解析 |
| deepseek-coder-v2 | 16B | 12 GB | 10 GB | 高度なコーディングタスク |
| phi3:mini | 3.8B | 4 GB | 3 GB | サイズの割に驚くほど有能 |
| qwen2.5:7b | 7B | 8 GB | 5 GB | 多言語対応、強力なコーディング |
各モデルを pull するには:
ollama pull mistral
ollama pull codellama
ollama pull gemma2:9b
ステップ 3: モデルの管理
ダウンロード済みモデルのリスト表示
ollama list
出力:
NAME ID SIZE MODIFIED
llama3.2:latest a80c4f17acd5 4.7 GB 2 minutes ago
mistral:latest 2ae6f6dd7a3d 4.1 GB 5 minutes ago
codellama:latest 8fdf8f752f6e 3.8 GB 10 minutes ago
モデルの削除
ollama rm codellama
モデル情報の詳細表示
ollama show llama3.2
モデルのコピー/リネーム
ollama cp llama3.2 my-custom-llama
ステップ 4: Ollama API の利用
Ollama はデフォルトで localhost:11434 上で HTTP サーバーを実行します。API は OpenAI フォーマットと互換性があるため、統合が容易です。
基本的な API コール
curl http://localhost:11434/api/generate -d '{
"model": "llama3.2",
"prompt": "REST と GraphQL の違いを 3 文で説明してください。",
"stream": false
}'
チャット API (マルチターン)
curl http://localhost:11434/api/chat -d '{
"model": "llama3.2",
"messages": [
{"role": "system", "content": "あなたは優秀なコーディングアシスタントです。"},
{"role": "user", "content": "メールアドレスをバリデーションする Python 関数を書いてください。"}
],
"stream": false
}'
Python での使用例
import requests
response = requests.post("http://localhost:11434/api/generate", json={
"model": "llama3.2",
"prompt": "PostgreSQL データベースをバックアップする bash スクリプトを書いてください。",
"stream": False
})
print(response.json()["response"])
OpenAI Python SDK での使用例
Ollama の API は OpenAI 互換のため、公式の OpenAI SDK が使用可能です。
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:11434/v1",
api_key="ollama" # 任意の文字列で動作します
)
response = client.chat.completions.create(
model="llama3.2",
messages=[
{"role": "system", "content": "あなたはシニア Python デベロッパーです。"},
{"role": "user", "content": "Python でスレッドセーフなシングルトンパターンを書いてください。"}
]
)
print(response.choices[0].message.content)
ステップ 5: Modelfile によるカスタムモデルの作成
Ollama では、Modelfile(Dockerfile に類似)を使用してカスタムモデル構成を作成できます。
# Modelfile として保存
FROM llama3.2
# システムプロンプトを設定
SYSTEM """
あなたは TypeScript, React, Node.js を専門とするシニアフルスタックエンジニアです。
常にエラーハンドリングと TypeScript の型を備えた、プロダクションレベルのコードを提供してください。
設計の決定について尋ねられた際は、トレードオフを説明してください。
"""
# パラメータの調整
PARAMETER temperature 0.3
PARAMETER top_p 0.9
PARAMETER num_ctx 8192
カスタムモデルのビルドと実行:
ollama create my-dev-assistant -f Modelfile
ollama run my-dev-assistant
ステップ 6: GPU 加速
NVIDIA GPU
CUDA ドライバがインストールされていれば、Ollama は自動的に NVIDIA GPU を検出します。
# GPU が使用されているか確認
ollama ps
Apple Silicon (M1/M2/M3/M4)
Apple Silicon では自動的に Metal 加速が使用されます。追加の設定は不要です。ユニファイドメモリを搭載した Apple Silicon Mac は、GPU がシステム RAM 全体にアクセスできるため、LLM の実行に非常に適しています。
GPU と CPU へのモデル分散
GPU の VRAM に対してモデルが大きすぎる場合、Ollama は自動的にモデルを GPU と CPU に分割して処理します。
# GPU レイヤー数を手動で設定
OLLAMA_NUM_GPU=20 ollama run llama3.1:70b
パフォーマンス向上のヒント
1. 量子化モデルの使用
量子化されたモデルは、メモリ使用量が少なく、品質の低下を最小限に抑えつつ高速に動作します。
# Q4 量子化 (速度と品質のバランスが良い)
ollama pull llama3.2:8b-instruct-q4_K_M
# Q8 量子化 (高品質だがメモリ消費が多い)
ollama pull llama3.2:8b-instruct-q8_0
2. コンテキストウィンドウの拡張
# 環境変数でコンテキストウィンドウを設定
OLLAMA_NUM_CTX=16384 ollama run llama3.2
3. モデルのロード状態を維持
デフォルトでは、Ollama は 5 分間操作がないとモデルをアンロードします。これを変更するには:
# モデルを無期限にロードし続ける
OLLAMA_KEEP_ALIVE=-1 ollama serve
4. 複数のモデルを並行実行
十分な RAM があれば、複数のモデルを同時に提供できます。
# 別のターミナルでそれぞれ実行
ollama run llama3.2 # 一般的なタスク用
ollama run codellama # コーディングタスク用
よくある質問と解決策
| 問題 | 解決策 |
|---|---|
| "model not found" | 最初に ollama pull モデル名 を実行してください |
| GPU での推論が遅い | GPU ドライバを更新し、ollama ps で GPU の使用状況を確認してください |
| メモリ不足 (Out of memory) | より小さいモデル、または量子化バリアントを使用してください |
| ポート 11434 が既に使用中 | 既存の Ollama インスタンスを停止してください: ollama stop |
| モデルのダウンロードが遅い | 接続環境を確認してください。Ollama の CDN が混雑している場合があります |
結論
Ollama は、Docker コンテナを pull して run するのと同じくらい簡単に、LLM のローカル実行を可能にします。プライバシーを重視する場合、API コストを抑えたい場合、あるいは単にオープンソースモデルを試したい場合、Ollama は 2026 年において最も手軽で強力な選択肢です。
ローカル AI 推論と高品質なメディア生成の両方を必要とするプロジェクトでは、Ollama と Hypereal AI の併用を検討してください。テキスト生成にはプライベートかつコストフリーな Ollama を使い、画像、動画、AI アバター、音声コンテンツの生成には Hypereal AI の手頃な API を活用することで、予算を抑えつつ完璧な AI ツールキットを構築できます。
