Ollamaの使い方：完全初心者ガイド（2026年版）

Ollama 活用術：完全初心者ガイド (2026年版)

Ollama は、大規模言語モデル（LLM）をローカル環境で実行するための事実上の標準となりました。クラウド API にデータを送信せず、トークンごとの料金を支払わず、レート制限に悩まされることもなく、自身のハードウェアで AI モデルを使用したいのであれば、Ollama は最適なツールです。オープンソース LLM のダウンロード、管理、実行のプロセスを、わずか数行のターミナルコマンドに簡略化してくれます。

このガイドでは、インストールからモデル管理、API 連携、カスタマイズ、パフォーマンスの最適化といった高度な使用法まで、すべてを網羅します。

Ollama とは？

Ollama は、macOS、Linux、Windows 上で大規模言語モデルを簡単にローカル実行できるオープンソースツールです。モデルのダウンロード、量子化、GPU 加速を処理し、OpenAI API フォーマットと互換性のあるシンプルな API を提供します。つまり、既存のほとんどの AI アプリケーションにおいて、最小限のコード変更で Ollama に差し替えることが可能です。

いわば「LLM 版の Docker」と言えるでしょう。モデルを pull して run し、クリーンなコマンドラインインターフェースや HTTP API を通じてやり取りするだけです。

システム要件

インストールする前に、システムが最小要件を満たしているか確認してください。

コンポーネント	最小構成	推奨構成
RAM	8 GB	16 GB 以上
ストレージ	空き容量 10 GB	空き容量 50 GB 以上（モデルは大容量です）
GPU (オプション)	4 GB 以上の VRAM を搭載した NVIDIA GPU	NVIDIA RTX 3060 以上 (12 GB VRAM) または Apple Silicon
OS	macOS 12+, Ubuntu 20.04+, Windows 10+	最新の安定版 OS

GPU がない場合、Ollama は CPU で動作しますが、推論速度は大幅に遅くなります。

ステップ 1: Ollama のインストール

macOS

# オプション 1: 公式サイトからダウンロード
# https://ollama.com にアクセスし、macOS 用インストーラーをダウンロード

# オプション 2: Homebrew を使用
brew install ollama

Linux

curl -fsSL https://ollama.com/install.sh | sh

Windows

ollama.com からインストーラーをダウンロードして実行します。Windows では、Ollama はシステムサービスとして動作します。

インストールの確認

ollama --version
# 出力例: ollama version 0.5.x

ステップ 2: 初めてのモデルの Pull と Run

Ollama は Docker ライクな pull/run ワークフローを採用しています。

# モデルを Pull する（マシンにダウンロード）
ollama pull llama3.2

# モデルを対話型で実行する
ollama run llama3.2

これで対話型のチャットセッションが始まります。メッセージを入力して Enter キーを押すとレスポンスが返ってきます。/bye と入力すると終了します。

モデル	パラメータ数	必要 RAM	必要 VRAM	最適な用途
llama3.2:3b	3B	4 GB	3 GB	軽いタスク、低スペックマシン
llama3.2	8B	8 GB	6 GB	汎用、バランス良好
llama3.1:70b	70B	48 GB	40 GB	複雑な推論、ハイエンド環境
mistral	7B	8 GB	5 GB	高速、指示への追従性が高い
gemma2:9b	9B	8 GB	6 GB	Google のオープンモデル、高い推論能力
codellama	7B	8 GB	5 GB	コード生成および解析
deepseek-coder-v2	16B	12 GB	10 GB	高度なコーディングタスク
phi3:mini	3.8B	4 GB	3 GB	サイズの割に驚くほど有能
qwen2.5:7b	7B	8 GB	5 GB	多言語対応、強力なコーディング

ステップ 3: モデルの管理

ダウンロード済みモデルのリスト表示

ollama list

出力:

NAME                ID            SIZE      MODIFIED
llama3.2:latest     a80c4f17acd5  4.7 GB    2 minutes ago
mistral:latest      2ae6f6dd7a3d  4.1 GB    5 minutes ago
codellama:latest    8fdf8f752f6e  3.8 GB    10 minutes ago

モデルの削除

ollama rm codellama

モデル情報の詳細表示

ollama show llama3.2

モデルのコピー/リネーム

ollama cp llama3.2 my-custom-llama

ステップ 4: Ollama API の利用

Ollama はデフォルトで localhost:11434 上で HTTP サーバーを実行します。API は OpenAI フォーマットと互換性があるため、統合が容易です。

基本的な API コール

curl http://localhost:11434/api/generate -d '{
  "model": "llama3.2",
  "prompt": "REST と GraphQL の違いを 3 文で説明してください。",
  "stream": false
}'

チャット API (マルチターン)

curl http://localhost:11434/api/chat -d '{
  "model": "llama3.2",
  "messages": [
    {"role": "system", "content": "あなたは優秀なコーディングアシスタントです。"},
    {"role": "user", "content": "メールアドレスをバリデーションする Python 関数を書いてください。"}
  ],
  "stream": false
}'

Python での使用例

import requests

response = requests.post("http://localhost:11434/api/generate", json={
    "model": "llama3.2",
    "prompt": "PostgreSQL データベースをバックアップする bash スクリプトを書いてください。",
    "stream": False
})

print(response.json()["response"])

OpenAI Python SDK での使用例

Ollama の API は OpenAI 互換のため、公式の OpenAI SDK が使用可能です。

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama"  # 任意の文字列で動作します
)

response = client.chat.completions.create(
    model="llama3.2",
    messages=[
        {"role": "system", "content": "あなたはシニア Python デベロッパーです。"},
        {"role": "user", "content": "Python でスレッドセーフなシングルトンパターンを書いてください。"}
    ]
)

print(response.choices[0].message.content)

ステップ 5: Modelfile によるカスタムモデルの作成

Ollama では、Modelfile（Dockerfile に類似）を使用してカスタムモデル構成を作成できます。

# Modelfile として保存
FROM llama3.2

# システムプロンプトを設定
SYSTEM """
あなたは TypeScript, React, Node.js を専門とするシニアフルスタックエンジニアです。
常にエラーハンドリングと TypeScript の型を備えた、プロダクションレベルのコードを提供してください。
設計の決定について尋ねられた際は、トレードオフを説明してください。
"""

# パラメータの調整
PARAMETER temperature 0.3
PARAMETER top_p 0.9
PARAMETER num_ctx 8192

カスタムモデルのビルドと実行：

ollama create my-dev-assistant -f Modelfile
ollama run my-dev-assistant

ステップ 6: GPU 加速

NVIDIA GPU

CUDA ドライバがインストールされていれば、Ollama は自動的に NVIDIA GPU を検出します。

# GPU が使用されているか確認
ollama ps

Apple Silicon (M1/M2/M3/M4)

Apple Silicon では自動的に Metal 加速が使用されます。追加の設定は不要です。ユニファイドメモリを搭載した Apple Silicon Mac は、GPU がシステム RAM 全体にアクセスできるため、LLM の実行に非常に適しています。

GPU と CPU へのモデル分散

GPU の VRAM に対してモデルが大きすぎる場合、Ollama は自動的にモデルを GPU と CPU に分割して処理します。

# GPU レイヤー数を手動で設定
OLLAMA_NUM_GPU=20 ollama run llama3.1:70b

パフォーマンス向上のヒント

1. 量子化モデルの使用

量子化されたモデルは、メモリ使用量が少なく、品質の低下を最小限に抑えつつ高速に動作します。

# Q4 量子化 (速度と品質のバランスが良い)
ollama pull llama3.2:8b-instruct-q4_K_M

# Q8 量子化 (高品質だがメモリ消費が多い)
ollama pull llama3.2:8b-instruct-q8_0

2. コンテキストウィンドウの拡張

# 環境変数でコンテキストウィンドウを設定
OLLAMA_NUM_CTX=16384 ollama run llama3.2

3. モデルのロード状態を維持

デフォルトでは、Ollama は 5 分間操作がないとモデルをアンロードします。これを変更するには：

# モデルを無期限にロードし続ける
OLLAMA_KEEP_ALIVE=-1 ollama serve

4. 複数のモデルを並行実行

十分な RAM があれば、複数のモデルを同時に提供できます。

# 別のターミナルでそれぞれ実行
ollama run llama3.2      # 一般的なタスク用
ollama run codellama     # コーディングタスク用

よくある質問と解決策

問題	解決策
"model not found"	最初に `ollama pull モデル名` を実行してください
GPU での推論が遅い	GPU ドライバを更新し、`ollama ps` で GPU の使用状況を確認してください
メモリ不足 (Out of memory)	より小さいモデル、または量子化バリアントを使用してください
ポート 11434 が既に使用中	既存の Ollama インスタンスを停止してください: `ollama stop`
モデルのダウンロードが遅い	接続環境を確認してください。Ollama の CDN が混雑している場合があります

結論

Ollama は、Docker コンテナを pull して run するのと同じくらい簡単に、LLM のローカル実行を可能にします。プライバシーを重視する場合、API コストを抑えたい場合、あるいは単にオープンソースモデルを試したい場合、Ollama は 2026 年において最も手軽で強力な選択肢です。

ローカル AI 推論と高品質なメディア生成の両方を必要とするプロジェクトでは、Ollama と Hypereal AI の併用を検討してください。テキスト生成にはプライベートかつコストフリーな Ollama を使い、画像、動画、AI アバター、音声コンテンツの生成には Hypereal AI の手頃な API を活用することで、予算を抑えつつ完璧な AI ツールキットを構築できます。

Ollama 活用術：完全初心者ガイド (2026年版)

Ollama とは？

システム要件

インストールする前に、システムが最小要件を満たしているか確認してください。

コンポーネント	最小構成	推奨構成
RAM	8 GB	16 GB 以上
ストレージ	空き容量 10 GB	空き容量 50 GB 以上（モデルは大容量です）
GPU (オプション)	4 GB 以上の VRAM を搭載した NVIDIA GPU	NVIDIA RTX 3060 以上 (12 GB VRAM) または Apple Silicon
OS	macOS 12+, Ubuntu 20.04+, Windows 10+	最新の安定版 OS

GPU がない場合、Ollama は CPU で動作しますが、推論速度は大幅に遅くなります。

ステップ 1: Ollama のインストール

macOS

# オプション 1: 公式サイトからダウンロード
# https://ollama.com にアクセスし、macOS 用インストーラーをダウンロード

# オプション 2: Homebrew を使用
brew install ollama

Linux

curl -fsSL https://ollama.com/install.sh | sh

Windows

ollama.com からインストーラーをダウンロードして実行します。Windows では、Ollama はシステムサービスとして動作します。

インストールの確認

ollama --version
# 出力例: ollama version 0.5.x

ステップ 2: 初めてのモデルの Pull と Run

Ollama は Docker ライクな pull/run ワークフローを採用しています。

# モデルを Pull する（マシンにダウンロード）
ollama pull llama3.2

# モデルを対話型で実行する
ollama run llama3.2

モデル	パラメータ数	必要 RAM	必要 VRAM	最適な用途
llama3.2:3b	3B	4 GB	3 GB	軽いタスク、低スペックマシン
llama3.2	8B	8 GB	6 GB	汎用、バランス良好
llama3.1:70b	70B	48 GB	40 GB	複雑な推論、ハイエンド環境
mistral	7B	8 GB	5 GB	高速、指示への追従性が高い
gemma2:9b	9B	8 GB	6 GB	Google のオープンモデル、高い推論能力
codellama	7B	8 GB	5 GB	コード生成および解析
deepseek-coder-v2	16B	12 GB	10 GB	高度なコーディングタスク
phi3:mini	3.8B	4 GB	3 GB	サイズの割に驚くほど有能
qwen2.5:7b	7B	8 GB	5 GB	多言語対応、強力なコーディング

ステップ 3: モデルの管理

ダウンロード済みモデルのリスト表示

ollama list

出力:

NAME                ID            SIZE      MODIFIED
llama3.2:latest     a80c4f17acd5  4.7 GB    2 minutes ago
mistral:latest      2ae6f6dd7a3d  4.1 GB    5 minutes ago
codellama:latest    8fdf8f752f6e  3.8 GB    10 minutes ago

モデルの削除

ollama rm codellama

モデル情報の詳細表示

ollama show llama3.2

モデルのコピー/リネーム

ollama cp llama3.2 my-custom-llama

ステップ 4: Ollama API の利用

Ollama はデフォルトで localhost:11434 上で HTTP サーバーを実行します。API は OpenAI フォーマットと互換性があるため、統合が容易です。

基本的な API コール

curl http://localhost:11434/api/generate -d '{
  "model": "llama3.2",
  "prompt": "REST と GraphQL の違いを 3 文で説明してください。",
  "stream": false
}'

チャット API (マルチターン)

curl http://localhost:11434/api/chat -d '{
  "model": "llama3.2",
  "messages": [
    {"role": "system", "content": "あなたは優秀なコーディングアシスタントです。"},
    {"role": "user", "content": "メールアドレスをバリデーションする Python 関数を書いてください。"}
  ],
  "stream": false
}'

Python での使用例

import requests

response = requests.post("http://localhost:11434/api/generate", json={
    "model": "llama3.2",
    "prompt": "PostgreSQL データベースをバックアップする bash スクリプトを書いてください。",
    "stream": False
})

print(response.json()["response"])

OpenAI Python SDK での使用例

Ollama の API は OpenAI 互換のため、公式の OpenAI SDK が使用可能です。

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama"  # 任意の文字列で動作します
)

response = client.chat.completions.create(
    model="llama3.2",
    messages=[
        {"role": "system", "content": "あなたはシニア Python デベロッパーです。"},
        {"role": "user", "content": "Python でスレッドセーフなシングルトンパターンを書いてください。"}
    ]
)

print(response.choices[0].message.content)

ステップ 5: Modelfile によるカスタムモデルの作成

Ollama では、Modelfile（Dockerfile に類似）を使用してカスタムモデル構成を作成できます。

# Modelfile として保存
FROM llama3.2

# システムプロンプトを設定
SYSTEM """
あなたは TypeScript, React, Node.js を専門とするシニアフルスタックエンジニアです。
常にエラーハンドリングと TypeScript の型を備えた、プロダクションレベルのコードを提供してください。
設計の決定について尋ねられた際は、トレードオフを説明してください。
"""

# パラメータの調整
PARAMETER temperature 0.3
PARAMETER top_p 0.9
PARAMETER num_ctx 8192

カスタムモデルのビルドと実行：

ollama create my-dev-assistant -f Modelfile
ollama run my-dev-assistant

ステップ 6: GPU 加速

NVIDIA GPU

CUDA ドライバがインストールされていれば、Ollama は自動的に NVIDIA GPU を検出します。

# GPU が使用されているか確認
ollama ps

Apple Silicon (M1/M2/M3/M4)

GPU と CPU へのモデル分散

GPU の VRAM に対してモデルが大きすぎる場合、Ollama は自動的にモデルを GPU と CPU に分割して処理します。

# GPU レイヤー数を手動で設定
OLLAMA_NUM_GPU=20 ollama run llama3.1:70b

パフォーマンス向上のヒント

1. 量子化モデルの使用

量子化されたモデルは、メモリ使用量が少なく、品質の低下を最小限に抑えつつ高速に動作します。

# Q4 量子化 (速度と品質のバランスが良い)
ollama pull llama3.2:8b-instruct-q4_K_M

# Q8 量子化 (高品質だがメモリ消費が多い)
ollama pull llama3.2:8b-instruct-q8_0

2. コンテキストウィンドウの拡張

# 環境変数でコンテキストウィンドウを設定
OLLAMA_NUM_CTX=16384 ollama run llama3.2

3. モデルのロード状態を維持

デフォルトでは、Ollama は 5 分間操作がないとモデルをアンロードします。これを変更するには：

# モデルを無期限にロードし続ける
OLLAMA_KEEP_ALIVE=-1 ollama serve

4. 複数のモデルを並行実行

十分な RAM があれば、複数のモデルを同時に提供できます。

# 別のターミナルでそれぞれ実行
ollama run llama3.2      # 一般的なタスク用
ollama run codellama     # コーディングタスク用

よくある質問と解決策

問題	解決策
"model not found"	最初に `ollama pull モデル名` を実行してください
GPU での推論が遅い	GPU ドライバを更新し、`ollama ps` で GPU の使用状況を確認してください
メモリ不足 (Out of memory)	より小さいモデル、または量子化バリアントを使用してください
ポート 11434 が既に使用中	既存の Ollama インスタンスを停止してください: `ollama stop`
モデルのダウンロードが遅い	接続環境を確認してください。Ollama の CDN が混雑している場合があります

Hyperealで構築を始めよう

Ollama 活用術：完全初心者ガイド (2026年版)

Ollama とは？

システム要件

ステップ 1: Ollama のインストール

macOS

Linux

Windows

インストールの確認

ステップ 2: 初めてのモデルの Pull と Run

おすすめのスターターモデル

ステップ 3: モデルの管理

ダウンロード済みモデルのリスト表示

モデルの削除

モデル情報の詳細表示

モデルのコピー/リネーム

ステップ 4: Ollama API の利用

基本的な API コール

チャット API (マルチターン)

Python での使用例

OpenAI Python SDK での使用例

ステップ 5: Modelfile によるカスタムモデルの作成

ステップ 6: GPU 加速

NVIDIA GPU

Apple Silicon (M1/M2/M3/M4)

GPU と CPU へのモデル分散

パフォーマンス向上のヒント

1. 量子化モデルの使用

2. コンテキストウィンドウの拡張

3. モデルのロード状態を維持

4. 複数のモデルを並行実行

よくある質問と解決策

結論

関連記事

2026年における最高のオープンソースRAGフレームワーク集

Ollama のダウンロード方法と使い方：ステップバイステップ解説 (2026年版)

Ollama を使用して Qwen 3 VL をローカルで実行する方法 (2026年版)

今日から構築を開始

Hyperealで構築を始めよう

Ollama 活用術：完全初心者ガイド (2026年版)

Ollama とは？

システム要件

ステップ 1: Ollama のインストール

macOS

Linux

Windows

インストールの確認

ステップ 2: 初めてのモデルの Pull と Run

おすすめのスターターモデル

ステップ 3: モデルの管理

ダウンロード済みモデルのリスト表示

モデルの削除

モデル情報の詳細表示

モデルのコピー/リネーム

ステップ 4: Ollama API の利用

基本的な API コール

チャット API (マルチターン)

Python での使用例

OpenAI Python SDK での使用例

ステップ 5: Modelfile によるカスタムモデルの作成

ステップ 6: GPU 加速

NVIDIA GPU

Apple Silicon (M1/M2/M3/M4)

GPU と CPU へのモデル分散

パフォーマンス向上のヒント

1. 量子化モデルの使用

2. コンテキストウィンドウの拡張

3. モデルのロード状態を維持

4. 複数のモデルを並行実行

よくある質問と解決策

結論

関連記事

2026年における最高のオープンソースRAGフレームワーク集

Ollama のダウンロード方法と使い方：ステップバイステップ解説 (2026年版)

Ollama を使用して Qwen 3 VL をローカルで実行する方法 (2026年版)

今日から構築を開始