Ollama のダウンロード方法と使い方：ステップバイステップ解説 (2026年版)

Ollamaのダウンロードと使用方法：ステップバイステップガイド（2026年版）

Ollamaは、自分のコンピュータ上で大規模言語モデルをローカルに実行するための最も簡単な方法です。APIコールに料金を支払ったりクラウドサービスに依存したりする代わりに、Ollamaを使用すると、Llama 4、Qwen 3、DeepSeek、Gemma、Phiなどのモデルを、コマンド1つで直接マシンにダウンロードして実行できます。

このガイドでは、インストールから最初のモデルの実行、複数モデルの管理、APIの使用、そしてパフォーマンスの最適化まで、すべてを網羅しています。

なぜモデルをローカルで実行するのか？

メリット	説明
プライバシー	データがマシン外に出ることがない
APIコスト不要	ダウンロード後は無制限に使用可能
オフラインアクセス	インターネットなしで動作
レート制限なし	スロットリングやクォータがない
カスタマイズ性	ファインチューニングされたモデルやカスタムモデルが実行可能
速度	ローカル推論のためネットワーク遅延がない

トレードオフとして、十分なRAMと（理想的には）GPUを搭載したコンピュータが必要です。しかし、最新の量子化モデルは、コンシューマー向けハードウェアでも驚くほど快適に動作します。

ハードウェア要件

モデルサイズ	必要なRAM	GPU VRAM	モデル例
1-3B	4GB	2GB+	Phi-4 Mini, Gemma 3 1B
7-8B	8GB	6GB+	Llama 3.1 8B, Qwen 3 8B
14B	16GB	10GB+	Qwen 3 14B, Gemma 3 12B
32-34B	32GB	24GB+	Qwen 3 32B, DeepSeek Coder 33B
70B	48GB+	48GB+	Llama 3.1 70B

OllamaはCPUのみ（低速）で動作させることも、NVIDIA、AMD、またはApple Silicon GPUによるGPU加速を利用することも可能です。ユニファイドメモリを搭載したApple Silicon Macは、特により大きなモデルの実行に適しています。

ステップ1：Ollamaのダウンロードとインストール

macOS

# オプション1：ウェブサイトからダウンロード
# https://ollama.com/download にアクセスし、macOSアプリをダウンロード

# オプション2：Homebrew経由でインストール
brew install ollama

macOSアプリをインストールすると、Ollamaはバックグラウンドでサーバーを実行するメニューバーアプリケーションとして常駐します。

Windows

ollama.com/downloadにアクセスします。
Windows用インストーラーをダウンロードします。
インストーラーを実行し、プロンプトに従います。
インストール後、Ollamaはシステムサービスとして実行されます。

Linux

# 1行インストールスクリプト
curl -fsSL https://ollama.ai/install.sh | sh

# または手動インストール
# GitHubのリリースページから作成したアーキテクチャ用のバイナリをダウンロード

インストールの確認

ollama --version
# 出力例: ollama version 0.6.x

ステップ2：最初のモデルをダウンロードする

Ollamaのモデルライブラリには何百ものモデルがあります。まずはモデルをプル（ダウンロード）することから始めましょう。

# Llama 3.1 8B (4.7GB) をダウンロード
ollama pull llama3.1

# Qwen 3 8B (4.9GB) をダウンロード
ollama pull qwen3

# テスト用に小さなモデル (1.6GB) をダウンロード
ollama pull phi4-mini

ダウンロードは一度だけで済みます。その後はローカルストレージからモデルがロードされます。

ステップ3：モデルとチャットする

対話型のチャットセッションを開始します。

ollama run llama3.1

これにより、メッセージを入力できるREPLが開きます。

>>> What is the capital of France?
フランスの首都はパリです。フランス最大の都市であり、国の政治、経済、文化の中心地として機能しています。

>>> Write a Python function to reverse a string
文字列を反転させるシンプルなPython関数は以下の通りです：

def reverse_string(s):
    return s[::-1]

# 使用例
print(reverse_string("hello"))  # 出力: "olleh"

>>> /bye

チャットを終了するには /bye を使用します。

ステップ4：REST APIを使用する

Ollamaは http://localhost:11434 でローカルAPIサーバーを実行します。これはアプリケーションの構築に便利です。

チャット・コンプリーション（Chat Completion）

curl http://localhost:11434/api/chat \
  -d '{
    "model": "llama3.1",
    "messages": [
      {"role": "user", "content": "Dockerを3文で説明して。"}
    ]
  }'

OpenAI互換エンドポイント

OllamaはOpenAI互換のエンドポイントも公開しているため、任意のOpenAI SDKで使用できます。

import openai

client = openai.OpenAI(
    api_key="ollama",  # 任意の値で動作します
    base_url="http://localhost:11434/v1"
)

response = client.chat.completions.create(
    model="llama3.1",
    messages=[
        {"role": "system", "content": "あなたは有能なアシスタントです。"},
        {"role": "user", "content": "CSSでdivを中央に配置する方法は？"}
    ],
    temperature=0.7
)

print(response.choices[0].message.content)

ストリーミングレスポンス

stream = client.chat.completions.create(
    model="llama3.1",
    messages=[
        {"role": "user", "content": "プログラミングについての俳句を書いて。"}
    ],
    stream=True
)

for chunk in stream:
    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content, end="", flush=True)

ステップ5：モデルの管理

ダウンロード済みモデルの一覧表示

ollama list

# 出力例:
# NAME              SIZE     MODIFIED
# llama3.1:latest   4.7 GB   2 hours ago
# qwen3:latest      4.9 GB   1 hour ago
# phi4-mini:latest  1.6 GB   30 minutes ago

モデルの削除

ollama rm phi4-mini

特定のサイズバリアントをプルする

多くのモデルには複数のサイズが用意されています。

# 小さな量子化（高速、精度は低め）
ollama pull llama3.1:8b-q4_0

# 大きな量子化（低速、精度は高め）
ollama pull llama3.1:8b-q8_0

# 特定のパラメータ数
ollama pull qwen3:14b
ollama pull qwen3:32b

モデル情報の確認

ollama show llama3.1

# パラメータ、量子化、テンプレート、ライセンスなどのモデル詳細を表示します。

ステップ6：Modelfileでカスタムモデルを作成する

Modelfileを使用すると、モデルの動作をカスタマイズできます。

# Modelfile
FROM llama3.1

# カスタムシステムプロンプトを設定
SYSTEM """あなたはシニアソフトウェアエンジニアです。クリーンで、ドキュメントが充実しており、
適切なエラーハンドリングを含むコードを書きます。コードを示す前に、必ずその推論を説明してください。"""

# パラメータの調整
PARAMETER temperature 0.3
PARAMETER top_p 0.9
PARAMETER num_ctx 8192

カスタムモデルのビルドと実行：

# モデルの作成
ollama create my-coder -f Modelfile

# 実行
ollama run my-coder

ステップ7：一般的なツールでOllamaを使用する

Ollamaは多くのAIツールと統合できます。

Cursorで使用する

Cursorの設定で、Ollamaをカスタムモデルプロバイダーとして追加します：

Base URL: http://localhost:11434/v1
API Key: ollama
Model: llama3.1

Continue.dev (VS Code) で使用する

// ~/.continue/config.json
{
  "models": [
    {
      "title": "Ollama - Llama 3.1",
      "provider": "ollama",
      "model": "llama3.1"
    }
  ],
  "tabAutocompleteModel": {
    "title": "Ollama - Qwen Coder",
    "provider": "ollama",
    "model": "qwen2.5-coder:7b"
  }
}

Open WebUI (ChatGPT風インターフェース) で使用する

docker run -d \
  -p 3000:8080 \
  -v open-webui:/app/backend/data \
  --add-host=host.docker.internal:host-gateway \
  --name open-webui \
  ghcr.io/open-webui/open-webui:main

http://localhost:3000 を開くと、ローカルのOllamaモデルに接続されたChatGPT風のウェブインターフェースが利用できます。

2026年のおすすめモデル

モデル	サイズ	最適な用途	コマンド
Llama 3.1 8B	4.7GB	汎用	`ollama pull llama3.1`
Qwen 3 8B	4.9GB	コーディング + 推論	`ollama pull qwen3`
DeepSeek Coder V2	8.9GB	コード生成	`ollama pull deepseek-coder-v2`
Gemma 3 12B	8.1GB	指示への追従	`ollama pull gemma3:12b`
Phi-4 Mini	1.6GB	低リソースマシン	`ollama pull phi4-mini`
Mistral Nemo	7.1GB	多言語対応	`ollama pull mistral-nemo`
Qwen 2.5 Coder 7B	4.7GB	コードの自動補完	`ollama pull qwen2.5-coder:7b`
Llama 3.1 70B	40GB	最高品質	`ollama pull llama3.1:70b`

パフォーマンス向上のヒント

GPU加速を使用する。 OllamaはNVIDIA (CUDA)、AMD (ROCm)、Apple Silicon GPUを自動的に検出します。以下のコマンドで確認してください：
```
ollama ps
# どのモデルがロードされているか、GPUを使用しているかが表示されます
```
コンテキストサイズを調整する。 コンテキストウィンドウを大きくすると、より多くのメモリを使用します。必要に応じて Modelfile または API コールで num_ctx を設定してください。
モデルをロードしたままにする。 Ollamaは最近使用したモデルをメモリ内に保持します。モデルを頻繁に切り替えるのは避けましょう。
量子化モデルを使用する。 ほとんどのユースケースにおいて、Q4量子化は速度と品質のバランスが最も優れています。
他のGPU負荷の高いアプリを閉じる。 動画編集ソフト、ゲーム、その他のAIツールはGPUメモリを競合します。

よくある質問

Ollamaは無料ですか？ はい、Ollamaは完全に無料でオープンソース（MITライセンス）です。モデルを実行できるスペックのコンピュータがあれば十分です。

Ollamaをオフラインで使用できますか？ はい。モデルを一度ダウンロードすれば、インターネット接続なしですべてローカルで動作します。

どのGPUが必要ですか？ 7-8Bクラスのモデルの場合、6GB以上のVRAMを搭載したGPUであれば動作します。Apple Silicon Macは、ユニファイドメモリのおかげで非常に良好に動作します。CPUのみで実行することも可能です（動作は遅くなります）。

OllamaとLM Studioの違いは何ですか？ どちらもローカルモデルを実行できます。OllamaはCLIファーストでREST APIを備えており、開発者やシステム統合に適しています。LM Studioはグラフィカルなインターフェースを持ち、非エンジニアのユーザーに適しています。

複数のモデルを同時に実行できますか？ はい、十分なメモリがあれば可能です。Ollamaはオンデマンドでモデルをロードし、複数のモデルをメモリ内に保持できます。

Ollamaはビジョンモデル（画像認識）をサポートしていますか？ はい。llava や llama3.2-vision などのモデルは、画像入力をサポートしています。

まとめ

Ollamaを使えば、コマンド1つでローカルAIモデルを簡単に実行できます。完全なプライバシー、ゼロコストのAPI、またはオフラインアクセスが必要な場合、Ollamaは2026年におけるローカルLLM推論のための最適なツールです。まずは7-8Bモデルから始めて、アプリケーション構築のためのAPIを探索し、ハードウェアが許す限り大きなモデルへとスケールアップしていきましょう。

画像、ビデオ、話すアバターなどのAI生成メディアを必要とするアプリケーションを構築している場合は、Hypereal AIを無料でお試しください。35クレジット提供、クレジットカード不要です。テキストインテリジェンスのためのローカルLLMと、ビジュアルコンテンツ生成のためのHypereal APIを組み合わせて活用しましょう。

Ollamaのダウンロードと使用方法：ステップバイステップガイド（2026年版）

なぜモデルをローカルで実行するのか？

メリット	説明
プライバシー	データがマシン外に出ることがない
APIコスト不要	ダウンロード後は無制限に使用可能
オフラインアクセス	インターネットなしで動作
レート制限なし	スロットリングやクォータがない
カスタマイズ性	ファインチューニングされたモデルやカスタムモデルが実行可能
速度	ローカル推論のためネットワーク遅延がない

ハードウェア要件

モデルサイズ	必要なRAM	GPU VRAM	モデル例
1-3B	4GB	2GB+	Phi-4 Mini, Gemma 3 1B
7-8B	8GB	6GB+	Llama 3.1 8B, Qwen 3 8B
14B	16GB	10GB+	Qwen 3 14B, Gemma 3 12B
32-34B	32GB	24GB+	Qwen 3 32B, DeepSeek Coder 33B
70B	48GB+	48GB+	Llama 3.1 70B

ステップ1：Ollamaのダウンロードとインストール

macOS

# オプション1：ウェブサイトからダウンロード
# https://ollama.com/download にアクセスし、macOSアプリをダウンロード

# オプション2：Homebrew経由でインストール
brew install ollama

macOSアプリをインストールすると、Ollamaはバックグラウンドでサーバーを実行するメニューバーアプリケーションとして常駐します。

Windows

ollama.com/downloadにアクセスします。
Windows用インストーラーをダウンロードします。
インストーラーを実行し、プロンプトに従います。
インストール後、Ollamaはシステムサービスとして実行されます。

Linux

# 1行インストールスクリプト
curl -fsSL https://ollama.ai/install.sh | sh

# または手動インストール
# GitHubのリリースページから作成したアーキテクチャ用のバイナリをダウンロード

インストールの確認

ollama --version
# 出力例: ollama version 0.6.x

ステップ2：最初のモデルをダウンロードする

Ollamaのモデルライブラリには何百ものモデルがあります。まずはモデルをプル（ダウンロード）することから始めましょう。

# Llama 3.1 8B (4.7GB) をダウンロード
ollama pull llama3.1

# Qwen 3 8B (4.9GB) をダウンロード
ollama pull qwen3

# テスト用に小さなモデル (1.6GB) をダウンロード
ollama pull phi4-mini

ダウンロードは一度だけで済みます。その後はローカルストレージからモデルがロードされます。

ステップ3：モデルとチャットする

対話型のチャットセッションを開始します。

ollama run llama3.1

これにより、メッセージを入力できるREPLが開きます。

>>> What is the capital of France?
フランスの首都はパリです。フランス最大の都市であり、国の政治、経済、文化の中心地として機能しています。

>>> Write a Python function to reverse a string
文字列を反転させるシンプルなPython関数は以下の通りです：

def reverse_string(s):
    return s[::-1]

# 使用例
print(reverse_string("hello"))  # 出力: "olleh"

>>> /bye

チャットを終了するには /bye を使用します。

ステップ4：REST APIを使用する

Ollamaは http://localhost:11434 でローカルAPIサーバーを実行します。これはアプリケーションの構築に便利です。

チャット・コンプリーション（Chat Completion）

curl http://localhost:11434/api/chat \
  -d '{
    "model": "llama3.1",
    "messages": [
      {"role": "user", "content": "Dockerを3文で説明して。"}
    ]
  }'

OpenAI互換エンドポイント

OllamaはOpenAI互換のエンドポイントも公開しているため、任意のOpenAI SDKで使用できます。

import openai

client = openai.OpenAI(
    api_key="ollama",  # 任意の値で動作します
    base_url="http://localhost:11434/v1"
)

response = client.chat.completions.create(
    model="llama3.1",
    messages=[
        {"role": "system", "content": "あなたは有能なアシスタントです。"},
        {"role": "user", "content": "CSSでdivを中央に配置する方法は？"}
    ],
    temperature=0.7
)

print(response.choices[0].message.content)

ストリーミングレスポンス

stream = client.chat.completions.create(
    model="llama3.1",
    messages=[
        {"role": "user", "content": "プログラミングについての俳句を書いて。"}
    ],
    stream=True
)

for chunk in stream:
    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content, end="", flush=True)

ステップ5：モデルの管理

ダウンロード済みモデルの一覧表示

ollama list

# 出力例:
# NAME              SIZE     MODIFIED
# llama3.1:latest   4.7 GB   2 hours ago
# qwen3:latest      4.9 GB   1 hour ago
# phi4-mini:latest  1.6 GB   30 minutes ago

モデルの削除

ollama rm phi4-mini

特定のサイズバリアントをプルする

多くのモデルには複数のサイズが用意されています。

# 小さな量子化（高速、精度は低め）
ollama pull llama3.1:8b-q4_0

# 大きな量子化（低速、精度は高め）
ollama pull llama3.1:8b-q8_0

# 特定のパラメータ数
ollama pull qwen3:14b
ollama pull qwen3:32b

モデル情報の確認

ollama show llama3.1

# パラメータ、量子化、テンプレート、ライセンスなどのモデル詳細を表示します。

ステップ6：Modelfileでカスタムモデルを作成する

Modelfileを使用すると、モデルの動作をカスタマイズできます。

# Modelfile
FROM llama3.1

# カスタムシステムプロンプトを設定
SYSTEM """あなたはシニアソフトウェアエンジニアです。クリーンで、ドキュメントが充実しており、
適切なエラーハンドリングを含むコードを書きます。コードを示す前に、必ずその推論を説明してください。"""

# パラメータの調整
PARAMETER temperature 0.3
PARAMETER top_p 0.9
PARAMETER num_ctx 8192

カスタムモデルのビルドと実行：

# モデルの作成
ollama create my-coder -f Modelfile

# 実行
ollama run my-coder

ステップ7：一般的なツールでOllamaを使用する

Ollamaは多くのAIツールと統合できます。

Cursorで使用する

Cursorの設定で、Ollamaをカスタムモデルプロバイダーとして追加します：

Base URL: http://localhost:11434/v1
API Key: ollama
Model: llama3.1

Continue.dev (VS Code) で使用する

// ~/.continue/config.json
{
  "models": [
    {
      "title": "Ollama - Llama 3.1",
      "provider": "ollama",
      "model": "llama3.1"
    }
  ],
  "tabAutocompleteModel": {
    "title": "Ollama - Qwen Coder",
    "provider": "ollama",
    "model": "qwen2.5-coder:7b"
  }
}

Open WebUI (ChatGPT風インターフェース) で使用する

docker run -d \
  -p 3000:8080 \
  -v open-webui:/app/backend/data \
  --add-host=host.docker.internal:host-gateway \
  --name open-webui \
  ghcr.io/open-webui/open-webui:main

http://localhost:3000 を開くと、ローカルのOllamaモデルに接続されたChatGPT風のウェブインターフェースが利用できます。

2026年のおすすめモデル

モデル	サイズ	最適な用途	コマンド
Llama 3.1 8B	4.7GB	汎用	`ollama pull llama3.1`
Qwen 3 8B	4.9GB	コーディング + 推論	`ollama pull qwen3`
DeepSeek Coder V2	8.9GB	コード生成	`ollama pull deepseek-coder-v2`
Gemma 3 12B	8.1GB	指示への追従	`ollama pull gemma3:12b`
Phi-4 Mini	1.6GB	低リソースマシン	`ollama pull phi4-mini`
Mistral Nemo	7.1GB	多言語対応	`ollama pull mistral-nemo`
Qwen 2.5 Coder 7B	4.7GB	コードの自動補完	`ollama pull qwen2.5-coder:7b`
Llama 3.1 70B	40GB	最高品質	`ollama pull llama3.1:70b`

パフォーマンス向上のヒント

GPU加速を使用する。 OllamaはNVIDIA (CUDA)、AMD (ROCm)、Apple Silicon GPUを自動的に検出します。以下のコマンドで確認してください：
```
ollama ps
# どのモデルがロードされているか、GPUを使用しているかが表示されます
```
コンテキストサイズを調整する。 コンテキストウィンドウを大きくすると、より多くのメモリを使用します。必要に応じて Modelfile または API コールで num_ctx を設定してください。
モデルをロードしたままにする。 Ollamaは最近使用したモデルをメモリ内に保持します。モデルを頻繁に切り替えるのは避けましょう。
量子化モデルを使用する。 ほとんどのユースケースにおいて、Q4量子化は速度と品質のバランスが最も優れています。
他のGPU負荷の高いアプリを閉じる。 動画編集ソフト、ゲーム、その他のAIツールはGPUメモリを競合します。

よくある質問

Ollamaをオフラインで使用できますか？ はい。モデルを一度ダウンロードすれば、インターネット接続なしですべてローカルで動作します。

Ollamaはビジョンモデル（画像認識）をサポートしていますか？ はい。llava や llama3.2-vision などのモデルは、画像入力をサポートしています。

Hyperealで構築を始めよう

Ollamaのダウンロードと使用方法：ステップバイステップガイド（2026年版）

なぜモデルをローカルで実行するのか？

ハードウェア要件

ステップ1：Ollamaのダウンロードとインストール

macOS

Windows

Linux

インストールの確認

ステップ2：最初のモデルをダウンロードする

ステップ3：モデルとチャットする

ステップ4：REST APIを使用する

チャット・コンプリーション（Chat Completion）

OpenAI互換エンドポイント

ストリーミングレスポンス

ステップ5：モデルの管理

ダウンロード済みモデルの一覧表示

モデルの削除

特定のサイズバリアントをプルする

モデル情報の確認

ステップ6：Modelfileでカスタムモデルを作成する

ステップ7：一般的なツールでOllamaを使用する

Cursorで使用する

Continue.dev (VS Code) で使用する

Open WebUI (ChatGPT風インターフェース) で使用する

2026年のおすすめモデル

パフォーマンス向上のヒント

よくある質問

まとめ

関連記事

2026年における最高のオープンソースRAGフレームワーク集

Ollama を使用して Qwen 3 VL をローカルで実行する方法 (2026年版)

Ollamaの使い方：完全初心者ガイド（2026年版）

今日から構築を開始

Hyperealで構築を始めよう

Ollamaのダウンロードと使用方法：ステップバイステップガイド（2026年版）

なぜモデルをローカルで実行するのか？

ハードウェア要件

ステップ1：Ollamaのダウンロードとインストール

macOS

Windows

Linux

インストールの確認

ステップ2：最初のモデルをダウンロードする

ステップ3：モデルとチャットする

ステップ4：REST APIを使用する

チャット・コンプリーション（Chat Completion）

OpenAI互換エンドポイント

ストリーミングレスポンス

ステップ5：モデルの管理

ダウンロード済みモデルの一覧表示

モデルの削除

特定のサイズバリアントをプルする

モデル情報の確認

ステップ6：Modelfileでカスタムモデルを作成する

ステップ7：一般的なツールでOllamaを使用する

Cursorで使用する

Continue.dev (VS Code) で使用する

Open WebUI (ChatGPT風インターフェース) で使用する

2026年のおすすめモデル

パフォーマンス向上のヒント

よくある質問

まとめ

関連記事

2026年における最高のオープンソースRAGフレームワーク集

Ollama を使用して Qwen 3 VL をローカルで実行する方法 (2026年版)

Ollamaの使い方：完全初心者ガイド（2026年版）

今日から構築を開始