Ollama のダウンロード方法と使い方:ステップバイステップ解説 (2026年版)
お手元のマシン上で、強力なAIモデルをローカルに実行します
Hyperealで構築を始めよう
Kling、Flux、Sora、Veoなどに単一のAPIでアクセス。無料クレジットで開始、数百万規模まで拡張可能。
クレジットカード不要 • 10万人以上の開発者 • エンタープライズ対応
Ollamaのダウンロードと使用方法:ステップバイステップガイド(2026年版)
Ollamaは、自分のコンピュータ上で大規模言語モデルをローカルに実行するための最も簡単な方法です。APIコールに料金を支払ったりクラウドサービスに依存したりする代わりに、Ollamaを使用すると、Llama 4、Qwen 3、DeepSeek、Gemma、Phiなどのモデルを、コマンド1つで直接マシンにダウンロードして実行できます。
このガイドでは、インストールから最初のモデルの実行、複数モデルの管理、APIの使用、そしてパフォーマンスの最適化まで、すべてを網羅しています。
なぜモデルをローカルで実行するのか?
| メリット | 説明 |
|---|---|
| プライバシー | データがマシン外に出ることがない |
| APIコスト不要 | ダウンロード後は無制限に使用可能 |
| オフラインアクセス | インターネットなしで動作 |
| レート制限なし | スロットリングやクォータがない |
| カスタマイズ性 | ファインチューニングされたモデルやカスタムモデルが実行可能 |
| 速度 | ローカル推論のためネットワーク遅延がない |
トレードオフとして、十分なRAMと(理想的には)GPUを搭載したコンピュータが必要です。しかし、最新の量子化モデルは、コンシューマー向けハードウェアでも驚くほど快適に動作します。
ハードウェア要件
| モデルサイズ | 必要なRAM | GPU VRAM | モデル例 |
|---|---|---|---|
| 1-3B | 4GB | 2GB+ | Phi-4 Mini, Gemma 3 1B |
| 7-8B | 8GB | 6GB+ | Llama 3.1 8B, Qwen 3 8B |
| 14B | 16GB | 10GB+ | Qwen 3 14B, Gemma 3 12B |
| 32-34B | 32GB | 24GB+ | Qwen 3 32B, DeepSeek Coder 33B |
| 70B | 48GB+ | 48GB+ | Llama 3.1 70B |
OllamaはCPUのみ(低速)で動作させることも、NVIDIA、AMD、またはApple Silicon GPUによるGPU加速を利用することも可能です。ユニファイドメモリを搭載したApple Silicon Macは、特により大きなモデルの実行に適しています。
ステップ1:Ollamaのダウンロードとインストール
macOS
# オプション1:ウェブサイトからダウンロード
# https://ollama.com/download にアクセスし、macOSアプリをダウンロード
# オプション2:Homebrew経由でインストール
brew install ollama
macOSアプリをインストールすると、Ollamaはバックグラウンドでサーバーを実行するメニューバーアプリケーションとして常駐します。
Windows
- ollama.com/downloadにアクセスします。
- Windows用インストーラーをダウンロードします。
- インストーラーを実行し、プロンプトに従います。
- インストール後、Ollamaはシステムサービスとして実行されます。
Linux
# 1行インストールスクリプト
curl -fsSL https://ollama.ai/install.sh | sh
# または手動インストール
# GitHubのリリースページから作成したアーキテクチャ用のバイナリをダウンロード
インストールの確認
ollama --version
# 出力例: ollama version 0.6.x
ステップ2:最初のモデルをダウンロードする
Ollamaのモデルライブラリには何百ものモデルがあります。まずはモデルをプル(ダウンロード)することから始めましょう。
# Llama 3.1 8B (4.7GB) をダウンロード
ollama pull llama3.1
# Qwen 3 8B (4.9GB) をダウンロード
ollama pull qwen3
# テスト用に小さなモデル (1.6GB) をダウンロード
ollama pull phi4-mini
ダウンロードは一度だけで済みます。その後はローカルストレージからモデルがロードされます。
ステップ3:モデルとチャットする
対話型のチャットセッションを開始します。
ollama run llama3.1
これにより、メッセージを入力できるREPLが開きます。
>>> What is the capital of France?
フランスの首都はパリです。フランス最大の都市であり、国の政治、経済、文化の中心地として機能しています。
>>> Write a Python function to reverse a string
文字列を反転させるシンプルなPython関数は以下の通りです:
def reverse_string(s):
return s[::-1]
# 使用例
print(reverse_string("hello")) # 出力: "olleh"
>>> /bye
チャットを終了するには /bye を使用します。
ステップ4:REST APIを使用する
Ollamaは http://localhost:11434 でローカルAPIサーバーを実行します。これはアプリケーションの構築に便利です。
チャット・コンプリーション(Chat Completion)
curl http://localhost:11434/api/chat \
-d '{
"model": "llama3.1",
"messages": [
{"role": "user", "content": "Dockerを3文で説明して。"}
]
}'
OpenAI互換エンドポイント
OllamaはOpenAI互換のエンドポイントも公開しているため、任意のOpenAI SDKで使用できます。
import openai
client = openai.OpenAI(
api_key="ollama", # 任意の値で動作します
base_url="http://localhost:11434/v1"
)
response = client.chat.completions.create(
model="llama3.1",
messages=[
{"role": "system", "content": "あなたは有能なアシスタントです。"},
{"role": "user", "content": "CSSでdivを中央に配置する方法は?"}
],
temperature=0.7
)
print(response.choices[0].message.content)
ストリーミングレスポンス
stream = client.chat.completions.create(
model="llama3.1",
messages=[
{"role": "user", "content": "プログラミングについての俳句を書いて。"}
],
stream=True
)
for chunk in stream:
if chunk.choices[0].delta.content:
print(chunk.choices[0].delta.content, end="", flush=True)
ステップ5:モデルの管理
ダウンロード済みモデルの一覧表示
ollama list
# 出力例:
# NAME SIZE MODIFIED
# llama3.1:latest 4.7 GB 2 hours ago
# qwen3:latest 4.9 GB 1 hour ago
# phi4-mini:latest 1.6 GB 30 minutes ago
モデルの削除
ollama rm phi4-mini
特定のサイズバリアントをプルする
多くのモデルには複数のサイズが用意されています。
# 小さな量子化(高速、精度は低め)
ollama pull llama3.1:8b-q4_0
# 大きな量子化(低速、精度は高め)
ollama pull llama3.1:8b-q8_0
# 特定のパラメータ数
ollama pull qwen3:14b
ollama pull qwen3:32b
モデル情報の確認
ollama show llama3.1
# パラメータ、量子化、テンプレート、ライセンスなどのモデル詳細を表示します。
ステップ6:Modelfileでカスタムモデルを作成する
Modelfileを使用すると、モデルの動作をカスタマイズできます。
# Modelfile
FROM llama3.1
# カスタムシステムプロンプトを設定
SYSTEM """あなたはシニアソフトウェアエンジニアです。クリーンで、ドキュメントが充実しており、
適切なエラーハンドリングを含むコードを書きます。コードを示す前に、必ずその推論を説明してください。"""
# パラメータの調整
PARAMETER temperature 0.3
PARAMETER top_p 0.9
PARAMETER num_ctx 8192
カスタムモデルのビルドと実行:
# モデルの作成
ollama create my-coder -f Modelfile
# 実行
ollama run my-coder
ステップ7:一般的なツールでOllamaを使用する
Ollamaは多くのAIツールと統合できます。
Cursorで使用する
Cursorの設定で、Ollamaをカスタムモデルプロバイダーとして追加します:
Base URL: http://localhost:11434/v1
API Key: ollama
Model: llama3.1
Continue.dev (VS Code) で使用する
// ~/.continue/config.json
{
"models": [
{
"title": "Ollama - Llama 3.1",
"provider": "ollama",
"model": "llama3.1"
}
],
"tabAutocompleteModel": {
"title": "Ollama - Qwen Coder",
"provider": "ollama",
"model": "qwen2.5-coder:7b"
}
}
Open WebUI (ChatGPT風インターフェース) で使用する
docker run -d \
-p 3000:8080 \
-v open-webui:/app/backend/data \
--add-host=host.docker.internal:host-gateway \
--name open-webui \
ghcr.io/open-webui/open-webui:main
http://localhost:3000 を開くと、ローカルのOllamaモデルに接続されたChatGPT風のウェブインターフェースが利用できます。
2026年のおすすめモデル
| モデル | サイズ | 最適な用途 | コマンド |
|---|---|---|---|
| Llama 3.1 8B | 4.7GB | 汎用 | ollama pull llama3.1 |
| Qwen 3 8B | 4.9GB | コーディング + 推論 | ollama pull qwen3 |
| DeepSeek Coder V2 | 8.9GB | コード生成 | ollama pull deepseek-coder-v2 |
| Gemma 3 12B | 8.1GB | 指示への追従 | ollama pull gemma3:12b |
| Phi-4 Mini | 1.6GB | 低リソースマシン | ollama pull phi4-mini |
| Mistral Nemo | 7.1GB | 多言語対応 | ollama pull mistral-nemo |
| Qwen 2.5 Coder 7B | 4.7GB | コードの自動補完 | ollama pull qwen2.5-coder:7b |
| Llama 3.1 70B | 40GB | 最高品質 | ollama pull llama3.1:70b |
パフォーマンス向上のヒント
GPU加速を使用する。 OllamaはNVIDIA (CUDA)、AMD (ROCm)、Apple Silicon GPUを自動的に検出します。以下のコマンドで確認してください:
ollama ps # どのモデルがロードされているか、GPUを使用しているかが表示されますコンテキストサイズを調整する。 コンテキストウィンドウを大きくすると、より多くのメモリを使用します。必要に応じて Modelfile または API コールで
num_ctxを設定してください。モデルをロードしたままにする。 Ollamaは最近使用したモデルをメモリ内に保持します。モデルを頻繁に切り替えるのは避けましょう。
量子化モデルを使用する。 ほとんどのユースケースにおいて、Q4量子化は速度と品質のバランスが最も優れています。
他のGPU負荷の高いアプリを閉じる。 動画編集ソフト、ゲーム、その他のAIツールはGPUメモリを競合します。
よくある質問
Ollamaは無料ですか? はい、Ollamaは完全に無料でオープンソース(MITライセンス)です。モデルを実行できるスペックのコンピュータがあれば十分です。
Ollamaをオフラインで使用できますか? はい。モデルを一度ダウンロードすれば、インターネット接続なしですべてローカルで動作します。
どのGPUが必要ですか? 7-8Bクラスのモデルの場合、6GB以上のVRAMを搭載したGPUであれば動作します。Apple Silicon Macは、ユニファイドメモリのおかげで非常に良好に動作します。CPUのみで実行することも可能です(動作は遅くなります)。
OllamaとLM Studioの違いは何ですか? どちらもローカルモデルを実行できます。OllamaはCLIファーストでREST APIを備えており、開発者やシステム統合に適しています。LM Studioはグラフィカルなインターフェースを持ち、非エンジニアのユーザーに適しています。
複数のモデルを同時に実行できますか? はい、十分なメモリがあれば可能です。Ollamaはオンデマンドでモデルをロードし、複数のモデルをメモリ内に保持できます。
Ollamaはビジョンモデル(画像認識)をサポートしていますか?
はい。llava や llama3.2-vision などのモデルは、画像入力をサポートしています。
まとめ
Ollamaを使えば、コマンド1つでローカルAIモデルを簡単に実行できます。完全なプライバシー、ゼロコストのAPI、またはオフラインアクセスが必要な場合、Ollamaは2026年におけるローカルLLM推論のための最適なツールです。まずは7-8Bモデルから始めて、アプリケーション構築のためのAPIを探索し、ハードウェアが許す限り大きなモデルへとスケールアップしていきましょう。
画像、ビデオ、話すアバターなどのAI生成メディアを必要とするアプリケーションを構築している場合は、Hypereal AIを無料でお試しください。35クレジット提供、クレジットカード不要です。テキストインテリジェンスのためのローカルLLMと、ビジュアルコンテンツ生成のためのHypereal APIを組み合わせて活用しましょう。
