如何使用 Ollama：零基础新手全指南 (2026)

如何使用 Ollama：完整入门指南 (2026)

Ollama 已成为在本地运行大语言模型的标准工具。如果你想在自己的硬件上使用 AI 模型——而不向云端 API 发送数据、不支付 Token 费用或受限于速率限制——Ollama 就是你需要的工具。它将下载、管理和运行开源 LLM 的过程简化为了几条终端命令。

本指南涵盖了从安装到高级用法的方方面面，包括模型管理、API 集成、自定义以及性能优化。

什么是 Ollama？

Ollama 是一个开源工具，可以轻松在 macOS、Linux 和 Windows 上本地运行大语言模型。它负责处理模型下载、量化、GPU 加速，并提供了一个与 OpenAI API 格式兼容的简单 API——这意味着你可以通过极少的代码改动，将其替换到大多数现有的 AI 应用中。

你可以把它理解为“LLM 界的 Docker”：拉取一个模型，运行它，并通过简洁的命令行界面或 HTTP API 与其交互。

系统要求

在安装之前，请确保你的系统满足最低要求：

组件	最低配置	推荐配置
RAM	8 GB	16+ GB
存储空间	10 GB 剩余	50+ GB（模型文件较大）
GPU (可选)	任何 4+ GB 显存的 NVIDIA GPU	NVIDIA RTX 3060+ (12 GB 显存) 或 Apple Silicon
操作系统	macOS 12+, Ubuntu 20.04+, Windows 10+	最新的稳定版操作系统

如果你没有 GPU，Ollama 可以在 CPU 上运行，但推理速度会显著降低。

第一步：安装 Ollama

macOS

# 方案 1：从官网下载
# 访问 https://ollama.com 并下载 macOS 安装程序

# 方案 2：使用 Homebrew
brew install ollama

Linux

curl -fsSL https://ollama.com/install.sh | sh

Windows

从 ollama.com 下载安装程序并运行。Ollama 在 Windows 上作为系统服务运行。

验证安装

ollama --version
# 预期输出：ollama version 0.5.x

第二步：拉取并运行你的第一个模型

Ollama 使用类似 Docker 的 pull/run 工作流：

# 拉取模型（下载到本地机器）
ollama pull llama3.2

# 交互式运行模型
ollama run llama3.2

这将进入交互式对话会话。输入你的消息并按回车键获取回复。输入 /bye 退出。

模型	参数量	所需内存 (RAM)	所需显存 (VRAM)	适用场景
llama3.2:3b	3B	4 GB	3 GB	快速任务，低配置机器
llama3.2	8B	8 GB	6 GB	通用场景，平衡性好
llama3.1:70b	70B	48 GB	40 GB	复杂推理，高端硬件
mistral	7B	8 GB	5 GB	运行快，指令遵循能力好
gemma2:9b	9B	8 GB	6 GB	Google 开源模型，推理能力强
codellama	7B	8 GB	5 GB	代码生成与分析
deepseek-coder-v2	16B	12 GB	10 GB	高级编程任务
phi3:mini	3.8B	4 GB	3 GB	同尺寸下性能惊人
qwen2.5:7b	7B	8 GB	5 GB	多语言，编程能力强

第三步：模型管理

列出已下载的模型

ollama list

输出示例：

NAME                ID            SIZE      MODIFIED
llama3.2:latest     a80c4f17acd5  4.7 GB    2 minutes ago
mistral:latest      2ae6f6dd7a3d  4.1 GB    5 minutes ago
codellama:latest    8fdf8f752f6e  3.8 GB    10 minutes ago

删除模型

ollama rm codellama

查看模型详情

ollama show llama3.2

复制/重命名模型

ollama cp llama3.2 my-custom-llama

第四步：使用 Ollama API

Ollama 默认在 localhost:11434 运行 HTTP 服务器。该 API 与 OpenAI 格式兼容，集成非常简单。

基础 API 调用

curl http://localhost:11434/api/generate -d '{
  "model": "llama3.2",
  "prompt": "用三句话解释 REST 和 GraphQL 的区别。",
  "stream": false
}'

对话 API (多轮对话)

curl http://localhost:11434/api/chat -d '{
  "model": "llama3.2",
  "messages": [
    {"role": "system", "content": "你是一个得力的编程助手。"},
    {"role": "user", "content": "写一个 Python 函数来验证电子邮件地址。"}
  ],
  "stream": false
}'

在 Python 中使用

import requests

response = requests.post("http://localhost:11434/api/generate", json={
    "model": "llama3.2",
    "prompt": "写一个备份 PostgreSQL 数据库的 bash 脚本。",
    "stream": False
})

print(response.json()["response"])

使用 OpenAI Python SDK

由于 Ollama 的 API 兼容 OpenAI，你可以使用官方的 OpenAI SDK：

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama"  # 填入任何字符串即可
)

response = client.chat.completions.create(
    model="llama3.2",
    messages=[
        {"role": "system", "content": "你是一位资深 Python 开发工程师。"},
        {"role": "user", "content": "用 Python 写一个线程安全的单例模式。"}
    ]
)

print(response.choices[0].message.content)

第五步：使用 Modelfiles 创建自定义模型

Ollama 允许你使用 Modelfile（类似于 Dockerfile）创建自定义模型配置：

# 保存为 Modelfile
FROM llama3.2

# 设置系统提示词
SYSTEM """
你是一位专注于 TypeScript, React 和 Node.js 的资深全栈开发工程师。
请始终提供包含错误处理和 TypeScript 类型的生产级代码。
当被问及架构决策时，请解释权衡取舍。
"""

# 调整参数
PARAMETER temperature 0.3
PARAMETER top_p 0.9
PARAMETER num_ctx 8192

构建并运行你的自定义模型：

ollama create my-dev-assistant -f Modelfile
ollama run my-dev-assistant

第六步：GPU 加速

NVIDIA GPU

如果你安装了 CUDA 驱动程序，Ollama 会自动检测 NVIDIA GPU：

# 检查 GPU 是否正在使用
ollama ps

Apple Silicon (M1/M2/M3/M4)

Ollama 在 Apple Silicon 上会自动使用 Metal 加速，无需额外配置。配备统一内存的 Apple Silicon Mac 特别适合运行 LLM，因为 GPU 可以访问全部系统内存。

跨 GPU 和 CPU 拆分模型

对于显存 (VRAM) 容纳不下的超大模型，Ollama 会自动在 GPU 和 CPU 之间拆分模型：

# 手动设置 GPU 层数
OLLAMA_NUM_GPU=20 ollama run llama3.1:70b

性能优化技巧

1. 使用量化模型

量化模型占用更少的内存，运行速度更快且质量损失微乎其微：

# Q4 量化（速度与质量的良好平衡）
ollama pull llama3.2:8b-instruct-q4_K_M

# Q8 量化（更高质量，更多内存占用）
ollama pull llama3.2:8b-instruct-q8_0

2. 增加上下文窗口

# 通过环境变量设置上下文窗口
OLLAMA_NUM_CTX=16384 ollama run llama3.2

3. 保持模型驻留

默认情况下，Ollama 在 5 分钟无活动后会卸载模型。可以修改此设置：

# 使模型无限期驻留内存
OLLAMA_KEEP_ALIVE=-1 ollama serve

4. 运行多个模型

如果内存足够，Ollama 可以同时提供多个模型服务：

# 在不同的终端中运行
ollama run llama3.2      # 处理通用任务
ollama run codellama     # 处理编程任务

常见问题与解决办法

问题	解决办法
"model not found"	请先运行 `ollama pull 模型名称`
GPU 推理缓慢	更新 GPU 驱动；使用 `ollama ps` 检查 GPU 使用情况
内存不足 (Out of memory)	使用更小的模型或量化版本
11434 端口已被占用	停止现有的 Ollama 实例：`ollama stop`
模型下载缓慢	检查网络连接；Ollama CDN 可能处于拥塞状态

总结

Ollama 让在本地运行 LLM 变得像运行 Docker 容器一样简单。无论你是为了隐私保护、希望避免 API 成本，还是仅仅想尝试开源模型，Ollama 都是 2026 年开启本地 AI 之旅最直接的方式。

对于既需要本地 AI 推理又需要高质量媒体生成的项目，可以考虑将 Ollama 与 Hypereal AI 结合使用。使用 Ollama 进行私密、免费的文本生成，使用 Hypereal AI 经济高效的 API 生成图像、视频、AI 数字人和语音内容——为你提供一套完整的 AI 工具箱，且无需巨额开销。

如何使用 Ollama：完整入门指南 (2026)

本指南涵盖了从安装到高级用法的方方面面，包括模型管理、API 集成、自定义以及性能优化。

什么是 Ollama？

你可以把它理解为“LLM 界的 Docker”：拉取一个模型，运行它，并通过简洁的命令行界面或 HTTP API 与其交互。

系统要求

在安装之前，请确保你的系统满足最低要求：

组件	最低配置	推荐配置
RAM	8 GB	16+ GB
存储空间	10 GB 剩余	50+ GB（模型文件较大）
GPU (可选)	任何 4+ GB 显存的 NVIDIA GPU	NVIDIA RTX 3060+ (12 GB 显存) 或 Apple Silicon
操作系统	macOS 12+, Ubuntu 20.04+, Windows 10+	最新的稳定版操作系统

如果你没有 GPU，Ollama 可以在 CPU 上运行，但推理速度会显著降低。

第一步：安装 Ollama

macOS

# 方案 1：从官网下载
# 访问 https://ollama.com 并下载 macOS 安装程序

# 方案 2：使用 Homebrew
brew install ollama

Linux

curl -fsSL https://ollama.com/install.sh | sh

Windows

从 ollama.com 下载安装程序并运行。Ollama 在 Windows 上作为系统服务运行。

验证安装

ollama --version
# 预期输出：ollama version 0.5.x

第二步：拉取并运行你的第一个模型

Ollama 使用类似 Docker 的 pull/run 工作流：

# 拉取模型（下载到本地机器）
ollama pull llama3.2

# 交互式运行模型
ollama run llama3.2

这将进入交互式对话会话。输入你的消息并按回车键获取回复。输入 /bye 退出。

模型	参数量	所需内存 (RAM)	所需显存 (VRAM)	适用场景
llama3.2:3b	3B	4 GB	3 GB	快速任务，低配置机器
llama3.2	8B	8 GB	6 GB	通用场景，平衡性好
llama3.1:70b	70B	48 GB	40 GB	复杂推理，高端硬件
mistral	7B	8 GB	5 GB	运行快，指令遵循能力好
gemma2:9b	9B	8 GB	6 GB	Google 开源模型，推理能力强
codellama	7B	8 GB	5 GB	代码生成与分析
deepseek-coder-v2	16B	12 GB	10 GB	高级编程任务
phi3:mini	3.8B	4 GB	3 GB	同尺寸下性能惊人
qwen2.5:7b	7B	8 GB	5 GB	多语言，编程能力强

第三步：模型管理

列出已下载的模型

ollama list

输出示例：

NAME                ID            SIZE      MODIFIED
llama3.2:latest     a80c4f17acd5  4.7 GB    2 minutes ago
mistral:latest      2ae6f6dd7a3d  4.1 GB    5 minutes ago
codellama:latest    8fdf8f752f6e  3.8 GB    10 minutes ago

删除模型

ollama rm codellama

查看模型详情

ollama show llama3.2

复制/重命名模型

ollama cp llama3.2 my-custom-llama

第四步：使用 Ollama API

Ollama 默认在 localhost:11434 运行 HTTP 服务器。该 API 与 OpenAI 格式兼容，集成非常简单。

基础 API 调用

curl http://localhost:11434/api/generate -d '{
  "model": "llama3.2",
  "prompt": "用三句话解释 REST 和 GraphQL 的区别。",
  "stream": false
}'

对话 API (多轮对话)

curl http://localhost:11434/api/chat -d '{
  "model": "llama3.2",
  "messages": [
    {"role": "system", "content": "你是一个得力的编程助手。"},
    {"role": "user", "content": "写一个 Python 函数来验证电子邮件地址。"}
  ],
  "stream": false
}'

在 Python 中使用

import requests

response = requests.post("http://localhost:11434/api/generate", json={
    "model": "llama3.2",
    "prompt": "写一个备份 PostgreSQL 数据库的 bash 脚本。",
    "stream": False
})

print(response.json()["response"])

使用 OpenAI Python SDK

由于 Ollama 的 API 兼容 OpenAI，你可以使用官方的 OpenAI SDK：

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama"  # 填入任何字符串即可
)

response = client.chat.completions.create(
    model="llama3.2",
    messages=[
        {"role": "system", "content": "你是一位资深 Python 开发工程师。"},
        {"role": "user", "content": "用 Python 写一个线程安全的单例模式。"}
    ]
)

print(response.choices[0].message.content)

第五步：使用 Modelfiles 创建自定义模型

Ollama 允许你使用 Modelfile（类似于 Dockerfile）创建自定义模型配置：

# 保存为 Modelfile
FROM llama3.2

# 设置系统提示词
SYSTEM """
你是一位专注于 TypeScript, React 和 Node.js 的资深全栈开发工程师。
请始终提供包含错误处理和 TypeScript 类型的生产级代码。
当被问及架构决策时，请解释权衡取舍。
"""

# 调整参数
PARAMETER temperature 0.3
PARAMETER top_p 0.9
PARAMETER num_ctx 8192

构建并运行你的自定义模型：

ollama create my-dev-assistant -f Modelfile
ollama run my-dev-assistant

第六步：GPU 加速

NVIDIA GPU

如果你安装了 CUDA 驱动程序，Ollama 会自动检测 NVIDIA GPU：

# 检查 GPU 是否正在使用
ollama ps

Apple Silicon (M1/M2/M3/M4)

Ollama 在 Apple Silicon 上会自动使用 Metal 加速，无需额外配置。配备统一内存的 Apple Silicon Mac 特别适合运行 LLM，因为 GPU 可以访问全部系统内存。

跨 GPU 和 CPU 拆分模型

对于显存 (VRAM) 容纳不下的超大模型，Ollama 会自动在 GPU 和 CPU 之间拆分模型：

# 手动设置 GPU 层数
OLLAMA_NUM_GPU=20 ollama run llama3.1:70b

性能优化技巧

1. 使用量化模型

量化模型占用更少的内存，运行速度更快且质量损失微乎其微：

# Q4 量化（速度与质量的良好平衡）
ollama pull llama3.2:8b-instruct-q4_K_M

# Q8 量化（更高质量，更多内存占用）
ollama pull llama3.2:8b-instruct-q8_0

2. 增加上下文窗口

# 通过环境变量设置上下文窗口
OLLAMA_NUM_CTX=16384 ollama run llama3.2

3. 保持模型驻留

默认情况下，Ollama 在 5 分钟无活动后会卸载模型。可以修改此设置：

# 使模型无限期驻留内存
OLLAMA_KEEP_ALIVE=-1 ollama serve

4. 运行多个模型

如果内存足够，Ollama 可以同时提供多个模型服务：

# 在不同的终端中运行
ollama run llama3.2      # 处理通用任务
ollama run codellama     # 处理编程任务

常见问题与解决办法

问题	解决办法
"model not found"	请先运行 `ollama pull 模型名称`
GPU 推理缓慢	更新 GPU 驱动；使用 `ollama ps` 检查 GPU 使用情况
内存不足 (Out of memory)	使用更小的模型或量化版本
11434 端口已被占用	停止现有的 Ollama 实例：`ollama stop`
模型下载缓慢	检查网络连接；Ollama CDN 可能处于拥塞状态

开始使用 Hypereal 构建

如何使用 Ollama：完整入门指南 (2026)

什么是 Ollama？

系统要求

第一步：安装 Ollama

macOS

Linux

Windows

验证安装

第二步：拉取并运行你的第一个模型

推荐入门模型

第三步：模型管理

列出已下载的模型

删除模型

查看模型详情

复制/重命名模型

第四步：使用 Ollama API

基础 API 调用

对话 API (多轮对话)

在 Python 中使用

使用 OpenAI Python SDK

第五步：使用 Modelfiles 创建自定义模型

第六步：GPU 加速

NVIDIA GPU

Apple Silicon (M1/M2/M3/M4)

跨 GPU 和 CPU 拆分模型

性能优化技巧

1. 使用量化模型

2. 增加上下文窗口

3. 保持模型驻留

4. 运行多个模型

常见问题与解决办法

总结

相关文章

2026 年最佳开源 RAG 框架

如何下载与使用 Ollama：详细步骤指南 (2026)

如何在 Ollama 中使用 Qwen 3 Embedding 和 Reranker (2026)

立即开始构建

开始使用 Hypereal 构建

如何使用 Ollama：完整入门指南 (2026)

什么是 Ollama？

系统要求

第一步：安装 Ollama

macOS

Linux

Windows

验证安装

第二步：拉取并运行你的第一个模型

推荐入门模型

第三步：模型管理

列出已下载的模型

删除模型

查看模型详情

复制/重命名模型

第四步：使用 Ollama API

基础 API 调用

对话 API (多轮对话)

在 Python 中使用

使用 OpenAI Python SDK

第五步：使用 Modelfiles 创建自定义模型

第六步：GPU 加速

NVIDIA GPU

Apple Silicon (M1/M2/M3/M4)

跨 GPU 和 CPU 拆分模型

性能优化技巧

1. 使用量化模型

2. 增加上下文窗口

3. 保持模型驻留

4. 运行多个模型

常见问题与解决办法

总结

相关文章

2026 年最佳开源 RAG 框架

如何下载与使用 Ollama：详细步骤指南 (2026)

如何在 Ollama 中使用 Qwen 3 Embedding 和 Reranker (2026)

立即开始构建