如何下载与使用 Ollama：详细步骤指南 (2026)

如何下载和使用 Ollama：分步指南 (2026)

Ollama 是在本地计算机上运行大语言模型最简单的方法。无需支付 API 调用费用或依赖云服务，Ollama 让您只需一条命令，即可在机器上直接下载并运行 Llama 4、Qwen 3、DeepSeek、Gemma 和 Phi 等模型。

本指南涵盖了从安装到运行第一个模型、管理多个模型、使用 API 以及优化性能的所有内容。

为什么在本地运行模型？

优势	描述
隐私	您的数据永远不会离开您的机器
无 API 成本	下载后可无限次使用
离线访问	无需互联网即可工作
无速率限制	没有速度限制或配额
自定义	运行微调模型和自定义模型
速度	本地推理没有网络延迟

折中方案是您需要一台拥有足够 RAM 和（理想情况下）GPU 的计算机。但现代的量化模型在消费级硬件上的运行效果出奇地好。

硬件要求

模型大小	所需 RAM	GPU 显存 (VRAM)	示例模型
1-3B	4GB	2GB+	Phi-4 Mini, Gemma 3 1B
7-8B	8GB	6GB+	Llama 3.1 8B, Qwen 3 8B
14B	16GB	10GB+	Qwen 3 14B, Gemma 3 12B
32-34B	32GB	24GB+	Qwen 3 32B, DeepSeek Coder 33B
70B	48GB+	48GB+	Llama 3.1 70B

Ollama 可以在纯 CPU 上运行（速度较慢），也可以使用 NVIDIA、AMD 或 Apple Silicon GPU 的 GPU 加速。拥有统一内存的 Apple Silicon Mac 特别适合运行较大的模型。

第 1 步：下载并安装 Ollama

macOS

# 选项 1：从网站下载
# 访问 https://ollama.com/download 并下载 macOS 应用程序

# 选项 2：通过 Homebrew 安装
brew install ollama

macOS 应用程序将 Ollama 安装为一个菜单栏应用程序，并在后台运行服务器。

Windows

访问 ollama.com/download。
下载 Windows 安装程序。
运行安装程序并按照提示操作。
安装后，Ollama 将作为系统服务运行。

Linux

# 单行安装脚本
curl -fsSL https://ollama.ai/install.sh | sh

# 或手动安装
# 从 GitHub releases 下载对应架构的二进制文件

验证安装

ollama --version
# 输出：ollama version 0.6.x

第 2 步：下载您的第一个模型

Ollama 的模型库拥有数百个模型。从拉取一个模型开始：

# 下载 Llama 3.1 8B (4.7GB)
ollama pull llama3.1

# 下载 Qwen 3 8B (4.9GB)
ollama pull qwen3

# 下载一个较小的模型用于测试 (1.6GB)
ollama pull phi4-mini

下载只需执行一次。之后，模型将从您的本地存储加载。

第 3 步：与模型聊天

开始交互式聊天会话：

ollama run llama3.1

这将打开一个 REPL，您可以在其中输入消息：

>>> What is the capital of France?
法国的首都是巴黎。它是法国最大的城市，也是国家的政治、经济和文化中心。

>>> Write a Python function to reverse a string
这是一个反转字符串的简单 Python 函数：

def reverse_string(s):
    return s[::-1]

# 示例用法
print(reverse_string("hello"))  # 输出: "olleh"

>>> /bye

使用 /bye 退出聊天。

第 4 步：使用 REST API

Ollama 在 http://localhost:11434 运行一个本地 API 服务器。这对于构建应用程序非常有用：

聊天补全 (Chat Completion)

curl http://localhost:11434/api/chat \
  -d '{
    "model": "llama3.1",
    "messages": [
      {"role": "user", "content": "用三句话解释 Docker。"}
    ]
  }'

OpenAI 兼容端点

Ollama 还提供了一个兼容 OpenAI 的端点，因此您可以将其与任何 OpenAI SDK 配合使用：

import openai

client = openai.OpenAI(
    api_key="ollama",  # 任何值都可以
    base_url="http://localhost:11434/v1"
)

response = client.chat.completions.create(
    model="llama3.1",
    messages=[
        {"role": "system", "content": "你是一个得力的助手。"},
        {"role": "user", "content": "如何在 CSS 中让 div 居中？"}
    ],
    temperature=0.7
)

print(response.choices[0].message.content)

流式响应

stream = client.chat.completions.create(
    model="llama3.1",
    messages=[
        {"role": "user", "content": "写一首关于编程的俳句。"}
    ],
    stream=True
)

for chunk in stream:
    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content, end="", flush=True)

第 5 步：管理模型

列出已下载的模型

ollama list

# 输出示例：
# NAME              SIZE     MODIFIED
# llama3.1:latest   4.7 GB   2 hours ago
# qwen3:latest      4.9 GB   1 hour ago
# phi4-mini:latest  1.6 GB   30 minutes ago

移除模型

ollama rm phi4-mini

拉取特定的尺寸变体

许多模型提供多种尺寸：

# 较小的量化（更快，精度稍低）
ollama pull llama3.1:8b-q4_0

# 较大的量化（较慢，精度更高）
ollama pull llama3.1:8b-q8_0

# 特定的参数量
ollama pull qwen3:14b
ollama pull qwen3:32b

查看模型信息

ollama show llama3.1

# 显示模型详情：参数、量化方式、模板、许可证等。

第 6 步：使用 Modelfile 创建自定义模型

Modelfile 允许您自定义模型的行为：

# Modelfile 示例
FROM llama3.1

# 设置自定义系统提示词
SYSTEM """你是一位资深的软件工程师。你编写简洁、文档齐全。
且包含适当错误处理的代码。在展示代码前，始终先解释你的思路。"""

# 调整参数
PARAMETER temperature 0.3
PARAMETER top_p 0.9
PARAMETER num_ctx 8192

构建并运行您的自定义模型：

# 创建模型
ollama create my-coder -f Modelfile

# 运行它
ollama run my-coder

第 7 步：在常用工具中使用 Ollama

Ollama 已集成到许多 AI 工具中：

在 Cursor 中使用

在 Cursor 设置中，将 Ollama 添加为自定义模型提供商：

Base URL: http://localhost:11434/v1
API Key: ollama
Model: llama3.1

在 Continue.dev (VS Code) 中使用

// ~/.continue/config.json
{
  "models": [
    {
      "title": "Ollama - Llama 3.1",
      "provider": "ollama",
      "model": "llama3.1"
    }
  ],
  "tabAutocompleteModel": {
    "title": "Ollama - Qwen Coder",
    "provider": "ollama",
    "model": "qwen2.5-coder:7b"
  }
}

在 Open WebUI (类似 ChatGPT 的界面) 中使用

docker run -d \
  -p 3000:8080 \
  -v open-webui:/app/backend/data \
  --add-host=host.docker.internal:host-gateway \
  --name open-webui \
  ghcr.io/open-webui/open-webui:main

打开 http://localhost:3000 即可使用连接到本地 Ollama 模型的类 ChatGPT Web 界面。

2026 年推荐模型

模型	大小	最适合	命令
Llama 3.1 8B	4.7GB	通用任务	`ollama pull llama3.1`
Qwen 3 8B	4.9GB	编程 + 推理	`ollama pull qwen3`
DeepSeek Coder V2	8.9GB	代码生成	`ollama pull deepseek-coder-v2`
Gemma 3 12B	8.1GB	指令遵循	`ollama pull gemma3:12b`
Phi-4 Mini	1.6GB	低配机器	`ollama pull phi4-mini`
Mistral Nemo	7.1GB	多语言支持	`ollama pull mistral-nemo`
Qwen 2.5 Coder 7B	4.7GB	代码自动补全	`ollama pull qwen2.5-coder:7b`
Llama 3.1 70B	40GB	最高质量	`ollama pull llama3.1:70b`

性能优化提示

使用 GPU 加速。 Ollama 会自动检测 NVIDIA (CUDA)、AMD (ROCm) 和 Apple Silicon GPU。通过以下命令验证：
```
ollama ps
# 显示哪些模型已加载以及是否使用了 GPU
```
调整上下文大小。 较大的上下文窗口会消耗更多内存。在 Modelfile 或 API 调用中设置 num_ctx 以匹配您的需求。
保持模型常驻。 Ollama 会将最近使用的模型保留在内存中。避免频繁切换模型。
使用量化模型。 对于大多数用例，Q4 量化在速度和质量之间提供了最佳平衡。
关闭其他占用 GPU 的应用。 视频编辑器、游戏和其他 AI 工具会争夺 GPU 内存。

常见问题解答

Ollama 是免费的吗？ 是的，Ollama 完全免费且开源（MIT 许可证）。您只需要一台能够运行模型的计算机。

我可以离线使用 Ollama 吗？ 可以。一旦您下载了模型，所有内容都会在本地运行，无需互联网。

我需要什么样的 GPU？ 对于 7-8B 模型，任何显存大于 6GB 的 GPU 都可以。由于统一内存，Apple Silicon Mac 的表现尤为出色。您也可以在纯 CPU 上运行（速度较慢）。

Ollama 与 LM Studio 相比如何？ 两者都能运行本地模型。Ollama 以 CLI（命令行）为主并带有 REST API，更适合开发人员和集成。LM Studio 拥有图形界面，更适合非技术用户。

我可以同时运行多个模型吗？ 可以，只要您有足够的内存。Ollama 按需加载模型，并可以将多个模型保留在内存中。

Ollama 支持视觉模型吗？ 支持。llava 和 llama3.2-vision 等模型支持图像输入。

总结

Ollama 让运行本地 AI 模型变得像执行一条命令一样简单。无论您是追求完全的隐私、零 API 成本，还是离线访问，它都是 2026 年本地 LLM 推理的最佳工具。从 7-8B 模型开始，探索用于构建应用程序的 API，并在硬件允许的情况下升级到更大的模型。

如果您正在构建需要 AI 生成媒体（如图像、视频或数字人头像）的应用程序，免费试用 Hypereal AI -- 35 积分，无需信用卡。将用于文本智能的本地 LLM 与用于视觉内容生成的 Hypereal API 相结合。

如何下载和使用 Ollama：分步指南 (2026)

本指南涵盖了从安装到运行第一个模型、管理多个模型、使用 API 以及优化性能的所有内容。

为什么在本地运行模型？

优势	描述
隐私	您的数据永远不会离开您的机器
无 API 成本	下载后可无限次使用
离线访问	无需互联网即可工作
无速率限制	没有速度限制或配额
自定义	运行微调模型和自定义模型
速度	本地推理没有网络延迟

折中方案是您需要一台拥有足够 RAM 和（理想情况下）GPU 的计算机。但现代的量化模型在消费级硬件上的运行效果出奇地好。

硬件要求

模型大小	所需 RAM	GPU 显存 (VRAM)	示例模型
1-3B	4GB	2GB+	Phi-4 Mini, Gemma 3 1B
7-8B	8GB	6GB+	Llama 3.1 8B, Qwen 3 8B
14B	16GB	10GB+	Qwen 3 14B, Gemma 3 12B
32-34B	32GB	24GB+	Qwen 3 32B, DeepSeek Coder 33B
70B	48GB+	48GB+	Llama 3.1 70B

Ollama 可以在纯 CPU 上运行（速度较慢），也可以使用 NVIDIA、AMD 或 Apple Silicon GPU 的 GPU 加速。拥有统一内存的 Apple Silicon Mac 特别适合运行较大的模型。

第 1 步：下载并安装 Ollama

macOS

# 选项 1：从网站下载
# 访问 https://ollama.com/download 并下载 macOS 应用程序

# 选项 2：通过 Homebrew 安装
brew install ollama

macOS 应用程序将 Ollama 安装为一个菜单栏应用程序，并在后台运行服务器。

Windows

访问 ollama.com/download。
下载 Windows 安装程序。
运行安装程序并按照提示操作。
安装后，Ollama 将作为系统服务运行。

Linux

# 单行安装脚本
curl -fsSL https://ollama.ai/install.sh | sh

# 或手动安装
# 从 GitHub releases 下载对应架构的二进制文件

验证安装

ollama --version
# 输出：ollama version 0.6.x

第 2 步：下载您的第一个模型

Ollama 的模型库拥有数百个模型。从拉取一个模型开始：

# 下载 Llama 3.1 8B (4.7GB)
ollama pull llama3.1

# 下载 Qwen 3 8B (4.9GB)
ollama pull qwen3

# 下载一个较小的模型用于测试 (1.6GB)
ollama pull phi4-mini

下载只需执行一次。之后，模型将从您的本地存储加载。

第 3 步：与模型聊天

开始交互式聊天会话：

ollama run llama3.1

这将打开一个 REPL，您可以在其中输入消息：

>>> What is the capital of France?
法国的首都是巴黎。它是法国最大的城市，也是国家的政治、经济和文化中心。

>>> Write a Python function to reverse a string
这是一个反转字符串的简单 Python 函数：

def reverse_string(s):
    return s[::-1]

# 示例用法
print(reverse_string("hello"))  # 输出: "olleh"

>>> /bye

使用 /bye 退出聊天。

第 4 步：使用 REST API

Ollama 在 http://localhost:11434 运行一个本地 API 服务器。这对于构建应用程序非常有用：

聊天补全 (Chat Completion)

curl http://localhost:11434/api/chat \
  -d '{
    "model": "llama3.1",
    "messages": [
      {"role": "user", "content": "用三句话解释 Docker。"}
    ]
  }'

OpenAI 兼容端点

Ollama 还提供了一个兼容 OpenAI 的端点，因此您可以将其与任何 OpenAI SDK 配合使用：

import openai

client = openai.OpenAI(
    api_key="ollama",  # 任何值都可以
    base_url="http://localhost:11434/v1"
)

response = client.chat.completions.create(
    model="llama3.1",
    messages=[
        {"role": "system", "content": "你是一个得力的助手。"},
        {"role": "user", "content": "如何在 CSS 中让 div 居中？"}
    ],
    temperature=0.7
)

print(response.choices[0].message.content)

流式响应

stream = client.chat.completions.create(
    model="llama3.1",
    messages=[
        {"role": "user", "content": "写一首关于编程的俳句。"}
    ],
    stream=True
)

for chunk in stream:
    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content, end="", flush=True)

第 5 步：管理模型

列出已下载的模型

ollama list

# 输出示例：
# NAME              SIZE     MODIFIED
# llama3.1:latest   4.7 GB   2 hours ago
# qwen3:latest      4.9 GB   1 hour ago
# phi4-mini:latest  1.6 GB   30 minutes ago

移除模型

ollama rm phi4-mini

拉取特定的尺寸变体

许多模型提供多种尺寸：

# 较小的量化（更快，精度稍低）
ollama pull llama3.1:8b-q4_0

# 较大的量化（较慢，精度更高）
ollama pull llama3.1:8b-q8_0

# 特定的参数量
ollama pull qwen3:14b
ollama pull qwen3:32b

查看模型信息

ollama show llama3.1

# 显示模型详情：参数、量化方式、模板、许可证等。

第 6 步：使用 Modelfile 创建自定义模型

Modelfile 允许您自定义模型的行为：

# Modelfile 示例
FROM llama3.1

# 设置自定义系统提示词
SYSTEM """你是一位资深的软件工程师。你编写简洁、文档齐全。
且包含适当错误处理的代码。在展示代码前，始终先解释你的思路。"""

# 调整参数
PARAMETER temperature 0.3
PARAMETER top_p 0.9
PARAMETER num_ctx 8192

构建并运行您的自定义模型：

# 创建模型
ollama create my-coder -f Modelfile

# 运行它
ollama run my-coder

第 7 步：在常用工具中使用 Ollama

Ollama 已集成到许多 AI 工具中：

在 Cursor 中使用

在 Cursor 设置中，将 Ollama 添加为自定义模型提供商：

Base URL: http://localhost:11434/v1
API Key: ollama
Model: llama3.1

在 Continue.dev (VS Code) 中使用

// ~/.continue/config.json
{
  "models": [
    {
      "title": "Ollama - Llama 3.1",
      "provider": "ollama",
      "model": "llama3.1"
    }
  ],
  "tabAutocompleteModel": {
    "title": "Ollama - Qwen Coder",
    "provider": "ollama",
    "model": "qwen2.5-coder:7b"
  }
}

在 Open WebUI (类似 ChatGPT 的界面) 中使用

docker run -d \
  -p 3000:8080 \
  -v open-webui:/app/backend/data \
  --add-host=host.docker.internal:host-gateway \
  --name open-webui \
  ghcr.io/open-webui/open-webui:main

打开 http://localhost:3000 即可使用连接到本地 Ollama 模型的类 ChatGPT Web 界面。

2026 年推荐模型

模型	大小	最适合	命令
Llama 3.1 8B	4.7GB	通用任务	`ollama pull llama3.1`
Qwen 3 8B	4.9GB	编程 + 推理	`ollama pull qwen3`
DeepSeek Coder V2	8.9GB	代码生成	`ollama pull deepseek-coder-v2`
Gemma 3 12B	8.1GB	指令遵循	`ollama pull gemma3:12b`
Phi-4 Mini	1.6GB	低配机器	`ollama pull phi4-mini`
Mistral Nemo	7.1GB	多语言支持	`ollama pull mistral-nemo`
Qwen 2.5 Coder 7B	4.7GB	代码自动补全	`ollama pull qwen2.5-coder:7b`
Llama 3.1 70B	40GB	最高质量	`ollama pull llama3.1:70b`

性能优化提示

使用 GPU 加速。 Ollama 会自动检测 NVIDIA (CUDA)、AMD (ROCm) 和 Apple Silicon GPU。通过以下命令验证：
```
ollama ps
# 显示哪些模型已加载以及是否使用了 GPU
```
调整上下文大小。 较大的上下文窗口会消耗更多内存。在 Modelfile 或 API 调用中设置 num_ctx 以匹配您的需求。
保持模型常驻。 Ollama 会将最近使用的模型保留在内存中。避免频繁切换模型。
使用量化模型。 对于大多数用例，Q4 量化在速度和质量之间提供了最佳平衡。
关闭其他占用 GPU 的应用。 视频编辑器、游戏和其他 AI 工具会争夺 GPU 内存。

常见问题解答

Ollama 是免费的吗？ 是的，Ollama 完全免费且开源（MIT 许可证）。您只需要一台能够运行模型的计算机。

我可以离线使用 Ollama 吗？ 可以。一旦您下载了模型，所有内容都会在本地运行，无需互联网。

我可以同时运行多个模型吗？ 可以，只要您有足够的内存。Ollama 按需加载模型，并可以将多个模型保留在内存中。

Ollama 支持视觉模型吗？ 支持。llava 和 llama3.2-vision 等模型支持图像输入。

开始使用 Hypereal 构建

如何下载和使用 Ollama：分步指南 (2026)

为什么在本地运行模型？

硬件要求

第 1 步：下载并安装 Ollama

macOS

Windows

Linux

验证安装

第 2 步：下载您的第一个模型

第 3 步：与模型聊天

第 4 步：使用 REST API

聊天补全 (Chat Completion)

OpenAI 兼容端点

流式响应

第 5 步：管理模型

列出已下载的模型

移除模型

拉取特定的尺寸变体

查看模型信息

第 6 步：使用 Modelfile 创建自定义模型

第 7 步：在常用工具中使用 Ollama

在 Cursor 中使用

在 Continue.dev (VS Code) 中使用

在 Open WebUI (类似 ChatGPT 的界面) 中使用

2026 年推荐模型

性能优化提示

常见问题解答

总结

相关文章

2026 年最佳开源 RAG 框架

如何使用 Ollama：零基础新手全指南 (2026)

如何在 Ollama 中使用 Qwen 3 Embedding 和 Reranker (2026)

立即开始构建

开始使用 Hypereal 构建

如何下载和使用 Ollama：分步指南 (2026)

为什么在本地运行模型？

硬件要求

第 1 步：下载并安装 Ollama

macOS

Windows

Linux

验证安装

第 2 步：下载您的第一个模型

第 3 步：与模型聊天

第 4 步：使用 REST API

聊天补全 (Chat Completion)

OpenAI 兼容端点

流式响应

第 5 步：管理模型

列出已下载的模型

移除模型

拉取特定的尺寸变体

查看模型信息

第 6 步：使用 Modelfile 创建自定义模型

第 7 步：在常用工具中使用 Ollama

在 Cursor 中使用

在 Continue.dev (VS Code) 中使用

在 Open WebUI (类似 ChatGPT 的界面) 中使用

2026 年推荐模型

性能优化提示

常见问题解答

总结

相关文章

2026 年最佳开源 RAG 框架

如何使用 Ollama：零基础新手全指南 (2026)

如何在 Ollama 中使用 Qwen 3 Embedding 和 Reranker (2026)

立即开始构建