如何下载与使用 Ollama:详细步骤指南 (2026)
在您自己的机器上本地运行强大的 AI 模型
开始使用 Hypereal 构建
通过单个 API 访问 Kling、Flux、Sora、Veo 等。免费积分开始,扩展到数百万。
无需信用卡 • 10万+ 开发者 • 企业级服务
如何下载和使用 Ollama:分步指南 (2026)
Ollama 是在本地计算机上运行大语言模型最简单的方法。无需支付 API 调用费用或依赖云服务,Ollama 让您只需一条命令,即可在机器上直接下载并运行 Llama 4、Qwen 3、DeepSeek、Gemma 和 Phi 等模型。
本指南涵盖了从安装到运行第一个模型、管理多个模型、使用 API 以及优化性能的所有内容。
为什么在本地运行模型?
| 优势 | 描述 |
|---|---|
| 隐私 | 您的数据永远不会离开您的机器 |
| 无 API 成本 | 下载后可无限次使用 |
| 离线访问 | 无需互联网即可工作 |
| 无速率限制 | 没有速度限制或配额 |
| 自定义 | 运行微调模型和自定义模型 |
| 速度 | 本地推理没有网络延迟 |
折中方案是您需要一台拥有足够 RAM 和(理想情况下)GPU 的计算机。但现代的量化模型在消费级硬件上的运行效果出奇地好。
硬件要求
| 模型大小 | 所需 RAM | GPU 显存 (VRAM) | 示例模型 |
|---|---|---|---|
| 1-3B | 4GB | 2GB+ | Phi-4 Mini, Gemma 3 1B |
| 7-8B | 8GB | 6GB+ | Llama 3.1 8B, Qwen 3 8B |
| 14B | 16GB | 10GB+ | Qwen 3 14B, Gemma 3 12B |
| 32-34B | 32GB | 24GB+ | Qwen 3 32B, DeepSeek Coder 33B |
| 70B | 48GB+ | 48GB+ | Llama 3.1 70B |
Ollama 可以在纯 CPU 上运行(速度较慢),也可以使用 NVIDIA、AMD 或 Apple Silicon GPU 的 GPU 加速。拥有统一内存的 Apple Silicon Mac 特别适合运行较大的模型。
第 1 步:下载并安装 Ollama
macOS
# 选项 1:从网站下载
# 访问 https://ollama.com/download 并下载 macOS 应用程序
# 选项 2:通过 Homebrew 安装
brew install ollama
macOS 应用程序将 Ollama 安装为一个菜单栏应用程序,并在后台运行服务器。
Windows
- 访问 ollama.com/download。
- 下载 Windows 安装程序。
- 运行安装程序并按照提示操作。
- 安装后,Ollama 将作为系统服务运行。
Linux
# 单行安装脚本
curl -fsSL https://ollama.ai/install.sh | sh
# 或手动安装
# 从 GitHub releases 下载对应架构的二进制文件
验证安装
ollama --version
# 输出:ollama version 0.6.x
第 2 步:下载您的第一个模型
Ollama 的模型库拥有数百个模型。从拉取一个模型开始:
# 下载 Llama 3.1 8B (4.7GB)
ollama pull llama3.1
# 下载 Qwen 3 8B (4.9GB)
ollama pull qwen3
# 下载一个较小的模型用于测试 (1.6GB)
ollama pull phi4-mini
下载只需执行一次。之后,模型将从您的本地存储加载。
第 3 步:与模型聊天
开始交互式聊天会话:
ollama run llama3.1
这将打开一个 REPL,您可以在其中输入消息:
>>> What is the capital of France?
法国的首都是巴黎。它是法国最大的城市,也是国家的政治、经济和文化中心。
>>> Write a Python function to reverse a string
这是一个反转字符串的简单 Python 函数:
def reverse_string(s):
return s[::-1]
# 示例用法
print(reverse_string("hello")) # 输出: "olleh"
>>> /bye
使用 /bye 退出聊天。
第 4 步:使用 REST API
Ollama 在 http://localhost:11434 运行一个本地 API 服务器。这对于构建应用程序非常有用:
聊天补全 (Chat Completion)
curl http://localhost:11434/api/chat \
-d '{
"model": "llama3.1",
"messages": [
{"role": "user", "content": "用三句话解释 Docker。"}
]
}'
OpenAI 兼容端点
Ollama 还提供了一个兼容 OpenAI 的端点,因此您可以将其与任何 OpenAI SDK 配合使用:
import openai
client = openai.OpenAI(
api_key="ollama", # 任何值都可以
base_url="http://localhost:11434/v1"
)
response = client.chat.completions.create(
model="llama3.1",
messages=[
{"role": "system", "content": "你是一个得力的助手。"},
{"role": "user", "content": "如何在 CSS 中让 div 居中?"}
],
temperature=0.7
)
print(response.choices[0].message.content)
流式响应
stream = client.chat.completions.create(
model="llama3.1",
messages=[
{"role": "user", "content": "写一首关于编程的俳句。"}
],
stream=True
)
for chunk in stream:
if chunk.choices[0].delta.content:
print(chunk.choices[0].delta.content, end="", flush=True)
第 5 步:管理模型
列出已下载的模型
ollama list
# 输出示例:
# NAME SIZE MODIFIED
# llama3.1:latest 4.7 GB 2 hours ago
# qwen3:latest 4.9 GB 1 hour ago
# phi4-mini:latest 1.6 GB 30 minutes ago
移除模型
ollama rm phi4-mini
拉取特定的尺寸变体
许多模型提供多种尺寸:
# 较小的量化(更快,精度稍低)
ollama pull llama3.1:8b-q4_0
# 较大的量化(较慢,精度更高)
ollama pull llama3.1:8b-q8_0
# 特定的参数量
ollama pull qwen3:14b
ollama pull qwen3:32b
查看模型信息
ollama show llama3.1
# 显示模型详情:参数、量化方式、模板、许可证等。
第 6 步:使用 Modelfile 创建自定义模型
Modelfile 允许您自定义模型的行为:
# Modelfile 示例
FROM llama3.1
# 设置自定义系统提示词
SYSTEM """你是一位资深的软件工程师。你编写简洁、文档齐全。
且包含适当错误处理的代码。在展示代码前,始终先解释你的思路。"""
# 调整参数
PARAMETER temperature 0.3
PARAMETER top_p 0.9
PARAMETER num_ctx 8192
构建并运行您的自定义模型:
# 创建模型
ollama create my-coder -f Modelfile
# 运行它
ollama run my-coder
第 7 步:在常用工具中使用 Ollama
Ollama 已集成到许多 AI 工具中:
在 Cursor 中使用
在 Cursor 设置中,将 Ollama 添加为自定义模型提供商:
Base URL: http://localhost:11434/v1
API Key: ollama
Model: llama3.1
在 Continue.dev (VS Code) 中使用
// ~/.continue/config.json
{
"models": [
{
"title": "Ollama - Llama 3.1",
"provider": "ollama",
"model": "llama3.1"
}
],
"tabAutocompleteModel": {
"title": "Ollama - Qwen Coder",
"provider": "ollama",
"model": "qwen2.5-coder:7b"
}
}
在 Open WebUI (类似 ChatGPT 的界面) 中使用
docker run -d \
-p 3000:8080 \
-v open-webui:/app/backend/data \
--add-host=host.docker.internal:host-gateway \
--name open-webui \
ghcr.io/open-webui/open-webui:main
打开 http://localhost:3000 即可使用连接到本地 Ollama 模型的类 ChatGPT Web 界面。
2026 年推荐模型
| 模型 | 大小 | 最适合 | 命令 |
|---|---|---|---|
| Llama 3.1 8B | 4.7GB | 通用任务 | ollama pull llama3.1 |
| Qwen 3 8B | 4.9GB | 编程 + 推理 | ollama pull qwen3 |
| DeepSeek Coder V2 | 8.9GB | 代码生成 | ollama pull deepseek-coder-v2 |
| Gemma 3 12B | 8.1GB | 指令遵循 | ollama pull gemma3:12b |
| Phi-4 Mini | 1.6GB | 低配机器 | ollama pull phi4-mini |
| Mistral Nemo | 7.1GB | 多语言支持 | ollama pull mistral-nemo |
| Qwen 2.5 Coder 7B | 4.7GB | 代码自动补全 | ollama pull qwen2.5-coder:7b |
| Llama 3.1 70B | 40GB | 最高质量 | ollama pull llama3.1:70b |
性能优化提示
使用 GPU 加速。 Ollama 会自动检测 NVIDIA (CUDA)、AMD (ROCm) 和 Apple Silicon GPU。通过以下命令验证:
ollama ps # 显示哪些模型已加载以及是否使用了 GPU调整上下文大小。 较大的上下文窗口会消耗更多内存。在 Modelfile 或 API 调用中设置
num_ctx以匹配您的需求。保持模型常驻。 Ollama 会将最近使用的模型保留在内存中。避免频繁切换模型。
使用量化模型。 对于大多数用例,Q4 量化在速度和质量之间提供了最佳平衡。
关闭其他占用 GPU 的应用。 视频编辑器、游戏和其他 AI 工具会争夺 GPU 内存。
常见问题解答
Ollama 是免费的吗? 是的,Ollama 完全免费且开源(MIT 许可证)。您只需要一台能够运行模型的计算机。
我可以离线使用 Ollama 吗? 可以。一旦您下载了模型,所有内容都会在本地运行,无需互联网。
我需要什么样的 GPU? 对于 7-8B 模型,任何显存大于 6GB 的 GPU 都可以。由于统一内存,Apple Silicon Mac 的表现尤为出色。您也可以在纯 CPU 上运行(速度较慢)。
Ollama 与 LM Studio 相比如何? 两者都能运行本地模型。Ollama 以 CLI(命令行)为主并带有 REST API,更适合开发人员和集成。LM Studio 拥有图形界面,更适合非技术用户。
我可以同时运行多个模型吗? 可以,只要您有足够的内存。Ollama 按需加载模型,并可以将多个模型保留在内存中。
Ollama 支持视觉模型吗?
支持。llava 和 llama3.2-vision 等模型支持图像输入。
总结
Ollama 让运行本地 AI 模型变得像执行一条命令一样简单。无论您是追求完全的隐私、零 API 成本,还是离线访问,它都是 2026 年本地 LLM 推理的最佳工具。从 7-8B 模型开始,探索用于构建应用程序的 API,并在硬件允许的情况下升级到更大的模型。
如果您正在构建需要 AI 生成媒体(如图像、视频或数字人头像)的应用程序,免费试用 Hypereal AI -- 35 积分,无需信用卡。将用于文本智能的本地 LLM 与用于视觉内容生成的 Hypereal API 相结合。
