如何使用 Ollama:零基础新手全指南 (2026)
在您自己的机器上本地运行强大的 LLM
开始使用 Hypereal 构建
通过单个 API 访问 Kling、Flux、Sora、Veo 等。免费积分开始,扩展到数百万。
无需信用卡 • 10万+ 开发者 • 企业级服务
如何使用 Ollama:完整入门指南 (2026)
Ollama 已成为在本地运行大语言模型的标准工具。如果你想在自己的硬件上使用 AI 模型——而不向云端 API 发送数据、不支付 Token 费用或受限于速率限制——Ollama 就是你需要的工具。它将下载、管理和运行开源 LLM 的过程简化为了几条终端命令。
本指南涵盖了从安装到高级用法的方方面面,包括模型管理、API 集成、自定义以及性能优化。
什么是 Ollama?
Ollama 是一个开源工具,可以轻松在 macOS、Linux 和 Windows 上本地运行大语言模型。它负责处理模型下载、量化、GPU 加速,并提供了一个与 OpenAI API 格式兼容的简单 API——这意味着你可以通过极少的代码改动,将其替换到大多数现有的 AI 应用中。
你可以把它理解为“LLM 界的 Docker”:拉取一个模型,运行它,并通过简洁的命令行界面或 HTTP API 与其交互。
系统要求
在安装之前,请确保你的系统满足最低要求:
| 组件 | 最低配置 | 推荐配置 |
|---|---|---|
| RAM | 8 GB | 16+ GB |
| 存储空间 | 10 GB 剩余 | 50+ GB(模型文件较大) |
| GPU (可选) | 任何 4+ GB 显存的 NVIDIA GPU | NVIDIA RTX 3060+ (12 GB 显存) 或 Apple Silicon |
| 操作系统 | macOS 12+, Ubuntu 20.04+, Windows 10+ | 最新的稳定版操作系统 |
如果你没有 GPU,Ollama 可以在 CPU 上运行,但推理速度会显著降低。
第一步:安装 Ollama
macOS
# 方案 1:从官网下载
# 访问 https://ollama.com 并下载 macOS 安装程序
# 方案 2:使用 Homebrew
brew install ollama
Linux
curl -fsSL https://ollama.com/install.sh | sh
Windows
从 ollama.com 下载安装程序并运行。Ollama 在 Windows 上作为系统服务运行。
验证安装
ollama --version
# 预期输出:ollama version 0.5.x
第二步:拉取并运行你的第一个模型
Ollama 使用类似 Docker 的 pull/run 工作流:
# 拉取模型(下载到本地机器)
ollama pull llama3.2
# 交互式运行模型
ollama run llama3.2
这将进入交互式对话会话。输入你的消息并按回车键获取回复。输入 /bye 退出。
推荐入门模型
以下是常用模型及其资源要求的对比:
| 模型 | 参数量 | 所需内存 (RAM) | 所需显存 (VRAM) | 适用场景 |
|---|---|---|---|---|
| llama3.2:3b | 3B | 4 GB | 3 GB | 快速任务,低配置机器 |
| llama3.2 | 8B | 8 GB | 6 GB | 通用场景,平衡性好 |
| llama3.1:70b | 70B | 48 GB | 40 GB | 复杂推理,高端硬件 |
| mistral | 7B | 8 GB | 5 GB | 运行快,指令遵循能力好 |
| gemma2:9b | 9B | 8 GB | 6 GB | Google 开源模型,推理能力强 |
| codellama | 7B | 8 GB | 5 GB | 代码生成与分析 |
| deepseek-coder-v2 | 16B | 12 GB | 10 GB | 高级编程任务 |
| phi3:mini | 3.8B | 4 GB | 3 GB | 同尺寸下性能惊人 |
| qwen2.5:7b | 7B | 8 GB | 5 GB | 多语言,编程能力强 |
要拉取上述任何模型:
ollama pull mistral
ollama pull codellama
ollama pull gemma2:9b
第三步:模型管理
列出已下载的模型
ollama list
输出示例:
NAME ID SIZE MODIFIED
llama3.2:latest a80c4f17acd5 4.7 GB 2 minutes ago
mistral:latest 2ae6f6dd7a3d 4.1 GB 5 minutes ago
codellama:latest 8fdf8f752f6e 3.8 GB 10 minutes ago
删除模型
ollama rm codellama
查看模型详情
ollama show llama3.2
复制/重命名模型
ollama cp llama3.2 my-custom-llama
第四步:使用 Ollama API
Ollama 默认在 localhost:11434 运行 HTTP 服务器。该 API 与 OpenAI 格式兼容,集成非常简单。
基础 API 调用
curl http://localhost:11434/api/generate -d '{
"model": "llama3.2",
"prompt": "用三句话解释 REST 和 GraphQL 的区别。",
"stream": false
}'
对话 API (多轮对话)
curl http://localhost:11434/api/chat -d '{
"model": "llama3.2",
"messages": [
{"role": "system", "content": "你是一个得力的编程助手。"},
{"role": "user", "content": "写一个 Python 函数来验证电子邮件地址。"}
],
"stream": false
}'
在 Python 中使用
import requests
response = requests.post("http://localhost:11434/api/generate", json={
"model": "llama3.2",
"prompt": "写一个备份 PostgreSQL 数据库的 bash 脚本。",
"stream": False
})
print(response.json()["response"])
使用 OpenAI Python SDK
由于 Ollama 的 API 兼容 OpenAI,你可以使用官方的 OpenAI SDK:
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:11434/v1",
api_key="ollama" # 填入任何字符串即可
)
response = client.chat.completions.create(
model="llama3.2",
messages=[
{"role": "system", "content": "你是一位资深 Python 开发工程师。"},
{"role": "user", "content": "用 Python 写一个线程安全的单例模式。"}
]
)
print(response.choices[0].message.content)
第五步:使用 Modelfiles 创建自定义模型
Ollama 允许你使用 Modelfile(类似于 Dockerfile)创建自定义模型配置:
# 保存为 Modelfile
FROM llama3.2
# 设置系统提示词
SYSTEM """
你是一位专注于 TypeScript, React 和 Node.js 的资深全栈开发工程师。
请始终提供包含错误处理和 TypeScript 类型的生产级代码。
当被问及架构决策时,请解释权衡取舍。
"""
# 调整参数
PARAMETER temperature 0.3
PARAMETER top_p 0.9
PARAMETER num_ctx 8192
构建并运行你的自定义模型:
ollama create my-dev-assistant -f Modelfile
ollama run my-dev-assistant
第六步:GPU 加速
NVIDIA GPU
如果你安装了 CUDA 驱动程序,Ollama 会自动检测 NVIDIA GPU:
# 检查 GPU 是否正在使用
ollama ps
Apple Silicon (M1/M2/M3/M4)
Ollama 在 Apple Silicon 上会自动使用 Metal 加速,无需额外配置。配备统一内存的 Apple Silicon Mac 特别适合运行 LLM,因为 GPU 可以访问全部系统内存。
跨 GPU 和 CPU 拆分模型
对于显存 (VRAM) 容纳不下的超大模型,Ollama 会自动在 GPU 和 CPU 之间拆分模型:
# 手动设置 GPU 层数
OLLAMA_NUM_GPU=20 ollama run llama3.1:70b
性能优化技巧
1. 使用量化模型
量化模型占用更少的内存,运行速度更快且质量损失微乎其微:
# Q4 量化(速度与质量的良好平衡)
ollama pull llama3.2:8b-instruct-q4_K_M
# Q8 量化(更高质量,更多内存占用)
ollama pull llama3.2:8b-instruct-q8_0
2. 增加上下文窗口
# 通过环境变量设置上下文窗口
OLLAMA_NUM_CTX=16384 ollama run llama3.2
3. 保持模型驻留
默认情况下,Ollama 在 5 分钟无活动后会卸载模型。可以修改此设置:
# 使模型无限期驻留内存
OLLAMA_KEEP_ALIVE=-1 ollama serve
4. 运行多个模型
如果内存足够,Ollama 可以同时提供多个模型服务:
# 在不同的终端中运行
ollama run llama3.2 # 处理通用任务
ollama run codellama # 处理编程任务
常见问题与解决办法
| 问题 | 解决办法 |
|---|---|
| "model not found" | 请先运行 ollama pull 模型名称 |
| GPU 推理缓慢 | 更新 GPU 驱动;使用 ollama ps 检查 GPU 使用情况 |
| 内存不足 (Out of memory) | 使用更小的模型或量化版本 |
| 11434 端口已被占用 | 停止现有的 Ollama 实例:ollama stop |
| 模型下载缓慢 | 检查网络连接;Ollama CDN 可能处于拥塞状态 |
总结
Ollama 让在本地运行 LLM 变得像运行 Docker 容器一样简单。无论你是为了隐私保护、希望避免 API 成本,还是仅仅想尝试开源模型,Ollama 都是 2026 年开启本地 AI 之旅最直接的方式。
对于既需要本地 AI 推理又需要高质量媒体生成的项目,可以考虑将 Ollama 与 Hypereal AI 结合使用。使用 Ollama 进行私密、免费的文本生成,使用 Hypereal AI 经济高效的 API 生成图像、视频、AI 数字人和语音内容——为你提供一套完整的 AI 工具箱,且无需巨额开销。
