如何使用 Ollama 运行 GPT-OSS (2026)
只需几条终端命令,即可在本地运行开源 GPT 模型
开始使用 Hypereal 构建
通过单个 API 访问 Kling、Flux、Sora、Veo 等。免费积分开始,扩展到数百万。
无需信用卡 • 10万+ 开发者 • 企业级服务
如何使用 Ollama 运行 GPT-OSS (2026)
OpenAI 在 GPT-OSS 倡议下发布了开源模型权重,使得在自有硬件上运行 GPT 级模型成为可能,且无需将数据发送到 OpenAI 的服务器。Ollama 是在本地运行这些模型最简单的方式。本指南将带你完成从安装到 API 集成的全过程。
什么是 GPT-OSS?
GPT-OSS 指的是 OpenAI 为社区发布的开源权重 GPT 模型系列。这些模型采用宽松的许可证,可以自由下载、修改和部署。开源发布版本包括:
| 模型 | 参数量 | 上下文窗口 | 所需显存 (VRAM) | 最佳用途 |
|---|---|---|---|---|
| GPT-OSS Small | 7B | 32K | 6 GB | 快速推理、边缘设备 |
| GPT-OSS Medium | 30B | 64K | 20 GB | 平衡质量与速度 |
| GPT-OSS Large | 70B | 128K | 48 GB | 最高质量、服务器部署 |
这些模型与 GPT-4o 或 GPT-5 不同——它们是专门构建的开源模型,虽然与 OpenAI 的旗舰产品共享架构基因,但专为本地和自托管部署设计。
为什么选择 Ollama 运行 GPT-OSS?
虽然你可以直接使用原始的 transformers、vLLM 或 llama.cpp 来运行 GPT-OSS 模型,但 Ollama 极大地简化了这一过程:
- 单条命令即可下载和设置模型 —— 无需手动转换权重
- 自动量化 —— 在较小显存上运行更大的模型
- 兼容 OpenAI 的 API —— 只需更改 base URL 即可无缝替换到现有应用中
- GPU 自动检测 —— 自动支持 NVIDIA CUDA、AMD ROCm 和 Apple Metal
- 模型管理 —— 轻松列出、拉取、删除和自定义模型
前提条件
在开始之前,请确保你的系统符合以下要求:
| 需求 | 详情 |
|---|---|
| 操作系统 | macOS 12+、Linux (Ubuntu 20.04+) 或 Windows 10+ |
| 内存 (RAM) | 最小 8 GB,推荐 16+ GB |
| 存储空间 | 至少 10 GB 剩余空间(模型大小约为 4-40 GB) |
| GPU (可选) | 拥有 6+ GB 显存的 NVIDIA GPU 或 Apple Silicon (M系列) |
| 网络 | 初始下载模型时需要联网 |
第 1 步:安装 Ollama
macOS
# 通过官方脚本下载并安装
curl -fsSL https://ollama.com/install.sh | sh
# 或通过 Homebrew 安装
brew install ollama
Linux
curl -fsSL https://ollama.com/install.sh | sh
Windows
从 ollama.com/download 下载安装程序,或使用 winget:
winget install Ollama.Ollama
验证安装:
ollama --version
# 应输出类似内容:ollama version 0.6.x
第 2 步:拉取 GPT-OSS 模型
Ollama 的模型库已经包含 GPT-OSS 模型。根据你的硬件情况拉取对应模型:
# 拉取 7B 模型(最小,可在大多数硬件上运行)
ollama pull gpt-oss:7b
# 拉取 30B 模型(需要 20+ GB 显存,或如果是 CPU 推理需要 32 GB 内存)
ollama pull gpt-oss:30b
# 拉取量化版本以节省显存
ollama pull gpt-oss:30b-q4_K_M
下载时间取决于你的网速。模型会本地缓存到 ~/.ollama/models/。
可用的量化版本
如果完整版模型无法装入显存,请使用量化版本:
| 量化等级 | 7B 大小 | 30B 大小 | 质量影响 |
|---|---|---|---|
| f16 (全精度) | 14 GB | 60 GB | 无 |
| q8_0 | 7.5 GB | 32 GB | 极微小 |
| q4_K_M | 4.5 GB | 18 GB | 较小 |
| q4_0 | 4 GB | 16 GB | 中等 |
第 3 步:运行模型
启动交互式聊天会话:
ollama run gpt-oss:7b
你会看到一个可以输入消息的提示符:
>>> REST 和 GraphQL 的主要区别是什么?
REST 使用返回预定数据结构的固定端点,而 GraphQL
提供单个端点,由客户端指定所需的具体数据...
按 Ctrl+D 或输入 /bye 退出。
第 4 步:使用 API
Ollama 自动在 localhost:11434 启动 HTTP 服务器。你可以使用任何 HTTP 客户端调用它。
使用 cURL
curl http://localhost:11434/api/chat -d '{
"model": "gpt-oss:7b",
"messages": [
{"role": "user", "content": "编写一个合并两个已排序列表的 Python 函数。"}
],
"stream": false
}'
使用 OpenAI 兼容端点
Ollama 在 /v1/ 路径提供兼容 OpenAI 的 API,因此你可以直接使用标准的 OpenAI SDK:
from openai import OpenAI
client = OpenAI(
api_key="ollama", # 任意字符串即可
base_url="http://localhost:11434/v1"
)
response = client.chat.completions.create(
model="gpt-oss:7b",
messages=[
{"role": "system", "content": "你是一个得力的编程助手。"},
{"role": "user", "content": "用 Python 写一个带类型提示的二分查找函数。"}
],
temperature=0.7
)
print(response.choices[0].message.content)
使用 JavaScript/TypeScript
import OpenAI from "openai";
const client = new OpenAI({
apiKey: "ollama",
baseURL: "http://localhost:11434/v1",
});
const response = await client.chat.completions.create({
model: "gpt-oss:7b",
messages: [
{ role: "user", content: "解释 JavaScript 中的闭包并举例说明。" },
],
});
console.log(response.choices[0].message.content);
第 5 步:使用 Modelfile 自定义模型
你可以通过 Modelfile 创建一个自定义版本的 GPT-OSS,包含特定的系统提示词、参数或 LoRA 适配器:
# Modelfile 示例
FROM gpt-oss:7b
SYSTEM "你是一名资深软件工程师。始终提供具有错误处理、类型提示和文档字符串的生产级代码。"
PARAMETER temperature 0.3
PARAMETER top_p 0.9
PARAMETER num_ctx 8192
构建并运行你的自定义模型:
# 创建自定义模型
ollama create gpt-oss-coder -f Modelfile
# 运行它
ollama run gpt-oss-coder
第 6 步:管理你的模型
用于管理本地模型的常用命令:
# 列出所有已下载的模型
ollama list
# 显示模型详情(大小、量化、参数)
ollama show gpt-oss:7b
# 删除模型以释放磁盘空间
ollama rm gpt-oss:30b
# 复制模型(在自定义前很有用)
ollama grease gpt-oss:7b gpt-oss-backup:7b
性能优化技巧
GPU 加速
Ollama 会自动检测你的 GPU。验证 GPU 使用情况:
# 检查 GPU 是否正在使用 (NVIDIA)
nvidia-smi
# 查看 Ollama 日志中的 GPU 检测情况
ollama run gpt-oss:7b --verbose
运行多个模型
Ollama 可以同时支持多个模型。每个请求会指定使用哪个模型:
# 拉取多个模型
ollama pull gpt-oss:7b
ollama pull gpt-oss:30b
# API 会自动处理路由
curl http://localhost:11434/api/chat -d '{"model": "gpt-oss:7b", "messages": [...]}'
curl http://localhost:11434/api/chat -d '{"model": "gpt-oss:30b", "messages": [...]}'
增加上下文长度
默认情况下,Ollama 使用 2048 token 的上下文窗口。对于较长的对话或文档:
# 在运行时设置上下文长度
ollama run gpt-oss:7b --num-ctx 16384
# 或者在 Modelfile 中设置
# PARAMETER num_ctx 16384
GPT-OSS 与其他开源模型对比
| 模型 | 参数量 | 许可证 | 编码能力 | 推理能力 | 速度 |
|---|---|---|---|---|---|
| GPT-OSS 7B | 7B | Apache 2.0 | 良好 | 良好 | 极快 |
| Llama 3.3 70B | 70B | Llama License | 卓越 | 卓越 | 较慢 |
| Mistral Large | 123B | Apache 2.0 | 优秀 | 优秀 | 较慢 |
| Qwen 2.5 72B | 72B | Apache 2.0 | 卓越 | 优秀 | 较慢 |
| Gemma 3 27B | 27B | Gemma License | 良好 | 良好 | 中等 |
| GPT-OSS 30B | 30B | Apache 2.0 | 优秀 | 优秀 | 中等 |
常见问题排查
“Model not found” 错误
确保你已先通过 ollama pull gpt-oss:7b 拉取了模型。运行 ollama list 查看可用模型。
CPU 推理速度过慢
如果你没有 GPU,请使用最小的量化模型:ollama pull gpt-oss:7b-q4_0。建议升级到带有 GPU 的系统以获得实时推理体验。
内存不足 (Out of memory) 错误
切换到更小比例的量化版本。如果使用 30B 模型失败,请尝试 gpt-oss:30b-q4_0 或降级到 7B 版本。
端口已被占用 如果 11434 端口被占用,可以设置自定义端口:
OLLAMA_HOST=0.0.0.0:11435 ollama serve
总结
使用 Ollama 在本地运行 GPT-OSS 模型让你对 AI 技术栈拥有完全的控制权——没有 API 密钥限制,没有速率限制,且数据不会离开你的机器。整个设置过程不到 10 分钟,兼容 OpenAI 的 API 意味着你可以将其接入几乎任何现有的应用程序中。
如果你的工作流涉及 AI 生成媒体(如图像、视频或数字人对话),请关注 Hypereal AI,它提供了一个处理所有类型 AI 媒体生成的统一 API。
免费试用 Hypereal AI —— 赠送 35 积分,无需信用卡。
