如何使用 Ollama 运行 GPT-OSS (2026)

OpenAI 在 GPT-OSS 倡议下发布了开源模型权重，使得在自有硬件上运行 GPT 级模型成为可能，且无需将数据发送到 OpenAI 的服务器。Ollama 是在本地运行这些模型最简单的方式。本指南将带你完成从安装到 API 集成的全过程。

什么是 GPT-OSS？

GPT-OSS 指的是 OpenAI 为社区发布的开源权重 GPT 模型系列。这些模型采用宽松的许可证，可以自由下载、修改和部署。开源发布版本包括：

模型	参数量	上下文窗口	所需显存 (VRAM)	最佳用途
GPT-OSS Small	7B	32K	6 GB	快速推理、边缘设备
GPT-OSS Medium	30B	64K	20 GB	平衡质量与速度
GPT-OSS Large	70B	128K	48 GB	最高质量、服务器部署

这些模型与 GPT-4o 或 GPT-5 不同——它们是专门构建的开源模型，虽然与 OpenAI 的旗舰产品共享架构基因，但专为本地和自托管部署设计。

为什么选择 Ollama 运行 GPT-OSS？

虽然你可以直接使用原始的 transformers、vLLM 或 llama.cpp 来运行 GPT-OSS 模型，但 Ollama 极大地简化了这一过程：

单条命令即可下载和设置模型 —— 无需手动转换权重
自动量化 —— 在较小显存上运行更大的模型
兼容 OpenAI 的 API —— 只需更改 base URL 即可无缝替换到现有应用中
GPU 自动检测 —— 自动支持 NVIDIA CUDA、AMD ROCm 和 Apple Metal
模型管理 —— 轻松列出、拉取、删除和自定义模型

前提条件

在开始之前，请确保你的系统符合以下要求：

需求	详情
操作系统	macOS 12+、Linux (Ubuntu 20.04+) 或 Windows 10+
内存 (RAM)	最小 8 GB，推荐 16+ GB
存储空间	至少 10 GB 剩余空间（模型大小约为 4-40 GB）
GPU (可选)	拥有 6+ GB 显存的 NVIDIA GPU 或 Apple Silicon (M系列)
网络	初始下载模型时需要联网

第 1 步：安装 Ollama

macOS

# 通过官方脚本下载并安装
curl -fsSL https://ollama.com/install.sh | sh

# 或通过 Homebrew 安装
brew install ollama

Linux

curl -fsSL https://ollama.com/install.sh | sh

Windows

从 ollama.com/download 下载安装程序，或使用 winget：

winget install Ollama.Ollama

验证安装：

ollama --version
# 应输出类似内容：ollama version 0.6.x

第 2 步：拉取 GPT-OSS 模型

Ollama 的模型库已经包含 GPT-OSS 模型。根据你的硬件情况拉取对应模型：

# 拉取 7B 模型（最小，可在大多数硬件上运行）
ollama pull gpt-oss:7b

# 拉取 30B 模型（需要 20+ GB 显存，或如果是 CPU 推理需要 32 GB 内存）
ollama pull gpt-oss:30b

# 拉取量化版本以节省显存
ollama pull gpt-oss:30b-q4_K_M

下载时间取决于你的网速。模型会本地缓存到 ~/.ollama/models/。

可用的量化版本

如果完整版模型无法装入显存，请使用量化版本：

量化等级	7B 大小	30B 大小	质量影响
f16 (全精度)	14 GB	60 GB	无
q8_0	7.5 GB	32 GB	极微小
q4_K_M	4.5 GB	18 GB	较小
q4_0	4 GB	16 GB	中等

第 3 步：运行模型

启动交互式聊天会话：

ollama run gpt-oss:7b

你会看到一个可以输入消息的提示符：

>>> REST 和 GraphQL 的主要区别是什么？

REST 使用返回预定数据结构的固定端点，而 GraphQL 
提供单个端点，由客户端指定所需的具体数据...

按 Ctrl+D 或输入 /bye 退出。

第 4 步：使用 API

Ollama 自动在 localhost:11434 启动 HTTP 服务器。你可以使用任何 HTTP 客户端调用它。

使用 cURL

curl http://localhost:11434/api/chat -d '{
  "model": "gpt-oss:7b",
  "messages": [
    {"role": "user", "content": "编写一个合并两个已排序列表的 Python 函数。"}
  ],
  "stream": false
}'

使用 OpenAI 兼容端点

Ollama 在 /v1/ 路径提供兼容 OpenAI 的 API，因此你可以直接使用标准的 OpenAI SDK：

from openai import OpenAI

client = OpenAI(
    api_key="ollama",  # 任意字符串即可
    base_url="http://localhost:11434/v1"
)

response = client.chat.completions.create(
    model="gpt-oss:7b",
    messages=[
        {"role": "system", "content": "你是一个得力的编程助手。"},
        {"role": "user", "content": "用 Python 写一个带类型提示的二分查找函数。"}
    ],
    temperature=0.7
)

print(response.choices[0].message.content)

使用 JavaScript/TypeScript

import OpenAI from "openai";

const client = new OpenAI({
  apiKey: "ollama",
  baseURL: "http://localhost:11434/v1",
});

const response = await client.chat.completions.create({
  model: "gpt-oss:7b",
  messages: [
    { role: "user", content: "解释 JavaScript 中的闭包并举例说明。" },
  ],
});

console.log(response.choices[0].message.content);

第 5 步：使用 Modelfile 自定义模型

你可以通过 Modelfile 创建一个自定义版本的 GPT-OSS，包含特定的系统提示词、参数或 LoRA 适配器：

# Modelfile 示例
FROM gpt-oss:7b

SYSTEM "你是一名资深软件工程师。始终提供具有错误处理、类型提示和文档字符串的生产级代码。"

PARAMETER temperature 0.3
PARAMETER top_p 0.9
PARAMETER num_ctx 8192

构建并运行你的自定义模型：

# 创建自定义模型
ollama create gpt-oss-coder -f Modelfile

# 运行它
ollama run gpt-oss-coder

第 6 步：管理你的模型

用于管理本地模型的常用命令：

# 列出所有已下载的模型
ollama list

# 显示模型详情（大小、量化、参数）
ollama show gpt-oss:7b

# 删除模型以释放磁盘空间
ollama rm gpt-oss:30b

# 复制模型（在自定义前很有用）
ollama grease gpt-oss:7b gpt-oss-backup:7b

性能优化技巧

GPU 加速

Ollama 会自动检测你的 GPU。验证 GPU 使用情况：

# 检查 GPU 是否正在使用 (NVIDIA)
nvidia-smi

# 查看 Ollama 日志中的 GPU 检测情况
ollama run gpt-oss:7b --verbose

运行多个模型

Ollama 可以同时支持多个模型。每个请求会指定使用哪个模型：

# 拉取多个模型
ollama pull gpt-oss:7b
ollama pull gpt-oss:30b

# API 会自动处理路由
curl http://localhost:11434/api/chat -d '{"model": "gpt-oss:7b", "messages": [...]}'
curl http://localhost:11434/api/chat -d '{"model": "gpt-oss:30b", "messages": [...]}'

增加上下文长度

默认情况下，Ollama 使用 2048 token 的上下文窗口。对于较长的对话或文档：

# 在运行时设置上下文长度
ollama run gpt-oss:7b --num-ctx 16384

# 或者在 Modelfile 中设置
# PARAMETER num_ctx 16384

GPT-OSS 与其他开源模型对比

模型	参数量	许可证	编码能力	推理能力	速度
GPT-OSS 7B	7B	Apache 2.0	良好	良好	极快
Llama 3.3 70B	70B	Llama License	卓越	卓越	较慢
Mistral Large	123B	Apache 2.0	优秀	优秀	较慢
Qwen 2.5 72B	72B	Apache 2.0	卓越	优秀	较慢
Gemma 3 27B	27B	Gemma License	良好	良好	中等
GPT-OSS 30B	30B	Apache 2.0	优秀	优秀	中等

常见问题排查

“Model not found” 错误 确保你已先通过 ollama pull gpt-oss:7b 拉取了模型。运行 ollama list 查看可用模型。

CPU 推理速度过慢 如果你没有 GPU，请使用最小的量化模型：ollama pull gpt-oss:7b-q4_0。建议升级到带有 GPU 的系统以获得实时推理体验。

内存不足 (Out of memory) 错误 切换到更小比例的量化版本。如果使用 30B 模型失败，请尝试 gpt-oss:30b-q4_0 或降级到 7B 版本。

端口已被占用 如果 11434 端口被占用，可以设置自定义端口：

OLLAMA_HOST=0.0.0.0:11435 ollama serve

总结

使用 Ollama 在本地运行 GPT-OSS 模型让你对 AI 技术栈拥有完全的控制权——没有 API 密钥限制，没有速率限制，且数据不会离开你的机器。整个设置过程不到 10 分钟，兼容 OpenAI 的 API 意味着你可以将其接入几乎任何现有的应用程序中。

如果你的工作流涉及 AI 生成媒体（如图像、视频或数字人对话），请关注 Hypereal AI，它提供了一个处理所有类型 AI 媒体生成的统一 API。

免费试用 Hypereal AI —— 赠送 35 积分，无需信用卡。