Speech Recognition API：将音频转录为文本

什么是 Speech Recognition API?

Speech Recognition API (ASR - 自动语音识别) 可将音频文件转录为文本。它支持多种语言，并能为每个语音片段提供精确的时间戳。

应用场景

转录服务：将会议、采访和讲座转换为文本
字幕生成：为带有时间戳的视频生成字幕
语音命令：处理应用程序的语音输入
内容索引：使音频内容可被搜索
无障碍辅助：创建音频内容的文本版本

API 参数

必填参数

参数	类型	描述
`audio`	string	待转录音频文件的 URL

可选参数

参数	类型	默认值	描述
`language`	string	—	语言代码（例如 `en`, `zh`, `ja`, `es`）
`ignore_timestamps`	boolean	`true`	设置为 `false` 以获取精确的时间戳

计费标准

用量	价格 (USD)	积分 (Credits)
每分钟音频	$0.006	~1

基于每小时音频 $0.36 计算。

如何使用 Speech Recognition API

第 1 步：创建账户

在 Hypereal 注册以开始使用。

第 2 步：获取 API Key

从控制面板生成您的 API Key。

第 3 步：调用 API

const response = await fetch('https://api.hypereal.com/v1/audio/generate', {
  method: 'POST',
  headers: {
    'Authorization': 'Bearer YOUR_API_KEY',
    'Content-Type': 'application/json'
  },
  body: JSON.stringify({
    model: 'audio-asr',
    audio: 'https://example.com/speech-recording.mp3',
    language: 'en',
    ignore_timestamps: false
  })
});

const result = await response.json();
console.log(result.text);
console.log(result.segments); // 包含时间戳

响应格式

{
  "text": "Hello, welcome to our presentation today.",
  "duration": 5.2,
  "segments": [
    { "text": "Hello,", "start": 0.0, "end": 0.8 },
    { "text": "welcome to our presentation today.", "start": 0.9, "end": 5.2 }
  ]
}

最佳实践

指定语言 - 提供语言代码可提高准确率
音频质量至关重要 - 清晰的音频能产生更好的转录结果
明智使用时间戳 - 仅在需要时启用时间戳（会增加短音频的延迟）
支持的格式 - 使用 MP3, WAV, M4A 或 FLAC 以获得最佳兼容性

支持的语言

该 API 支持多种语言，包括：

英语 (en)
中文 (zh)
日语 (ja)
西班牙语 (es)
法语 (fr)
德语 (de)
以及更多

常见问题

最大音频长度是多少？

没有严格限制。较长的音频文件会进行分段处理。

转录准确率如何？

准确率取决于音频质量和清晰度。清晰的语音通常能达到 95% 以上的准确率。

我可以获得词级时间戳吗？

可以，将 ignore_timestamps: false 设置为 false 即可接收片段级时间戳。

为什么选择 Hypereal？

通过单一、统一的 API 访问 Speech Recognition 和其他 100 多种 AI 模型。

一个 API key 即可调用所有模型
统一计费，跨供应商结算
极具竞争力的价格，并提供批量折扣

免费开始使用 - 无需信用卡。

什么是 Speech Recognition API?

Speech Recognition API (ASR - 自动语音识别) 可将音频文件转录为文本。它支持多种语言，并能为每个语音片段提供精确的时间戳。

应用场景

转录服务：将会议、采访和讲座转换为文本
字幕生成：为带有时间戳的视频生成字幕
语音命令：处理应用程序的语音输入
内容索引：使音频内容可被搜索
无障碍辅助：创建音频内容的文本版本

API 参数

必填参数

参数	类型	描述
`audio`	string	待转录音频文件的 URL

可选参数

参数	类型	默认值	描述
`language`	string	—	语言代码（例如 `en`, `zh`, `ja`, `es`）
`ignore_timestamps`	boolean	`true`	设置为 `false` 以获取精确的时间戳

计费标准

用量	价格 (USD)	积分 (Credits)
每分钟音频	$0.006	~1

基于每小时音频 $0.36 计算。

如何使用 Speech Recognition API

第 1 步：创建账户

在 Hypereal 注册以开始使用。

第 2 步：获取 API Key

从控制面板生成您的 API Key。

第 3 步：调用 API

const response = await fetch('https://api.hypereal.com/v1/audio/generate', {
  method: 'POST',
  headers: {
    'Authorization': 'Bearer YOUR_API_KEY',
    'Content-Type': 'application/json'
  },
  body: JSON.stringify({
    model: 'audio-asr',
    audio: 'https://example.com/speech-recording.mp3',
    language: 'en',
    ignore_timestamps: false
  })
});

const result = await response.json();
console.log(result.text);
console.log(result.segments); // 包含时间戳

响应格式

{
  "text": "Hello, welcome to our presentation today.",
  "duration": 5.2,
  "segments": [
    { "text": "Hello,", "start": 0.0, "end": 0.8 },
    { "text": "welcome to our presentation today.", "start": 0.9, "end": 5.2 }
  ]
}

最佳实践

指定语言 - 提供语言代码可提高准确率
音频质量至关重要 - 清晰的音频能产生更好的转录结果
明智使用时间戳 - 仅在需要时启用时间戳（会增加短音频的延迟）
支持的格式 - 使用 MP3, WAV, M4A 或 FLAC 以获得最佳兼容性

支持的语言

该 API 支持多种语言，包括：

英语 (en)
中文 (zh)
日语 (ja)
西班牙语 (es)
法语 (fr)
德语 (de)
以及更多

常见问题

最大音频长度是多少？

没有严格限制。较长的音频文件会进行分段处理。

转录准确率如何？

准确率取决于音频质量和清晰度。清晰的语音通常能达到 95% 以上的准确率。

我可以获得词级时间戳吗？

可以，将 ignore_timestamps: false 设置为 false 即可接收片段级时间戳。

为什么选择 Hypereal？

通过单一、统一的 API 访问 Speech Recognition 和其他 100 多种 AI 模型。

一个 API key 即可调用所有模型
统一计费，跨供应商结算
极具竞争力的价格，并提供批量折扣

免费开始使用 - 无需信用卡。

开始使用 Hypereal 构建

什么是 Speech Recognition API?

应用场景

API 参数

必填参数

可选参数

计费标准

如何使用 Speech Recognition API

第 1 步：创建账户

第 2 步：获取 API Key

第 3 步：调用 API

响应格式

最佳实践

支持的语言

常见问题

最大音频长度是多少？

转录准确率如何？

我可以获得词级时间戳吗？

为什么选择 Hypereal？

相关文章

Generative Audio API：TTS、语音克隆与语音识别

Voice Clone API：面向开发者的零样本语音克隆 (Zero-Shot Voice Cloning)

如何使用 Elevenlabs API：价格、功能及集成指南

立即开始构建

开始使用 Hypereal 构建

什么是 Speech Recognition API?

应用场景

API 参数

必填参数

可选参数

计费标准

如何使用 Speech Recognition API

第 1 步：创建账户

第 2 步：获取 API Key

第 3 步：调用 API

响应格式

最佳实践

支持的语言

常见问题

最大音频长度是多少？

转录准确率如何？

我可以获得词级时间戳吗？

为什么选择 Hypereal？

相关文章

Generative Audio API：TTS、语音克隆与语音识别

Voice Clone API：面向开发者的零样本语音克隆 (Zero-Shot Voice Cloning)

如何使用 Elevenlabs API：价格、功能及集成指南

立即开始构建