返回文章列表
Hypereal AI Team
APITutorialAudio
Speech Recognition API:将音频转录为文本
4 min read
100+ AI 模型,一个 API
开始使用 Hypereal 构建
通过单个 API 访问 Kling、Flux、Sora、Veo 等。免费积分开始,扩展到数百万。
无需信用卡 • 10万+ 开发者 • 企业级服务
什么是 Speech Recognition API?
Speech Recognition API (ASR - 自动语音识别) 可将音频文件转录为文本。它支持多种语言,并能为每个语音片段提供精确的时间戳。
应用场景
- 转录服务:将会议、采访和讲座转换为文本
- 字幕生成:为带有时间戳的视频生成字幕
- 语音命令:处理应用程序的语音输入
- 内容索引:使音频内容可被搜索
- 无障碍辅助:创建音频内容的文本版本
API 参数
必填参数
| 参数 | 类型 | 描述 |
|---|---|---|
audio |
string | 待转录音频文件的 URL |
可选参数
| 参数 | 类型 | 默认值 | 描述 |
|---|---|---|---|
language |
string | — | 语言代码(例如 en, zh, ja, es) |
ignore_timestamps |
boolean | true |
设置为 false 以获取精确的时间戳 |
计费标准
| 用量 | 价格 (USD) | 积分 (Credits) |
|---|---|---|
| 每分钟音频 | $0.006 | ~1 |
基于每小时音频 $0.36 计算。
如何使用 Speech Recognition API
第 1 步:创建账户
在 Hypereal 注册以开始使用。
第 2 步:获取 API Key
从控制面板生成您的 API Key。
第 3 步:调用 API
const response = await fetch('https://api.hypereal.com/v1/audio/generate', {
method: 'POST',
headers: {
'Authorization': 'Bearer YOUR_API_KEY',
'Content-Type': 'application/json'
},
body: JSON.stringify({
model: 'audio-asr',
audio: 'https://example.com/speech-recording.mp3',
language: 'en',
ignore_timestamps: false
})
});
const result = await response.json();
console.log(result.text);
console.log(result.segments); // 包含时间戳
响应格式
{
"text": "Hello, welcome to our presentation today.",
"duration": 5.2,
"segments": [
{ "text": "Hello,", "start": 0.0, "end": 0.8 },
{ "text": "welcome to our presentation today.", "start": 0.9, "end": 5.2 }
]
}
最佳实践
- 指定语言 - 提供语言代码可提高准确率
- 音频质量至关重要 - 清晰的音频能产生更好的转录结果
- 明智使用时间戳 - 仅在需要时启用时间戳(会增加短音频的延迟)
- 支持的格式 - 使用 MP3, WAV, M4A 或 FLAC 以获得最佳兼容性
支持的语言
该 API 支持多种语言,包括:
- 英语 (en)
- 中文 (zh)
- 日语 (ja)
- 西班牙语 (es)
- 法语 (fr)
- 德语 (de)
- 以及更多
常见问题
最大音频长度是多少?
没有严格限制。较长的音频文件会进行分段处理。
转录准确率如何?
准确率取决于音频质量和清晰度。清晰的语音通常能达到 95% 以上的准确率。
我可以获得词级时间戳吗?
可以,将 ignore_timestamps: false 设置为 false 即可接收片段级时间戳。
为什么选择 Hypereal?
通过单一、统一的 API 访问 Speech Recognition 和其他 100 多种 AI 模型。
- 一个 API key 即可调用所有模型
- 统一计费,跨供应商结算
- 极具竞争力的价格,并提供批量折扣
免费开始使用 - 无需信用卡。
