Generative Audio API：TTS、语音克隆与语音识别

Generative Audio API 概览

Hypereal 提供了一套全面的音频生成 API，涵盖文本转语音（TTS）、声音克隆和语音识别。所有音频模型均可通过统一的 API 访问，并提供极具竞争力的价格。

可用音频模型

模型	标识符 (Slug)	描述	价格
Text to Speech	`audio-tts`	高质量 TTS，支持 64+ 种情感表现	$0.015/1000 字符
Voice Clone	`audio-clone`	零样本 (Zero-shot) 声音克隆	$0.015/1000 字符
Speech Recognition	`audio-asr`	语音转文本（听写）	$0.006/分钟
Minimax Voice Clone	`minimax-voice-clone`	高级声音克隆	$0.50/次生成
Speech Turbo	`minimax-speech-02`	具备情感控制的快速 TTS	$0.003/次生成
Music Generation	`minimax-music-02`	带人声的 AI 音乐生成	$0.045/首

情感化文本转语音 (Emotional Text-to-Speech)

最强大的功能之一是情感控制，拥有分为四大类的 64+ 种情感表达。

基础情感 (24)

用于自然语音的核心情感状态：

happy (开心), sad (悲伤), angry (愤怒), excited (兴奋), calm (冷静), nervous (紧张), confident (自信), surprised (惊讶), satisfied (满意), delighted (欣喜), scared (恐惧), worried (担心), upset (难过), frustrated (沮丧), depressed (抑郁), empathetic (同情), embarrassed (尴尬), disgusted (厌恶), moved (感动), proud (自豪), relaxed (放松), grateful (感激), curious (好奇), sarcastic (讽刺)

进阶情感 (25)

更细腻的情感表达：

disdainful (轻蔑), unhappy (不悦), anxious (焦虑), hysterical (歇斯底里), indifferent (冷漠), uncertain (不确定), doubtful (怀疑), confused (困惑), disappointed (失望), regretful (后悔), guilty (内疚), ashamed (羞愧), jealous (嫉妒), envious (羡慕), hopeful (充满希望), optimistic (乐观), pessimistic (悲观), nostalgic (怀旧), lonely (孤独), bored (无聊), contemptuous (鄙视), sympathetic (共情), compassionate (怜悯), determined (坚定), resigned (无奈)

语气标记 (5)

朗读风格修饰符：

in a hurry tone - 仓促、紧急的语气
shouting - 呼喊、大声地
screaming - 尖叫、极高分贝
whispering - 耳语、轻声地
soft tone - 轻柔的语气

声音特效 (10)

音效与发声：

laughing (大笑), chuckling (轻笑), sobbing (抽泣), crying loudly (嚎啕大哭), sighing (叹气), groaning (呻吟), panting (喘气), gasping (倒吸气), yawning (哈欠), snoring (打呼)

此外还包括特殊效果：观众笑声、人群笑声、停顿。

情感语法

在文本开头使用括号包裹情感标签：

(happy) What a beautiful day!
(sad) I'm sorry for your loss.
(excited) I can't believe we won!

组合情感

可以叠加多个标签来实现复杂的表达：

(sad)(whispering) I'll miss you.
(excited)(laughing) This is amazing!
(nervous)(in a hurry tone) We need to go now!

API 示例

带情感的文本转语音

const response = await fetch('https://api.hypereal.com/v1/audio/generate', {
  method: 'POST',
  headers: {
    'Authorization': 'Bearer YOUR_API_KEY',
    'Content-Type': 'application/json'
  },
  body: JSON.stringify({
    model: 'audio-tts',
    text: '(excited) Welcome to our platform! We are so happy to have you here.',
    format: 'mp3',
    temperature: 0.7
  })
});

声音克隆

const response = await fetch('https://api.hypereal.com/v1/audio/generate', {
  method: 'POST',
  headers: {
    'Authorization': 'Bearer YOUR_API_KEY',
    'Content-Type': 'application/json'
  },
  body: JSON.stringify({
    model: 'audio-clone',
    text: '(confident) This is my cloned voice speaking.',
    audio: 'https://example.com/my-voice-sample.mp3',
    format: 'mp3'
  })
});

语音识别

const response = await fetch('https://api.hypereal.com/v1/audio/generate', {
  method: 'POST',
  headers: {
    'Authorization': 'Bearer YOUR_API_KEY',
    'Content-Type': 'application/json'
  },
  body: JSON.stringify({
    model: 'audio-asr',
    audio: 'https://example.com/speech-recording.mp3',
    language: 'en',
    ignore_timestamps: false
  })
});

// 响应结果包含文本和时间戳
// { text: "...", duration: 5.2, segments: [...] }

最佳实践

情感使用

从简单开始 - 在尝试组合之前，先测试基础情感。
契合内容 - 确保所选情感与文本含义保持一致。
避免过度使用 - 在短文本中避免使用过多的情感标签。
测试多样性 - 不同的音色表达相同情感的效果可能有所不同。

声音克隆

高质量参考音 - 使用清晰、无背景噪音的音频（建议 10-30 秒）。
发音清晰 - 参考音频应具备清晰的吐字。
开启增强 - 对于有噪音的样本，请使用 enhance_audio_quality: true。

语音识别

指定语言 - 明确语言可以显著提高识别准确率。
高质量音频 - 清晰的录音会产生更好的结果。
使用时间戳 - 在生成字幕时请开启此功能。

输出格式

所有 TTS 和声音克隆模型均支持：

MP3 - 最适合通用场景（默认）
WAV - 无损压缩，最适合后期编辑
PCM - 原始音频数据
Opus - 适用于流媒体传输的高效格式

支持的语言

支持多语言，包括：

英语 (en)
中文 (zh)
日语 (ja)
西班牙语 (es)
法语 (fr)
德语 (de)
以及更多

为什么选择 Hypereal 音频 API？

统一 API - 一个端点即可调用 TTS、克隆和 ASR。
价格优势 - 比同类产品最高便宜 80%。
64+ 种情感 - 行业领先的表现力控制。
零样本克隆 - 仅需一段短样本即可克隆任何声音。
快速处理 - 针对低延迟进行了深度优化。

免费开始使用 - 无需信用卡。

Generative Audio API 概览

可用音频模型

模型	标识符 (Slug)	描述	价格
Text to Speech	`audio-tts`	高质量 TTS，支持 64+ 种情感表现	$0.015/1000 字符
Voice Clone	`audio-clone`	零样本 (Zero-shot) 声音克隆	$0.015/1000 字符
Speech Recognition	`audio-asr`	语音转文本（听写）	$0.006/分钟
Minimax Voice Clone	`minimax-voice-clone`	高级声音克隆	$0.50/次生成
Speech Turbo	`minimax-speech-02`	具备情感控制的快速 TTS	$0.003/次生成
Music Generation	`minimax-music-02`	带人声的 AI 音乐生成	$0.045/首

情感化文本转语音 (Emotional Text-to-Speech)

最强大的功能之一是情感控制，拥有分为四大类的 64+ 种情感表达。

基础情感 (24)

用于自然语音的核心情感状态：

进阶情感 (25)

更细腻的情感表达：

语气标记 (5)

朗读风格修饰符：

in a hurry tone - 仓促、紧急的语气
shouting - 呼喊、大声地
screaming - 尖叫、极高分贝
whispering - 耳语、轻声地
soft tone - 轻柔的语气

声音特效 (10)

音效与发声：

此外还包括特殊效果：观众笑声、人群笑声、停顿。

情感语法

在文本开头使用括号包裹情感标签：

(happy) What a beautiful day!
(sad) I'm sorry for your loss.
(excited) I can't believe we won!

组合情感

可以叠加多个标签来实现复杂的表达：

(sad)(whispering) I'll miss you.
(excited)(laughing) This is amazing!
(nervous)(in a hurry tone) We need to go now!

API 示例

带情感的文本转语音

const response = await fetch('https://api.hypereal.com/v1/audio/generate', {
  method: 'POST',
  headers: {
    'Authorization': 'Bearer YOUR_API_KEY',
    'Content-Type': 'application/json'
  },
  body: JSON.stringify({
    model: 'audio-tts',
    text: '(excited) Welcome to our platform! We are so happy to have you here.',
    format: 'mp3',
    temperature: 0.7
  })
});

声音克隆

const response = await fetch('https://api.hypereal.com/v1/audio/generate', {
  method: 'POST',
  headers: {
    'Authorization': 'Bearer YOUR_API_KEY',
    'Content-Type': 'application/json'
  },
  body: JSON.stringify({
    model: 'audio-clone',
    text: '(confident) This is my cloned voice speaking.',
    audio: 'https://example.com/my-voice-sample.mp3',
    format: 'mp3'
  })
});

语音识别

const response = await fetch('https://api.hypereal.com/v1/audio/generate', {
  method: 'POST',
  headers: {
    'Authorization': 'Bearer YOUR_API_KEY',
    'Content-Type': 'application/json'
  },
  body: JSON.stringify({
    model: 'audio-asr',
    audio: 'https://example.com/speech-recording.mp3',
    language: 'en',
    ignore_timestamps: false
  })
});

// 响应结果包含文本和时间戳
// { text: "...", duration: 5.2, segments: [...] }

最佳实践

情感使用

从简单开始 - 在尝试组合之前，先测试基础情感。
契合内容 - 确保所选情感与文本含义保持一致。
避免过度使用 - 在短文本中避免使用过多的情感标签。
测试多样性 - 不同的音色表达相同情感的效果可能有所不同。

声音克隆

高质量参考音 - 使用清晰、无背景噪音的音频（建议 10-30 秒）。
发音清晰 - 参考音频应具备清晰的吐字。
开启增强 - 对于有噪音的样本，请使用 enhance_audio_quality: true。

语音识别

指定语言 - 明确语言可以显著提高识别准确率。
高质量音频 - 清晰的录音会产生更好的结果。
使用时间戳 - 在生成字幕时请开启此功能。

输出格式

所有 TTS 和声音克隆模型均支持：

MP3 - 最适合通用场景（默认）
WAV - 无损压缩，最适合后期编辑
PCM - 原始音频数据
Opus - 适用于流媒体传输的高效格式

支持的语言

支持多语言，包括：

英语 (en)
中文 (zh)
日语 (ja)
西班牙语 (es)
法语 (fr)
德语 (de)
以及更多

为什么选择 Hypereal 音频 API？

统一 API - 一个端点即可调用 TTS、克隆和 ASR。
价格优势 - 比同类产品最高便宜 80%。
64+ 种情感 - 行业领先的表现力控制。
零样本克隆 - 仅需一段短样本即可克隆任何声音。
快速处理 - 针对低延迟进行了深度优化。

免费开始使用 - 无需信用卡。

开始使用 Hypereal 构建

Generative Audio API 概览

可用音频模型

情感化文本转语音 (Emotional Text-to-Speech)

基础情感 (24)

进阶情感 (25)

语气标记 (5)

声音特效 (10)

情感语法

组合情感

API 示例

带情感的文本转语音

声音克隆

语音识别

最佳实践

情感使用

声音克隆

语音识别

输出格式

支持的语言

为什么选择 Hypereal 音频 API？

相关文章

Speech Recognition API：将音频转录为文本

Voice Clone API：面向开发者的零样本语音克隆 (Zero-Shot Voice Cloning)

如何使用 Elevenlabs API：价格、功能及集成指南

立即开始构建

开始使用 Hypereal 构建

Generative Audio API 概览

可用音频模型

情感化文本转语音 (Emotional Text-to-Speech)

基础情感 (24)

进阶情感 (25)

语气标记 (5)

声音特效 (10)

情感语法

组合情感

API 示例

带情感的文本转语音

声音克隆

语音识别

最佳实践

情感使用

声音克隆

语音识别

输出格式

支持的语言

为什么选择 Hypereal 音频 API？

相关文章

Speech Recognition API：将音频转录为文本

Voice Clone API：面向开发者的零样本语音克隆 (Zero-Shot Voice Cloning)

如何使用 Elevenlabs API：价格、功能及集成指南

立即开始构建