Voice Clone API：面向开发者的零样本语音克隆 (Zero-Shot Voice Cloning)

什么是 Voice Clone API？

Voice Clone API 能够让您通过短小的音频样本克隆任何声音，并以该声音生成语音。利用先进的零样本（zero-shot）克隆技术，您无需训练专门的模型即可创建自定义语音输出。

应用场景

个性化助手：创建具有自定义声音的 AI 助手
内容本地化：在翻译内容中保持声音的一致性
播客制作：生成一致的叙述语音
游戏开发：根据参考样本创建角色声音
辅助功能：为文字转语音应用克隆熟悉的音频

API 参数

必选参数

参数	类型	描述
`text`	string	要使用克隆声音合成的文本
`audio`	string	用于克隆声音的源音频文件 URL

可选参数

参数	类型	默认值	描述
`model`	string	`s1`	TTS 模型：`s1`、`speech-1.6`、`speech-1.5`
`format`	string	`mp3`	输出格式：`mp3`、`wav`、`pcm`、`opus`
`temperature`	number	`0.7`	表现力 (0-1)。数值越高，变化越丰富
`enhance_audio_quality`	boolean	`false`	是否启用参考音频的质量增强

价格

用量	价格 (美元)	积分
每约 1000 字符	$0.015	~3

如何使用 Voice Clone API

第 1 步：创建账户

在 Hypereal 注册以开始使用。

第 2 步：获取 API Key

在控制面板中生成您的 API key。

第 3 步：发起 API 调用

const response = await fetch('https://api.hypereal.com/v1/audio/generate', {
  method: 'POST',
  headers: {
    'Authorization': 'Bearer YOUR_API_KEY',
    'Content-Type': 'application/json'
  },
  body: JSON.stringify({
    model: 'audio-clone',
    text: 'Hello! This is my cloned voice speaking to you.',
    audio: 'https://example.com/voice-sample.mp3',
    format: 'mp3',
    enhance_audio_quality: true
  })
});

const audioBlob = await response.blob();

最佳实践

高质量参考音频 - 使用清晰、无噪音的音频样本以获得最佳效果。
时长充足 - 提供至少 10-30 秒的参考音频。
清晰的发音 - 参考音频应具有清晰的吐字。
启用增强 - 对于有噪音的样本，请使用 enhance_audio_quality: true。
匹配内容风格 - 参考音频的风格会影响输出的音调。

支持的音频格式

输入：MP3, WAV, M4A, FLAC
输出：MP3, WAV, PCM, Opus

常见问题 (FAQ)

参考音频应该多长？

10-30 秒的清晰语音效果最佳。更长的样本可以进一步提升质量。

我可以保存克隆的声音以便重复使用吗？

可以，只需创建一次语音模型，并在以后的请求中使用 reference_id 参数即可。

推荐什么样的音频质量？

使用背景噪音极小的高质量录音（16kHz+ 采样率）。

为什么选择 Hypereal？

通过单一、统一的 API 即可访问 Voice Clone 以及 100 多种其他 AI 模型。

一个 API key 即可调用所有模型
跨供应商统一计费
具有竞争力的价格和批量折扣

免费开始使用 - 无需信用卡。

什么是 Voice Clone API？

应用场景

个性化助手：创建具有自定义声音的 AI 助手
内容本地化：在翻译内容中保持声音的一致性
播客制作：生成一致的叙述语音
游戏开发：根据参考样本创建角色声音
辅助功能：为文字转语音应用克隆熟悉的音频

API 参数

必选参数

参数	类型	描述
`text`	string	要使用克隆声音合成的文本
`audio`	string	用于克隆声音的源音频文件 URL

可选参数

参数	类型	默认值	描述
`model`	string	`s1`	TTS 模型：`s1`、`speech-1.6`、`speech-1.5`
`format`	string	`mp3`	输出格式：`mp3`、`wav`、`pcm`、`opus`
`temperature`	number	`0.7`	表现力 (0-1)。数值越高，变化越丰富
`enhance_audio_quality`	boolean	`false`	是否启用参考音频的质量增强

价格

用量	价格 (美元)	积分
每约 1000 字符	$0.015	~3

如何使用 Voice Clone API

第 1 步：创建账户

在 Hypereal 注册以开始使用。

第 2 步：获取 API Key

在控制面板中生成您的 API key。

第 3 步：发起 API 调用

const response = await fetch('https://api.hypereal.com/v1/audio/generate', {
  method: 'POST',
  headers: {
    'Authorization': 'Bearer YOUR_API_KEY',
    'Content-Type': 'application/json'
  },
  body: JSON.stringify({
    model: 'audio-clone',
    text: 'Hello! This is my cloned voice speaking to you.',
    audio: 'https://example.com/voice-sample.mp3',
    format: 'mp3',
    enhance_audio_quality: true
  })
});

const audioBlob = await response.blob();

最佳实践

高质量参考音频 - 使用清晰、无噪音的音频样本以获得最佳效果。
时长充足 - 提供至少 10-30 秒的参考音频。
清晰的发音 - 参考音频应具有清晰的吐字。
启用增强 - 对于有噪音的样本，请使用 enhance_audio_quality: true。
匹配内容风格 - 参考音频的风格会影响输出的音调。

支持的音频格式

输入：MP3, WAV, M4A, FLAC
输出：MP3, WAV, PCM, Opus

常见问题 (FAQ)

参考音频应该多长？

10-30 秒的清晰语音效果最佳。更长的样本可以进一步提升质量。

我可以保存克隆的声音以便重复使用吗？

可以，只需创建一次语音模型，并在以后的请求中使用 reference_id 参数即可。

推荐什么样的音频质量？

使用背景噪音极小的高质量录音（16kHz+ 采样率）。

为什么选择 Hypereal？

通过单一、统一的 API 即可访问 Voice Clone 以及 100 多种其他 AI 模型。

一个 API key 即可调用所有模型
跨供应商统一计费
具有竞争力的价格和批量折扣

免费开始使用 - 无需信用卡。

开始使用 Hypereal 构建

什么是 Voice Clone API？

应用场景

API 参数

必选参数

可选参数

价格

如何使用 Voice Clone API

第 1 步：创建账户

第 2 步：获取 API Key

第 3 步：发起 API 调用

最佳实践

支持的音频格式

常见问题 (FAQ)

参考音频应该多长？

我可以保存克隆的声音以便重复使用吗？

推荐什么样的音频质量？

为什么选择 Hypereal？

相关文章

Generative Audio API：TTS、语音克隆与语音识别

Speech Recognition API：将音频转录为文本

如何使用 Elevenlabs API：价格、功能及集成指南

立即开始构建

开始使用 Hypereal 构建

什么是 Voice Clone API？

应用场景

API 参数

必选参数

可选参数

价格

如何使用 Voice Clone API

第 1 步：创建账户

第 2 步：获取 API Key

第 3 步：发起 API 调用

最佳实践

支持的音频格式

常见问题 (FAQ)

参考音频应该多长？

我可以保存克隆的声音以便重复使用吗？

推荐什么样的音频质量？

为什么选择 Hypereal？

相关文章

Generative Audio API：TTS、语音克隆与语音识别

Speech Recognition API：将音频转录为文本

如何使用 Elevenlabs API：价格、功能及集成指南

立即开始构建