Generative Audio API: TTS、ボイスクローニング、および音声認識

Generative Audio API 概要

Hypereal は、テキスト読み上げ（TTS）、音声クローニング、および音声認識のための包括的な音声生成 API スイートを提供します。すべての音声モデルは、競争力のある価格設定の統合 API を通じてアクセス可能です。

利用可能な音声モデル

モデル	スラグ (Slug)	説明	料金
Text to Speech	`audio-tts`	64種類以上の感情表現が可能な高品質 TTS	$0.015 / 1,000文字
Voice Clone	`audio-clone`	ゼロショット音声クローニング	$0.015 / 1,000文字
Speech Recognition	`audio-asr`	音声をテキストに書き起こし	$0.006 / 分
Minimax Voice Clone	`minimax-voice-clone`	プレミアム音声クローニング	$0.50 / 生成
Speech Turbo	`minimax-speech-02`	感情制御が可能な高速 TTS	$0.003 / 生成
Music Generation	`minimax-music-02`	ボーカル入り AI 楽曲生成	$0.045 / 曲

感情豊かなテキスト読み上げ

最も強力な機能の一つは、4つのカテゴリーに分類された 64種類以上の感情表現 による感情制御です。

基本的な感情 (24)

自然な発話のためのコアな感情状態：

happy, sad, angry, excited, calm, nervous, confident, surprised, satisfied, delighted, scared, worried, upset, frustrated, depressed, empathetic, embarrassed, disgusted, moved, proud, relaxed, grateful, curious, sarcastic

高度な感情 (25)

より微細なニュアンスの表現：

disdainful, unhappy, anxious, hysterical, indifferent, uncertain, doubtful, confused, disappointed, regretful, guilty, ashamed, jealous, envious, hopeful, optimistic, pessimistic, nostalgic, lonely, bored, contemptuous, sympathetic, compassionate, determined, resigned

トーンマーカー (5)

話し方のスタイルを修飾：

in a hurry tone - 急いでいるトーン（切迫感のある話し方）
shouting - 叫び（大声、強調）
screaming - 悲鳴（強烈、大音量）
whispering - ささやき（ソフト、親密）
soft tone - ソフトトーン（穏やかな話し方）

オーディオエフェクト (10)

効果音および発声：

laughing, chuckling, sobbing, crying loudly, sighing, groaning, panting, gasping, yawning, snoring

その他、特殊エフェクト：観衆の笑い声、人混みの笑い声、ポーズ（間）。

感情指定の構文

テキストの冒頭に、感情を括弧で囲んで記述します：

(happy) What a beautiful day!
(sad) I'm sorry for your loss.
(excited) I can't believe we won!

感情の組み合わせ

複数のタグを重ねることで、複雑な表現が可能です：

(sad)(whispering) I'll miss you.
(excited)(laughing) This is amazing!
(nervous)(in a hurry tone) We need to go now!

API の例

感情指定付きテキスト読み上げ（TTS）

const response = await fetch('https://api.hypereal.com/v1/audio/generate', {
  method: 'POST',
  headers: {
    'Authorization': 'Bearer YOUR_API_KEY',
    'Content-Type': 'application/json'
  },
  body: JSON.stringify({
    model: 'audio-tts',
    text: '(excited) Welcome to our platform! We are so happy to have you here.',
    format: 'mp3',
    temperature: 0.7
  })
});

音声クローニング

const response = await fetch('https://api.hypereal.com/v1/audio/generate', {
  method: 'POST',
  headers: {
    'Authorization': 'Bearer YOUR_API_KEY',
    'Content-Type': 'application/json'
  },
  body: JSON.stringify({
    model: 'audio-clone',
    text: '(confident) This is my cloned voice speaking.',
    audio: 'https://example.com/my-voice-sample.mp3',
    format: 'mp3'
  })
});

音声認識（ASR）

const response = await fetch('https://api.hypereal.com/v1/audio/generate', {
  method: 'POST',
  headers: {
    'Authorization': 'Bearer YOUR_API_KEY',
    'Content-Type': 'application/json'
  },
  body: JSON.stringify({
    model: 'audio-asr',
    audio: 'https://example.com/speech-recording.mp3',
    language: 'en',
    ignore_timestamps: false
  })
});

// レスポンスにはテキストとタイムスタンプが含まれます
// { text: "...", duration: 5.2, segments: [...] }

ベストプラクティス

感情の利用

シンプルに始める - 組み合わせる前に、まずは単一の感情でテストしてください。
内容に合わせる - テキストの意味と感情を一致させてください。
使いすぎない - 短いテキストに多くの感情タグを詰め込みすぎないようにしてください。
バリエーションを試す - 選択する音声によって感情の表現方法が異なる場合があります。

音声クローニング

高品質なリファレンス - ノイズのないクリアな音声（10〜30秒）を使用してください。
明瞭な発話 - リファレンス音声の発音がはっきりしていることを確認してください。
補正を有効化 - ノイズのあるサンプルの場合は enhance_audio_quality: true を使用してください。

音声認識

言語の指定 - 言語を明示することで精度が大幅に向上します。
高品質なオーディオ - クリアな録音ほど良い結果が得られます。
タイムスタンプの活用 - 字幕やキャプション生成にはタイムスタンプを有効にしてください。

出力フォーマット

すべての TTS および音声クローニングモデルは以下をサポートしています：

MP3 - 一般的な利用に最適（デフォルト）
WAV - 非圧縮、編集に最適
PCM - 生のオーディオデータ
Opus - ストリーミングに効率的

サポート言語

以下を含む多言語をサポートしています：

英語 (en)
中国語 (zh)
日本語 (ja)
スペイン語 (es)
フランス語 (fr)
ドイツ語 (de)
その他多数

オーディオ機能に Hypereal を選ぶ理由

統合 API - TTS、クローニング、ASR を一つのエンドポイントで提供
競争力のある価格 - 他の代替サービスと比較して最大 80% 低価格
64種類以上の感情 - 業界をリードする表現制御能力
ゼロショット・クローニング - 短いサンプルからあらゆる声をクローン可能
高速な処理 - 低レイテンシに最適化

無料ではじめる - クレジットカード登録は不要です。

Generative Audio API 概要

利用可能な音声モデル

モデル	スラグ (Slug)	説明	料金
Text to Speech	`audio-tts`	64種類以上の感情表現が可能な高品質 TTS	$0.015 / 1,000文字
Voice Clone	`audio-clone`	ゼロショット音声クローニング	$0.015 / 1,000文字
Speech Recognition	`audio-asr`	音声をテキストに書き起こし	$0.006 / 分
Minimax Voice Clone	`minimax-voice-clone`	プレミアム音声クローニング	$0.50 / 生成
Speech Turbo	`minimax-speech-02`	感情制御が可能な高速 TTS	$0.003 / 生成
Music Generation	`minimax-music-02`	ボーカル入り AI 楽曲生成	$0.045 / 曲

感情豊かなテキスト読み上げ

最も強力な機能の一つは、4つのカテゴリーに分類された 64種類以上の感情表現 による感情制御です。

基本的な感情 (24)

自然な発話のためのコアな感情状態：

高度な感情 (25)

より微細なニュアンスの表現：

トーンマーカー (5)

話し方のスタイルを修飾：

in a hurry tone - 急いでいるトーン（切迫感のある話し方）
shouting - 叫び（大声、強調）
screaming - 悲鳴（強烈、大音量）
whispering - ささやき（ソフト、親密）
soft tone - ソフトトーン（穏やかな話し方）

オーディオエフェクト (10)

効果音および発声：

laughing, chuckling, sobbing, crying loudly, sighing, groaning, panting, gasping, yawning, snoring

その他、特殊エフェクト：観衆の笑い声、人混みの笑い声、ポーズ（間）。

感情指定の構文

テキストの冒頭に、感情を括弧で囲んで記述します：

(happy) What a beautiful day!
(sad) I'm sorry for your loss.
(excited) I can't believe we won!

感情の組み合わせ

複数のタグを重ねることで、複雑な表現が可能です：

(sad)(whispering) I'll miss you.
(excited)(laughing) This is amazing!
(nervous)(in a hurry tone) We need to go now!

API の例

感情指定付きテキスト読み上げ（TTS）

const response = await fetch('https://api.hypereal.com/v1/audio/generate', {
  method: 'POST',
  headers: {
    'Authorization': 'Bearer YOUR_API_KEY',
    'Content-Type': 'application/json'
  },
  body: JSON.stringify({
    model: 'audio-tts',
    text: '(excited) Welcome to our platform! We are so happy to have you here.',
    format: 'mp3',
    temperature: 0.7
  })
});

音声クローニング

const response = await fetch('https://api.hypereal.com/v1/audio/generate', {
  method: 'POST',
  headers: {
    'Authorization': 'Bearer YOUR_API_KEY',
    'Content-Type': 'application/json'
  },
  body: JSON.stringify({
    model: 'audio-clone',
    text: '(confident) This is my cloned voice speaking.',
    audio: 'https://example.com/my-voice-sample.mp3',
    format: 'mp3'
  })
});

音声認識（ASR）

const response = await fetch('https://api.hypereal.com/v1/audio/generate', {
  method: 'POST',
  headers: {
    'Authorization': 'Bearer YOUR_API_KEY',
    'Content-Type': 'application/json'
  },
  body: JSON.stringify({
    model: 'audio-asr',
    audio: 'https://example.com/speech-recording.mp3',
    language: 'en',
    ignore_timestamps: false
  })
});

// レスポンスにはテキストとタイムスタンプが含まれます
// { text: "...", duration: 5.2, segments: [...] }

ベストプラクティス

感情の利用

シンプルに始める - 組み合わせる前に、まずは単一の感情でテストしてください。
内容に合わせる - テキストの意味と感情を一致させてください。
使いすぎない - 短いテキストに多くの感情タグを詰め込みすぎないようにしてください。
バリエーションを試す - 選択する音声によって感情の表現方法が異なる場合があります。

音声クローニング

高品質なリファレンス - ノイズのないクリアな音声（10〜30秒）を使用してください。
明瞭な発話 - リファレンス音声の発音がはっきりしていることを確認してください。
補正を有効化 - ノイズのあるサンプルの場合は enhance_audio_quality: true を使用してください。

音声認識

言語の指定 - 言語を明示することで精度が大幅に向上します。
高品質なオーディオ - クリアな録音ほど良い結果が得られます。
タイムスタンプの活用 - 字幕やキャプション生成にはタイムスタンプを有効にしてください。

出力フォーマット

すべての TTS および音声クローニングモデルは以下をサポートしています：

MP3 - 一般的な利用に最適（デフォルト）
WAV - 非圧縮、編集に最適
PCM - 生のオーディオデータ
Opus - ストリーミングに効率的

サポート言語

以下を含む多言語をサポートしています：

英語 (en)
中国語 (zh)
日本語 (ja)
スペイン語 (es)
フランス語 (fr)
ドイツ語 (de)
その他多数

オーディオ機能に Hypereal を選ぶ理由

統合 API - TTS、クローニング、ASR を一つのエンドポイントで提供
競争力のある価格 - 他の代替サービスと比較して最大 80% 低価格
64種類以上の感情 - 業界をリードする表現制御能力
ゼロショット・クローニング - 短いサンプルからあらゆる声をクローン可能
高速な処理 - 低レイテンシに最適化

無料ではじめる - クレジットカード登録は不要です。

Hyperealで構築を始めよう

Generative Audio API 概要

利用可能な音声モデル

感情豊かなテキスト読み上げ

基本的な感情 (24)

高度な感情 (25)

トーンマーカー (5)

オーディオエフェクト (10)

感情指定の構文

感情の組み合わせ

API の例

感情指定付きテキスト読み上げ（TTS）

音声クローニング

音声認識（ASR）

ベストプラクティス

感情の利用

音声クローニング

音声認識

出力フォーマット

サポート言語

オーディオ機能に Hypereal を選ぶ理由

関連記事

AI楽曲生成APIの使い方：REST APIでトラックを作成する方法 (2026年版)

AI Voice Cloning API の使い方：あらゆる声を数秒で複製する方法 (2026年版)

Text to Speech API: 開発者のための自然な音声合成

今日から構築を開始

Hyperealで構築を始めよう

Generative Audio API 概要

利用可能な音声モデル

感情豊かなテキスト読み上げ

基本的な感情 (24)

高度な感情 (25)

トーンマーカー (5)

オーディオエフェクト (10)

感情指定の構文

感情の組み合わせ

API の例

感情指定付きテキスト読み上げ（TTS）

音声クローニング

音声認識（ASR）

ベストプラクティス

感情の利用

音声クローニング

音声認識

出力フォーマット

サポート言語

オーディオ機能に Hypereal を選ぶ理由

関連記事

AI楽曲生成APIの使い方：REST APIでトラックを作成する方法 (2026年版)

AI Voice Cloning API の使い方：あらゆる声を数秒で複製する方法 (2026年版)

Text to Speech API: 開発者のための自然な音声合成

今日から構築を開始