아티클 목록으로
Hypereal AI Team
APITutorialAudio
Speech Recognition API: 오디오를 텍스트로 변환하기
5 min read
100개 이상의 AI 모델, 하나의 API
Hypereal로 구축 시작하기
단일 API를 통해 Kling, Flux, Sora, Veo 등에 액세스하세요. 무료 크레딧으로 시작하고 수백만으로 확장하세요.
신용카드 불필요 • 10만 명 이상의 개발자 • 엔터프라이즈 지원
Speech Recognition API란 무엇인가요?
Speech Recognition API (ASR - Automatic Speech Recognition)는 오디오 파일을 텍스트로 변환합니다. 여러 언어를 지원하며, 각 음성 세그먼트에 대한 정밀한 타임스탬프를 제공할 수 있습니다.
주요 활용 사례
- 전사(Transcription) 서비스: 회의, 인터뷰, 강의 내용을 텍스트로 변환
- 자막 및 캡션: 타임스탬프를 포함한 비디오용 자막 생성
- 음성 명령: 애플리케이션을 위한 음성 입력 처리
- 콘텐츠 인덱싱: 오디오 콘텐츠를 검색 가능하게 최적화
- 접근성 초점: 오디오 콘텐츠의 텍스트 버전 생성
API 파라미터
필수 파라미터
| 파라미터 | 타입 | 설명 |
|---|---|---|
audio |
string | 변환할 오디오 파일의 URL |
선택 파라미터
| 파라미터 | 타입 | 기본값 | 설명 |
|---|---|---|---|
language |
string | — | 언어 코드 (예: en, zh, ja, es) |
ignore_timestamps |
boolean | true |
정밀한 타임스탬프를 받으려면 false로 설정 |
요금 정책
| 사용량 | 가격 (USD) | 크레딧 |
|---|---|---|
| 오디오 1분당 | $0.006 | ~1 |
오디오 시간당 $0.36 기준입니다.
Speech Recognition API 사용법
1단계: 계정 생성
Hypereal에서 가입하여 시작하세요.
2단계: API Key 발급
대시보드에서 API Key를 생성합니다.
3단계: API 호출하기
const response = await fetch('https://api.hypereal.com/v1/audio/generate', {
method: 'POST',
headers: {
'Authorization': 'Bearer YOUR_API_KEY',
'Content-Type': 'application/json'
},
body: JSON.stringify({
model: 'audio-asr',
audio: 'https://example.com/speech-recording.mp3',
language: 'en',
ignore_timestamps: false
})
});
const result = await response.json();
console.log(result.text);
console.log(result.segments); // 타임스탬프 포함
응답 형식
{
"text": "Hello, welcome to our presentation today.",
"duration": 5.2,
"segments": [
{ "text": "Hello,", "start": 0.0, "end": 0.8 },
{ "text": "welcome to our presentation today.", "start": 0.9, "end": 5.2 }
]
}
권장 활용 방법 (Best Practices)
- 언어 지정 - 언어 코드를 제공하면 정확도가 향상됩니다.
- 오디오 품질 - 선명한 오디오일수록 더 나은 전사 결과를 제공합니다.
- 타임스탬프 활용 - 필요한 경우에만 타임스탬프를 활성화하세요 (짧은 오디오의 경우 지연 시간이 추가될 수 있음).
- 지원 형식 - 최상의 호환성을 위해 MP3, WAV, M4A 또는 FLAC을 사용하세요.
지원 언어
본 API는 다음을 포함한 여러 언어를 지원합니다:
- 영어 (en)
- 중국어 (zh)
- 일본어 (ja)
- 스페인어 (es)
- 프랑스어 (fr)
- 독일어 (de)
- 기타 다수 언어
자주 묻는 질문 (FAQ)
최대 오디오 길이는 얼마인가요?
엄격한 제한은 없습니다. 긴 오디오 파일은 세그먼트 단위로 나뉘어 처리됩니다.
전사 정확도는 어느 정도인가요?
정확도는 오디오의 품질과 선명도에 따라 달라집니다. 깨끗한 음성의 경우 일반적으로 95% 이상의 정확도를 보입니다.
단어 단위의 타임스탬프를 받을 수 있나요?
네, ignore_timestamps: false로 설정하면 세그먼트 단위의 타임스탬프를 받을 수 있습니다.
왜 Hypereal을 선택해야 하나요?
단일 통합 API를 통해 Speech Recognition을 비롯한 100개 이상의 AI 모델을 사용할 수 있습니다.
- 모든 모델에 대해 하나의 API Key 사용
- 모든 공급업체에 대한 통합 빌링 시스템
- 대량 사용 시 할인이 적용되는 경쟁력 있는 가격
무료로 시작하기 - 신용카드가 필요하지 않습니다.
