Speech Recognition API: 오디오를 텍스트로 변환하기

Speech Recognition API란 무엇인가요?

Speech Recognition API (ASR - Automatic Speech Recognition)는 오디오 파일을 텍스트로 변환합니다. 여러 언어를 지원하며, 각 음성 세그먼트에 대한 정밀한 타임스탬프를 제공할 수 있습니다.

주요 활용 사례

전사(Transcription) 서비스: 회의, 인터뷰, 강의 내용을 텍스트로 변환
자막 및 캡션: 타임스탬프를 포함한 비디오용 자막 생성
음성 명령: 애플리케이션을 위한 음성 입력 처리
콘텐츠 인덱싱: 오디오 콘텐츠를 검색 가능하게 최적화
접근성 초점: 오디오 콘텐츠의 텍스트 버전 생성

API 파라미터

필수 파라미터

파라미터	타입	설명
`audio`	string	변환할 오디오 파일의 URL

선택 파라미터

파라미터	타입	기본값	설명
`language`	string	—	언어 코드 (예: `en`, `zh`, `ja`, `es`)
`ignore_timestamps`	boolean	`true`	정밀한 타임스탬프를 받으려면 `false`로 설정

요금 정책

사용량	가격 (USD)	크레딧
오디오 1분당	$0.006	~1

오디오 시간당 $0.36 기준입니다.

Speech Recognition API 사용법

1단계: 계정 생성

Hypereal에서 가입하여 시작하세요.

2단계: API Key 발급

대시보드에서 API Key를 생성합니다.

3단계: API 호출하기

const response = await fetch('https://api.hypereal.com/v1/audio/generate', {
  method: 'POST',
  headers: {
    'Authorization': 'Bearer YOUR_API_KEY',
    'Content-Type': 'application/json'
  },
  body: JSON.stringify({
    model: 'audio-asr',
    audio: 'https://example.com/speech-recording.mp3',
    language: 'en',
    ignore_timestamps: false
  })
});

const result = await response.json();
console.log(result.text);
console.log(result.segments); // 타임스탬프 포함

응답 형식

{
  "text": "Hello, welcome to our presentation today.",
  "duration": 5.2,
  "segments": [
    { "text": "Hello,", "start": 0.0, "end": 0.8 },
    { "text": "welcome to our presentation today.", "start": 0.9, "end": 5.2 }
  ]
}

권장 활용 방법 (Best Practices)

언어 지정 - 언어 코드를 제공하면 정확도가 향상됩니다.
오디오 품질 - 선명한 오디오일수록 더 나은 전사 결과를 제공합니다.
타임스탬프 활용 - 필요한 경우에만 타임스탬프를 활성화하세요 (짧은 오디오의 경우 지연 시간이 추가될 수 있음).
지원 형식 - 최상의 호환성을 위해 MP3, WAV, M4A 또는 FLAC을 사용하세요.

지원 언어

본 API는 다음을 포함한 여러 언어를 지원합니다:

영어 (en)
중국어 (zh)
일본어 (ja)
스페인어 (es)
프랑스어 (fr)
독일어 (de)
기타 다수 언어

자주 묻는 질문 (FAQ)

최대 오디오 길이는 얼마인가요?

엄격한 제한은 없습니다. 긴 오디오 파일은 세그먼트 단위로 나뉘어 처리됩니다.

전사 정확도는 어느 정도인가요?

정확도는 오디오의 품질과 선명도에 따라 달라집니다. 깨끗한 음성의 경우 일반적으로 95% 이상의 정확도를 보입니다.

단어 단위의 타임스탬프를 받을 수 있나요?

네, ignore_timestamps: false로 설정하면 세그먼트 단위의 타임스탬프를 받을 수 있습니다.

왜 Hypereal을 선택해야 하나요?

단일 통합 API를 통해 Speech Recognition을 비롯한 100개 이상의 AI 모델을 사용할 수 있습니다.

모든 모델에 대해 하나의 API Key 사용
모든 공급업체에 대한 통합 빌링 시스템
대량 사용 시 할인이 적용되는 경쟁력 있는 가격

무료로 시작하기 - 신용카드가 필요하지 않습니다.

Speech Recognition API란 무엇인가요?

주요 활용 사례

전사(Transcription) 서비스: 회의, 인터뷰, 강의 내용을 텍스트로 변환
자막 및 캡션: 타임스탬프를 포함한 비디오용 자막 생성
음성 명령: 애플리케이션을 위한 음성 입력 처리
콘텐츠 인덱싱: 오디오 콘텐츠를 검색 가능하게 최적화
접근성 초점: 오디오 콘텐츠의 텍스트 버전 생성

API 파라미터

필수 파라미터

파라미터	타입	설명
`audio`	string	변환할 오디오 파일의 URL

선택 파라미터

파라미터	타입	기본값	설명
`language`	string	—	언어 코드 (예: `en`, `zh`, `ja`, `es`)
`ignore_timestamps`	boolean	`true`	정밀한 타임스탬프를 받으려면 `false`로 설정

요금 정책

사용량	가격 (USD)	크레딧
오디오 1분당	$0.006	~1

오디오 시간당 $0.36 기준입니다.

Speech Recognition API 사용법

1단계: 계정 생성

Hypereal에서 가입하여 시작하세요.

2단계: API Key 발급

대시보드에서 API Key를 생성합니다.

3단계: API 호출하기

const response = await fetch('https://api.hypereal.com/v1/audio/generate', {
  method: 'POST',
  headers: {
    'Authorization': 'Bearer YOUR_API_KEY',
    'Content-Type': 'application/json'
  },
  body: JSON.stringify({
    model: 'audio-asr',
    audio: 'https://example.com/speech-recording.mp3',
    language: 'en',
    ignore_timestamps: false
  })
});

const result = await response.json();
console.log(result.text);
console.log(result.segments); // 타임스탬프 포함

응답 형식

{
  "text": "Hello, welcome to our presentation today.",
  "duration": 5.2,
  "segments": [
    { "text": "Hello,", "start": 0.0, "end": 0.8 },
    { "text": "welcome to our presentation today.", "start": 0.9, "end": 5.2 }
  ]
}

권장 활용 방법 (Best Practices)

언어 지정 - 언어 코드를 제공하면 정확도가 향상됩니다.
오디오 품질 - 선명한 오디오일수록 더 나은 전사 결과를 제공합니다.
타임스탬프 활용 - 필요한 경우에만 타임스탬프를 활성화하세요 (짧은 오디오의 경우 지연 시간이 추가될 수 있음).
지원 형식 - 최상의 호환성을 위해 MP3, WAV, M4A 또는 FLAC을 사용하세요.

지원 언어

본 API는 다음을 포함한 여러 언어를 지원합니다:

영어 (en)
중국어 (zh)
일본어 (ja)
스페인어 (es)
프랑스어 (fr)
독일어 (de)
기타 다수 언어

자주 묻는 질문 (FAQ)

최대 오디오 길이는 얼마인가요?

엄격한 제한은 없습니다. 긴 오디오 파일은 세그먼트 단위로 나뉘어 처리됩니다.

전사 정확도는 어느 정도인가요?

정확도는 오디오의 품질과 선명도에 따라 달라집니다. 깨끗한 음성의 경우 일반적으로 95% 이상의 정확도를 보입니다.

단어 단위의 타임스탬프를 받을 수 있나요?

네, ignore_timestamps: false로 설정하면 세그먼트 단위의 타임스탬프를 받을 수 있습니다.

왜 Hypereal을 선택해야 하나요?

단일 통합 API를 통해 Speech Recognition을 비롯한 100개 이상의 AI 모델을 사용할 수 있습니다.

모든 모델에 대해 하나의 API Key 사용
모든 공급업체에 대한 통합 빌링 시스템
대량 사용 시 할인이 적용되는 경쟁력 있는 가격

무료로 시작하기 - 신용카드가 필요하지 않습니다.

Hypereal로 구축 시작하기

Speech Recognition API란 무엇인가요?

주요 활용 사례

API 파라미터

필수 파라미터

선택 파라미터

요금 정책

Speech Recognition API 사용법

1단계: 계정 생성

2단계: API Key 발급

3단계: API 호출하기

응답 형식

권장 활용 방법 (Best Practices)

지원 언어

자주 묻는 질문 (FAQ)

최대 오디오 길이는 얼마인가요?

전사 정확도는 어느 정도인가요?

단어 단위의 타임스탬프를 받을 수 있나요?

왜 Hypereal을 선택해야 하나요?

관련 아티클

Text to Speech API: 개발자를 위한 자연스러운 음성 합성

Elevenlabs API 사용법: 요금제, 주요 기능 및 연동 가이드

Minimax Music API 사용법: 가격, 주요 기능 및 연동 가이드

지금 바로 개발을 시작하세요

Hypereal로 구축 시작하기

Speech Recognition API란 무엇인가요?

주요 활용 사례

API 파라미터

필수 파라미터

선택 파라미터

요금 정책

Speech Recognition API 사용법

1단계: 계정 생성

2단계: API Key 발급

3단계: API 호출하기

응답 형식

권장 활용 방법 (Best Practices)

지원 언어

자주 묻는 질문 (FAQ)

최대 오디오 길이는 얼마인가요?

전사 정확도는 어느 정도인가요?

단어 단위의 타임스탬프를 받을 수 있나요?

왜 Hypereal을 선택해야 하나요?

관련 아티클

Text to Speech API: 개발자를 위한 자연스러운 음성 합성

Elevenlabs API 사용법: 요금제, 주요 기능 및 연동 가이드

Minimax Music API 사용법: 가격, 주요 기능 및 연동 가이드

지금 바로 개발을 시작하세요