탐색 건너뛰기

음성 서비스 가격

음성 텍스트 변환, 텍스트 음성 변환 및 음성 번역을 위한 통합 음성 서비스

통합 음성 서비스는 음성 전사, 텍스트 음성 변환, 음성 번역 등 다양한 음성 인식 및 생성 기능을 제공합니다. 음성 서비스는 음성 전사, 텍스트 음성 변환, 음성 번역 및 화자 인식 등 다양한 음성 인식 및 생성 기능을 제공합니다.

가격 옵션 살펴보기

필터를 적용하여 요구 사항에 맞게 가격 옵션을 사용자 지정하세요.

Prices are estimates only and are not intended as actual price quotes. Actual pricing may vary depending on the type of agreement entered with Microsoft and the currency exchange rate. Prices are calculated based on US dollars and converted using Thomson Reuters benchmark rates refreshed on the first day of each calendar month. Sign in to the Azure pricing calculator to see pricing based on your current program/offer with Microsoft. Contact an Azure sales specialist for more information on pricing or to request a price quote. See frequently asked questions about Azure pricing.

인스턴스 범주 기능 가격
무료 - 웹/컨테이너
1개 동시 요청1
Speech to Text Standard2 매월 5 오디오 시간 무료
사용자 지정 매월 5 오디오 시간 무료
엔드포인트 호스팅: 매월 1개 모델 무료 3
대화 기록 다중 채널 오디오 미리 보기 4 매월 5 오디오 시간 무료
Text to Speech Standard 매월 5 million자 무료
인공신경망 매월 0.5 million자 무료
사용자 지정 매월 5 million자 무료
엔드포인트 호스팅: 매월 1개 모델 무료
Speech Translation Standard 매월 5 오디오 시간 무료
Speaker Recognition 8 화자 검증 월별 10,000개 트랜잭션 무료
화자 식별 월별 10,000개 트랜잭션 무료
음성 스토리지 월별 10,000개 트랜잭션 무료
표준 - 웹/컨테이너
베이스 모델의 경우 동시 요청 100개
사용자 지정 모델의 경우 동시 요청 20개1
Speech to Text Standard2 오디오 시간당 $-
사용자 지정 오디오 시간당 $-
엔드포인트 호스팅: $-/모델/시간
대화 기록 다중 채널 오디오 미리 보기 4 오디오 시간당 $- 5
Text to Speech Standard 1백만 자당 $-
인공신경망 1백만 개당 $- 문자 6
긴 오디오 생성: 1백만 자당 $-
사용자 지정 1백만 자당 $-
엔드포인트 호스팅: $-/모델/시간 9
사용자 지정 인공신경망 7 교육: 컴퓨팅 시간당 $-개, 최대 학습당 $-
실시간 합성: 1백만 자당 $-
엔드포인트 호스팅: $-/모델/시간
긴 오디오 생성: 1백만 자당 $-
Speech Translation Standard 오디오 시간당 $-
Speaker Recognition 8 화자 검증 1,000개 트랜잭션당 $-
화자 식별 1,000개 트랜잭션당 $-
음성 스토리지 음성 프로필 1,000개당 $-(매월 음성 프로필 10,000개 무료)

모든 가격 책정 계층의 할당량 및 한도에 대한 자세한 내용은 설명서를 참조하세요.

1동시 요청을 늘리려면 지침을 참조하세요.

2이제 Speech to Text에는 무료 인스턴스(예: 매월 5 오디오 시간 무료) 및 표준 인스턴스 둘 다에 대한 발음 평가가 포함됩니다. 표준 인스턴스는 오디오 시간당 $1의 표준 가격 책정을 따릅니다.

3사용되지 않은 모델은 7일 후 자동으로 서비스 해제됩니다.

4대화 전사 다중 채널에는 원형 마이크 배열 디바이스를 사용하는 것이 좋습니다. 자세한 내용은 Microsoft Speech Device SDK를 참조하세요.

5공개 미리 보기 가격이 반영되었습니다. 일반 공급 가격은 나중에 일반 공급 시 발표됩니다.

6인공신경망 Text to Speech를 사용할 수 있는 지역은 인공신경망 설명서를 확인하세요.

7사용자 지정 신경망 음성 기능은 제한된 액세스 기능입니다. 제한된 액세스 프로세스에 대해 자세히 알아보세요. 사용자 지정 신경망 음성을 사용할 수 있는 위치를 확인하세요.

8현재 미국 서부에서만 Speaker Recognition을 사용할 수 있습니다. Speaker Recognition의 가격을 확인하려면 지역으로 “미국 서부”를 선택하세요.

9사용자 지정 음성은 2024년 2월 29일에 사용 중단됩니다. 이제 사용자 지정 신경망 음성에서 향상된 서비스를 제공합니다. 사용자 지정 신경망 음성으로 마이그레이션하세요.

Azure 가격 책정 및 구매 옵션

Microsoft와 직접 연락하기

Azure 가격 책정을 살펴보세요. 클라우드 솔루션의 가격 책정을 이해하고 비용 최적화에 대해 알아보고 사용자 지정 제안을 요청하세요.

판매 전문가에게 문의하기

구매 방법 확인

Azure 웹 사이트, Microsoft 담당자 또는 Azure 파트너를 통해 Azure 서비스를 구매하세요.

옵션 살펴보기

추가 리소스

음성 서비스 세부 정보

음성 서비스 기능에 대해 자세히 알아보세요.

가격 계산기

요구 사항에 맞는 모든 Azure 제품을 사용하는 데 드는 월별 예상 비용을 산출해 보세요.

설명서

기술 자습서, 동영상, 추가 음성 서비스 리소스를 검토하세요.

    • Speech Translation, Speech to Text 및 Custom Speech 모델을 사용하는 Speech to Text: 1초 증분으로 사용 요금이 청구됩니다.
    • 신경망 및 사용자 지정 신경망 음성 음성을 사용한 Text to Speech는 문자당 요금이 청구됩니다. 문자의 정의는 가격 책정 메모에서 확인하세요.
    • Custom Speech 모델 호스팅: 사용량이 시간당으로 요금이 청구됩니다. 사용자 지정 음성 글꼴 호스팅: 사용량이 일 단위로 요금이 청구됩니다.
    • 사용자 지정 명령: Speech to Text, Text to Speech, Language Understanding 사용에 따라 요금 청구를 추적합니다. 사용자 지정 명령에는 새 청구 측정 단위를 사용하지 않습니다.
    • 음성 모델을 학습시키는 데는 별도의 비용이 없습니다. 유일한 비용은 학습시킨 모델을 호스팅하는 비용과 음성 전사의 시간당 비용뿐입니다.
  • 음성 서비스를 통해 사용자는 고유한 어쿠스틱 및 언어 데이터에 따라 기준 모델을 조정하여 음성 텍스트 변환 및 음성 번역 둘 다에 사용할 수 있는 사용자 지정 음성 모델을 만들 수 있습니다.

  • 언어 모델은 단어의 시퀀스에 대한 확률 분포입니다. 언어 모델은 시스템이 단어 시퀀스 자체의 발생 가능성에 따라 비슷하게 들리는 단어의 시퀀스 중에서 결정하는 데 도움을 줍니다. 예를 들어 "recognize speech"와 "wreck a nice beach"는 비슷하게 들리지만 첫 번째 가설이 발생할 확률이 훨씬 더 높으므로 언어 모델에서 더 높은 점수를 할당합니다. 애플리케이션에 대한 음성 쿼리에 특정 어휘 항목(예: 일반적인 말에서 드물게 나타나는 제품 이름 또는 전문 용어)이 포함될 것으로 예상하는 경우 언어 모델을 사용자 지정하여 향상된 성능을 얻을 수 있습니다. 예를 들어 음성으로 MSDN을 검색하는 앱을 빌드하는 경우 "개체 지향"이나 "네임스페이스" 또는 "닷넷"과 같은 용어가 일반적인 음성 애플리케이션에서보다 더 빈번하게 나타날 수 있습니다. 언어 모델을 사용자 지정하면 시스템이 이러한 내용을 학습할 수 있습니다.

  • 어쿠스틱 모델은 각 언어로 된 오디오의 짧은 조각을 여러 음소 또는 소리 단위의 하나로 레이블을 지정하는 분류자입니다. 그런 다음 이러한 음소는 함께 연결되어 단어를 형성할 수 있습니다. 예를 들어 "speech"라는 단어는 4개의 음소 "s p iy ch"로 구성됩니다. 이러한 분류는 대략 초당 100번 만들어집니다. 어쿠스틱 모델을 사용자 지정하면 시스템이 이례적인 환경에서 음성 인식 작업을 더 잘 수행하는 방법을 학습할 수 있습니다. 예를 들어 창고나 공장에서 일하는 작업자가 사용하도록 설계된 앱이 있는 경우 사용자 지정된 어쿠스틱 모델은 이러한 환경에서 발생하는 소음이 존재할 때 음성을 더 정확하게 인식할 수 있습니다.

  • 음성 서비스는 다양한 TTS(텍스트 음성 변환) 음성 글꼴을 제공하지만 사용자 지정 인공신경망 음성을 사용하면 사용자의 요구 사항과 브랜드에 맞는 고유한 사용자 지정 음성을 빌드할 수 있습니다. 자세한 내용은 블로그를 읽어보세요.

  • 스피커 한 대 또는 여러 대가 동일한 오디오 파일이나 라이브 프레젠테이션을 통해 여러 언어를 말할 수 있는 시나리오가 있습니다. 연속 언어 감지를 통해 음성 언어에서 스위치를 식별하고 그에 따라 음성을 정확하게 전사할 수 있습니다. 이 기능은 프라이빗 미리 보기에서 무료로 사용할 수 있으며 음성 SDK를 통해 액세스할 수 있습니다. 자세히 알아보려면 Docs를 방문하세요.

판매 전문가에게 문의하여 Azure 가격을 알아보세요. 클라우드 솔루션의 가격을 파악하세요.

별도 비용이 없는 클라우드 서비스와 $200 크레딧을 사용하여 30일간 Azure를 체험해 보세요.

예상 비용에 추가되었습니다. 계산기에서 보려면 ‘v’를 누르세요.