Cognitive Services 가격 - 음성 서비스

인텔리전스 API를 사용하여 시각, 언어 및 검색 기능을 설정하세요.

통합 음성 서비스는 음성 전사, 텍스트 음성 변환, 음성 번역 등 다양한 음성 인식 및 생성 기능을 제공합니다. 음성 서비스는 음성 전사, 텍스트 음성 변환, 음성 번역 및 화자 인식 등 다양한 음성 인식 및 생성 기능을 제공합니다.

가격 정보

인스턴스 범주 기능 가격
무료 - 웹/컨테이너
1개 동시 요청1
음성 텍스트 변환 Standard 매월 5 오디오 시간 무료
맞춤형 서비스 매월 5 오디오 시간 무료
엔드포인트 호스팅: 매월 1개 모델 무료 2
대화 전사 다중 채널 오디오 미리 보기 3 매월 5 오디오 시간 무료
텍스트를 음성으로 전환 (TTS) Standard 매월 5 million자 무료
인공신경망 매월 0.5 million자 무료
맞춤형 서비스 매월 5 million자 무료
엔드포인트 호스팅: 매월 1개 모델 무료
음성 번역 Standard 매월 5 오디오 시간 무료
Speaker Recognition7 화자 검증 월별 10,000개 트랜잭션 무료
화자 식별 월별 10,000개 트랜잭션 무료
Standard - 웹/컨테이너
20개 동시 요청 1
음성 텍스트 변환 Standard 오디오 시간당 $-
맞춤형 서비스 오디오 시간당 $-
엔드포인트 호스팅: $-/모델/시간
대화 전사 다중 채널 오디오 미리 보기 3 오디오 시간당 $- 4
텍스트를 음성으로 전환 (TTS) Standard 1백만 자당 $-
인공신경망 1백만 자당 $- 5
긴 오디오 생성: 1백만 자당 $-
맞춤형 서비스 1백만 자당 $-
엔드포인트 호스팅: $-/모델/시간
사용자 지정 인공신경망 미리 보기 6 음성 빌드: 문의하기
실시간 합성: 1백만 자당 $-
엔드포인트 호스팅: $-/모델/시간
긴 오디오 생성: 1백만 자당 $-
음성 번역 Standard 오디오 시간당 $-
Speaker Recognition7 화자 검증 1,000개 트랜잭션당 $-
화자 식별 1,000개 트랜잭션당 $-

모든 가격 책정 계층의 할당량 및 한도에 대한 자세한 내용은 설명서를 참조하세요.

1동시 요청을 늘리려면 지침을 참조하세요.

2사용되지 않은 모델은 7일 후 자동으로 서비스 해제됩니다.

3대화 전사 다중 채널에는 원형 마이크 배열 디바이스를 사용하는 것이 좋습니다. 자세한 내용은 Microsoft Speech Device SDK를 참조하세요.

4공개 미리 보기 가격이 반영되었습니다. 일반 공급 가격은 나중에 일반 공급 시 발표됩니다.

5인공신경망 Text to Speech를 사용할 수 있는 지역은 인공신경망 설명서를 확인하세요.

6사용자 지정 신경망 음성 기능은 현재 액세스 게이트가 제어되는 미리 보기 상태에 있습니다. 게이팅 프로세스에 대해 자세히 알아보세요.

7현재 미국 서부에서만 Speaker Recognition을 사용할 수 있습니다. Speaker Recognition의 가격을 확인하려면 지역으로 “미국 서부”를 선택하세요.

지원 및 SLA

  • 무료 청구 및 구독 관리 지원이 포함됩니다.
  • 표준 계층에서 실행되는 Cognitive Services를 99.9% 이상의 시간 동안 이용할 수 있음을 보장합니다. 평가판에는 SLA가 제공되지 않습니다. SLA 읽어 보기

FAQ

    • Speech Translation, Speech to Text 및 Custom Speech 모델을 사용하는 Speech to Text: 1초 증분으로 사용 요금이 청구됩니다.
    • Text to Speech 및 Custom Voice 글꼴을 사용하는 Text to Speech: 1자당 사용 요금이 청구됩니다.
    • Custom Speech 모델 호스팅: 사용량이 시간당으로 요금이 청구됩니다. 사용자 지정 음성 글꼴 호스팅: 사용량이 일 단위로 요금이 청구됩니다.
    • 사용자 지정 명령: Speech to Text, Text to Speech, Language Understanding 사용에 따라 요금 청구를 추적합니다. 사용자 지정 명령에는 새 청구 측정 단위를 사용하지 않습니다.
    • 음성 모델을 학습시키는 데는 별도의 비용이 없습니다. 유일한 비용은 학습시킨 모델을 호스팅하는 비용과 음성 전사의 시간당 비용뿐입니다.
  • 음성 서비스를 통해 사용자는 고유한 어쿠스틱 및 언어 데이터에 따라 기준 모델을 조정하여 음성 텍스트 변환 및 음성 번역 둘 다에 사용할 수 있는 사용자 지정 음성 모델을 만들 수 있습니다.

  • 언어 모델은 단어의 시퀀스에 대한 확률 분포입니다. 언어 모델은 시스템이 단어 시퀀스 자체의 발생 가능성에 따라 비슷하게 들리는 단어의 시퀀스 중에서 결정하는 데 도움을 줍니다. 예를 들어 "recognize speech"와 "wreck a nice beach"는 비슷하게 들리지만 첫 번째 가설이 발생할 확률이 훨씬 더 높으므로 언어 모델에서 더 높은 점수를 할당합니다. 애플리케이션에 대한 음성 쿼리에 특정 어휘 항목(예: 일반적인 말에서 드물게 나타나는 제품 이름 또는 전문 용어)이 포함될 것으로 예상하는 경우 언어 모델을 사용자 지정하여 향상된 성능을 얻을 수 있습니다. 예를 들어 음성으로 MSDN을 검색하는 앱을 빌드하는 경우 "개체 지향"이나 "네임스페이스" 또는 "닷넷"과 같은 용어가 일반적인 음성 애플리케이션에서보다 더 빈번하게 나타날 수 있습니다. 언어 모델을 사용자 지정하면 시스템이 이러한 내용을 학습할 수 있습니다.

  • 어쿠스틱 모델은 각 언어로 된 오디오의 짧은 조각을 여러 음소 또는 소리 단위의 하나로 레이블을 지정하는 분류자입니다. 그런 다음 이러한 음소는 함께 연결되어 단어를 형성할 수 있습니다. 예를 들어 "speech"라는 단어는 4개의 음소 "s p iy ch"로 구성됩니다. 이러한 분류는 대략 초당 100번 만들어집니다. 어쿠스틱 모델을 사용자 지정하면 시스템이 이례적인 환경에서 음성 인식 작업을 더 잘 수행하는 방법을 학습할 수 있습니다. 예를 들어 창고나 공장에서 일하는 작업자가 사용하도록 설계된 앱이 있는 경우 사용자 지정된 어쿠스틱 모델은 이러한 환경에서 발생하는 소음이 존재할 때 음성을 더 정확하게 인식할 수 있습니다.

  • Microsoft Speech Services는 텍스트 오디오 변환을 지원하기 위해 40개 이상의 언어로 70개 이상의 기본 음성(음성 글꼴)을 제공합니다. 하지만 가상 도우미와 다양한 음성 지원 애플리케이션이 증가함에 따라 비즈니스를 나타내고 브랜드 ID에 맞게 신중하게 디자인된 고유한 음성을 보유하려는 회사가 많습니다. 예를 들어 고객 관리 서비스를 위한 챗봇을 개발 중인 경우 고객이 애착을 갖도록 회사의 고유한 브랜드 음성과 연결할 수 있습니다. 마찬가지로, 자동차 내비게이션 소프트웨어 개발자는 풍부한 사용자 경험을 위해 다양한 사용자 지정 음성으로 텍스트 음성 변환을 지원할 수 있습니다.

    사용자 지정 음성 빌드 포털인 Voice Studio를 사용하면 쉽게 이 작업을 수행할 수 있습니다. 관련 스크립트로 녹음한 사람 음성인 고유한 오디오 데이터를 사용하여 사용자 지정 음성 글꼴을 생성하고 Microsoft 텍스트 음성 변환 서비스에 배포한 다음 고유하게 사용하기 위해 API 엔드포인트로 애플리케이션에 쉽게 연결할 수 있습니다.

리소스

Azure 서비스의 월별 예상 비용 산정

Azure 가격 FAQ(질문과 대답) 검토

Azure Cognitive Services에 대한 자세한 정보

기술 자습서, 비디오 및 기타 리소스 검토

예상 비용에 추가되었습니다. 계산기에서 보려면 ‘v’를 누르세요.

기본 제공되는 $200 크레딧과 무료 서비스로 교육부터 구축까지