탐색 건너뛰기

Cognitive Services 가격 - 음성 서비스

인텔리전스 API를 사용하여 시각, 음성, 언어 및 지식 기능 사용

통합 음성 서비스는 음성 전사, 텍스트 음성 변환, 음성 번역 등 다양한 음성 인식 및 생성 기능을 제공합니다.

가격 정보

인스턴스 동시 요청 기능 가격
무료 1개 동시 요청 음성 번역 월당 5시간 무료 체험
음성 텍스트 변환 월당 5시간 무료 체험
사용자 지정 음성 모델을 사용하는 음성 텍스트 변환 월당 5시간 무료 체험
음성 엔드포인트 호스팅1 매월 1개 모델 무료 체험
표준 음성이 있는 Text to Speech 월당 5,000,000자 무료 체험
사용자 지정 음성 글꼴을 사용하는 텍스트 음성 변환 월당 5,000,000자 무료 체험
신경 음성이 있는 Text to Speech 월별 500,000자 무료
사용자 지정 음성 글꼴 호스팅1 매월 1개 모델 무료 체험
Standard 20개 동시 요청 음성 번역 시간당 $-
음성 텍스트 변환 시간당 $-
사용자 지정 음성 모델을 사용하는 음성 텍스트 변환 시간당 $-
음성 엔드포인트 호스팅 $-/모델/월
표준 음성이 있는 Text to Speech 1M 문자당 $-
사용자 지정 음성 글꼴을 사용하는 텍스트 음성 변환 1M 문자당 $-
신경 음성이 있는 Text to Speech 1M 문자당 $-2
사용자 지정 음성 글꼴 호스팅 $-/모델/월
1사용되지 않은 모델은 7일 후 자동으로 서비스 해제됩니다.
2신경 음성이 있는 Text to Speech의 공개 미리 보기 가격입니다.

지원 및 SLA

  • 무료 청구 및 구독 관리 지원이 포함됩니다.
  • 표준 계층에서 실행되는 Cognitive Services를 99.9% 이상의 시간 동안 이용할 수 있음을 보장합니다. 평가판에는 SLA가 제공되지 않습니다. SLA 읽어 보기

FAQ

음성 서비스

    • 음성 번역, 음성 텍스트 변환 및 사용자 지정 음성 모델을 사용하는 음성 텍스트 변환: 1초 증분으로 사용 요금이 청구됩니다.
    • 텍스트 음성 변환 및 사용자 지정 음성 글꼴을 사용하는 텍스트 음성 변환: 1자당 사용 요금이 청구됩니다.
    • 사용자 지정 음성 모델 호스팅 및 사용자 지정 음성 글꼴 호스팅: 매일 사용 요금이 청구됩니다.
  • 음성 서비스를 통해 사용자는 고유한 어쿠스틱 및 언어 데이터에 따라 기준 모델을 조정하여 음성 텍스트 변환 및 음성 번역 둘 다에 사용할 수 있는 사용자 지정 음성 모델을 만들 수 있습니다.

  • 언어 모델은 단어의 시퀀스에 대한 확률 분포입니다. 언어 모델은 시스템이 단어 시퀀스 자체의 발생 가능성에 따라 비슷하게 들리는 단어의 시퀀스 중에서 결정하는 데 도움을 줍니다. 예를 들어 "recognize speech"와 "wreck a nice beach"는 비슷하게 들리지만 첫 번째 가설이 발생할 확률이 훨씬 더 높으므로 언어 모델에서 더 높은 점수를 할당합니다. 응용 프로그램에 대한 음성 쿼리에 특정 어휘 항목(예: 일반적인 말에서 드물게 나타나는 제품 이름 또는 전문 용어)이 포함될 것으로 예상하는 경우 언어 모델을 사용자 지정하여 향상된 성능을 얻을 수 있습니다. 예를 들어 음성으로 MSDN을 검색하는 앱을 빌드하는 경우 "개체 지향"이나 "네임스페이스" 또는 "닷넷"과 같은 용어가 일반적인 음성 응용 프로그램에서보다 더 빈번하게 나타날 수 있습니다. 언어 모델을 사용자 지정하면 시스템이 이러한 내용을 학습할 수 있습니다.

  • 어쿠스틱 모델은 각 언어로 된 오디오의 짧은 조각을 여러 음소 또는 소리 단위의 하나로 레이블을 지정하는 분류자입니다. 그런 다음 이러한 음소는 함께 연결되어 단어를 형성할 수 있습니다. 예를 들어 "speech"라는 단어는 4개의 음소 "s p iy ch"로 구성됩니다. 이러한 분류는 대략 초당 100번 만들어집니다. 어쿠스틱 모델을 사용자 지정하면 시스템이 이례적인 환경에서 음성 인식 작업을 더 잘 수행하는 방법을 학습할 수 있습니다. 예를 들어 창고나 공장에서 일하는 작업자가 사용하도록 설계된 앱이 있는 경우 사용자 지정된 어쿠스틱 모델은 이러한 환경에서 발생하는 소음이 존재할 때 음성을 더 정확하게 인식할 수 있습니다.

  • Microsoft Speech Services는 텍스트 오디오 변환을 지원하기 위해 40개 이상의 언어로 70개 이상의 기본 음성(음성 글꼴)을 제공합니다. 하지만 가상 도우미와 다양한 음성 지원 응용 프로그램이 증가함에 따라 비즈니스를 나타내고 브랜드 ID에 맞게 신중하게 디자인된 고유한 음성을 보유하려는 회사가 많습니다. 예를 들어 고객 관리 서비스를 위한 챗봇을 개발 중인 경우 고객이 애착을 갖도록 회사의 고유한 브랜드 음성과 연결할 수 있습니다. 마찬가지로, 자동차 내비게이션 소프트웨어 개발자는 풍부한 사용자 경험을 위해 다양한 사용자 지정 음성으로 텍스트 음성 변환을 지원할 수 있습니다.

    사용자 지정 음성 빌드 포털인 Voice Studio를 사용하면 쉽게 이 작업을 수행할 수 있습니다. 관련 스크립트로 녹음한 사람 음성인 고유한 오디오 데이터를 사용하여 사용자 지정 음성 글꼴을 생성하고 Microsoft 텍스트 음성 변환 서비스에 배포한 다음 고유하게 사용하기 위해 API 엔드포인트로 응용 프로그램에 쉽게 연결할 수 있습니다.

일반

  • Bing Search API는 트랜잭션 수(API 호출)를 기반으로 청구됩니다. 이러한 플랜은 종량제이며 복잡한 쿼리 및 10개 이상의 결과(대부분의 경우 최대 50개의 결과)에 대해 추가 비용이 발생하지 않습니다.

  • 언급한 TPS(초당 트랜잭션 수)를 초과하는 경우 언급한 제한 내로 사용량이 제한됩니다. 응용 프로그램에 이 페이지에서 언급한 TPS보다 많은 TPS가 필요한 경우 Azure 지원 팀에 문의하세요.

  • 청구용인 경우, 트랜잭션은 DoS 공격에 대한 경고가 있음에도 불구하고 성공적인 Bing API 호출 요청입니다. Bing Statistics 추가 기능 같은 로그 및 보고용인 경우, 성공 여부와 관계없이 모든 Bing API 호출입니다.

  • 언제든지 서비스 계층을 변경할 수 있습니다. API 호출에서 적합한 키를 사용하는지 확인하세요. Microsoft와 기업계약을 체결한 경우 계정 관리자에게 문의하세요.

리소스

Azure 서비스의 월별 예상 비용 산정

Azure 가격 FAQ(질문과 대답) 검토

Cognitive Services에 대한 자세한 정보

기술 자습서, 비디오 및 기타 리소스 검토

예상 비용에 추가되었습니다. 계산기에서 보려면 ‘v’를 누르세요. 계산기에서 보기

$200 크레딧으로 배우고 빌드하고 무료로 계속 이용할 수 있습니다.