음성 텍스트 변환, 텍스트 음성 변환 및 음성 번역을 위한 통합 음성 서비스
통합 음성 서비스는 음성 전사, 텍스트 음성 변환, 음성 번역 등 다양한 음성 인식 및 생성 기능을 제공합니다. 음성 서비스는 음성 전사, 텍스트 음성 변환, 음성 번역 및 화자 인식 등 다양한 음성 인식 및 생성 기능을 제공합니다.
가격 옵션 살펴보기
필터를 적용하여 요구 사항에 맞게 가격 옵션을 사용자 지정하세요.
가격은 예상값일 뿐이며 실제 가격 견적이 아닙니다. 실제 가격 책정은 Microsoft와 체결한 계약 유형, 구매 날짜 및 환율에 따라 다를 수 있습니다. 가격은 미국 달러를 기준으로 계산되며 전월 마지막 영업일 이전 영업일 기준 2일 동안 수집된 런던 종가 현물 환율을 사용하여 변환됩니다. 월말 전 영업일 기준 2일이 주요 시장의 공휴일인 경우에는 통상 영업일 기준 2일의 직전일을 기준금리 설정일로 합니다. 이 비율은 다가오는 달의 모든 거래에 적용됩니다. Azure 가격 책정 계산기에 로그인하여 Microsoft의 현재 프로그램/제안을 기반으로 가격 책정을 확인하세요. 가격 책정에 대한 자세한 내용을 알아보거나 가격 견적을 요청하려면 Azure 영업 전문가에게 문의하세요. Azure 가격 책정에 대한 자주 묻는 질문을 참조하세요.
미국 정부 기관은 Azure Government 서비스를 종량제 온라인 구독을 통해 직접 구입하거나 라이선스 솔루션 공급자를 통해 선불 약정 없이 구입할 수 없습니다.
중요: R$로 표시된 가격은 단순 참조용입니다. 국제 거래이기 때문에 최종 가격은 환율과 IOF 세금 포함 여부에 따라 달라집니다. eNF는 발행되지 않습니다.
미국 정부 기관은 Azure Government 서비스를 종량제 온라인 구독을 통해 직접 구입하거나 라이선스 솔루션 공급자를 통해 선불 약정 없이 구입할 수 없습니다.
중요: R$로 표시된 가격은 단순 참조용입니다. 국제 거래이기 때문에 최종 가격은 환율과 IOF 세금 포함 여부에 따라 달라집니다. eNF는 발행되지 않습니다.
무료(F0)
범주 | 기능 | 가격 |
---|---|---|
Speech to Text (초당 청구) |
표준 | 매월 5 오디오 시간 무료3 |
사용자 지정 |
매월 5 오디오 시간 무료3 엔드포인트 호스팅: 매월 1개 모델 무료1 |
|
대화 기록 다중 채널 오디오 미리 보기 | 매월 5 오디오 시간 무료 | |
TTS (문자당 청구) |
인공신경망 | 매월 0.5 million자 무료 |
Speech Translation (초당 청구) |
표준 | 매월 5 오디오 시간 무료 |
Speaker Recognition (트랜잭션당 청구) |
화자 검증2 | 월별 10,000개 트랜잭션 무료 |
화자 식별2 | 월별 10,000개 트랜잭션 무료 | |
음성 프로필 저장 | 월별 10,000개 트랜잭션 무료 |
종량제: 사용한 만큼만 지불하세요.
범주 | 가격 | |
---|---|---|
Speech to Text (초당 청구) |
표준 |
실시간 대화 내용 기록: 시간당 $- 빠른 대화기록미리 보기: 시간당 $-9 일괄 대화 내용 기록: 시간당 $-1 |
사용자 지정 |
실시간 대화 내용 기록: 시간당 $- 일괄 대화 내용 기록: 시간당 $-1 엔드포인트 호스팅: $-/모델/시간 Custom Speech 학습5: 컴퓨팅 시간당 $-개 |
|
향상된 추가 기능:
|
실시간: 기능당 시간당 $- 일괄 처리(연속 언어 식별, 분리): 표준/사용자 지정에 포함됨(추가 비용 없음) |
|
대화 기록 다중 채널 오디오 미리 보기 | 시간당 $-2 | |
Speech Translation (초당 청구) |
실시간 Speech Translation | 오디오 시간당 $-3 |
비디오 번역미리 보기 |
일괄 처리: 출력 비디오 분당 $- 콘텐츠 편집: 출력 비디오 분당 $- 개인 보이스: 출력 비디오 분당 $- |
|
텍스트 음성 변환8 | 표준 음성 |
인공신경망: 1백만 자당 $- 인공신경망 HD4: 1백만 자당 $- |
Custom Voice |
전문 보이스:
합성: 1백만 자당 $-
음성 모델 학습: 컴퓨팅 시간당 $-개, 최대 학습당 $- 엔드포인트 호스팅: $-/모델/시간 |
|
개인 보이스6:
합성: 1백만 자당 $-
음성 만들기: 무료 음성 프로필 저장소: 매월 음성 프로필 1,000개당 $- |
||
향상된 추가 기능: 아바타 | 표준: 분당 $- | |
사용자 지정:
실시간 합성: 분당 $-
일괄 처리 합성: 분당 $- 엔드포인트 호스팅: 모델당 시간당 $- |
||
Speaker Recognition (트랜잭션당 청구) |
화자 검증7 | 1,000개 트랜잭션당 $- |
화자 식별7 | 1,000개 트랜잭션당 $- | |
음성 프로필 저장 | 음성 프로필 1,000개당 $-(매월 음성 프로필 10,000개 무료) |
약정 계층 – Azure - 표준
범주 | 기능 | 가격(월별) | 초과분 |
---|---|---|---|
음성을 텍스트로 변환 | 표준 | 2,000시간 동안 $- | 시간당 $- |
10,000시간 동안 $- | 시간당 $- | ||
50,000시간 동안 $- | 시간당 $- | ||
사용자 지정 | 2,000시간 동안 $- | 시간당 $- | |
10,000시간 동안 $- | 시간당 $- | ||
50,000시간 동안 $- | 시간당 $- | ||
향상된 추가 기능:2
|
2,000시간 동안 $- | 시간당 $- | |
10,000시간 동안 $- | 시간당 $- | ||
50,000시간 동안 $- | 시간당 $- | ||
텍스트 음성 변환 | 인공신경망1 | 80M 문자에 대해 $- | 1M 문자당 $- |
400M 문자에 대해 $- | 1M 문자당 $- | ||
2,000M 문자에 대해 $- | 1M 문자당 $- |
1실시간 합성만 가능합니다. 긴 오디오 생성은 포함되지 않습니다.
2실시간 음성 텍스트 변환 전용, 연속 언어 식별 및 분리 추가 기능이 일괄 처리 음성 텍스트 변환에 포함되어 있습니다.
약정 계층 – 연결된 컨테이너
범주 | 기능 | 가격(월별) | 초과분 |
---|---|---|---|
음성을 텍스트로 변환2 | 표준 | 2,000시간 동안 $- | 시간당 $- |
10,000시간 동안 $- | 시간당 $- | ||
50,000시간 동안 $- | 시간당 $- | ||
사용자 지정 | 2,000시간 동안 $- | 시간당 $- | |
10,000시간 동안 $- | 시간당 $- | ||
50,000시간 동안 $- | 시간당 $- | ||
향상된 추가 기능:2
|
2,000시간 동안 $- | 시간당 $- | |
10,000시간 동안 $- | 시간당 $- | ||
50,000시간 동안 $- | 시간당 $- | ||
텍스트 음성 변환 | 인공신경망1 | 80M 문자에 대해 $- | 1M 문자당 $- |
400M 문자에 대해 $- | 1M 문자당 $- | ||
2,000M 문자에 대해 $- | 1M 문자당 $- |
1실시간 합성만 가능합니다. 긴 오디오 생성은 포함되지 않습니다.
2가격은 실시간 및 일괄 처리 사용 사례에 적용됩니다. 컨테이너에 대한 별도의 일괄 처리 가격은 없습니다.
약정 등급에 대한 정보는 설명서를 참조하세요.
범주 | 기능 | 가격(연간) | 최대 사용량(연간) | 예상 사용량(월별) |
---|---|---|---|---|
음성을 텍스트로 변환2 | 표준 |
$-
$- 등록하여 액세스 권한 얻기 자세한 내용 |
120,000시간
600,000시간 |
10,000시간
50,000시간 |
사용자 지정 |
$-
$- 등록하여 액세스 권한 얻기 자세한 내용 |
120,000시간
600,000시간 |
10,000시간
50,000시간 |
|
향상된 추가 기능:
|
$-
$- |
120,000시간
600,000시간 |
10,000시간
50,000시간 |
|
텍스트 음성 변환 | 인공신경망1 |
$-
$- 등록하여 액세스 권한 얻기 자세한 내용 |
4.8B 문자
24B 문자 |
400M자
2,000M자 |
1실시간 합성만 가능합니다. 긴 오디오 생성은 포함되지 않습니다.
2가격은 실시간 및 일괄 처리 사용 사례에 적용됩니다. 컨테이너에 대한 별도의 일괄 처리 가격은 없습니다.
이러한 기능은 더 이상 사용되지 않으며 기존 고객이 사용할 수 있습니다. 자세한 내용을 확인하고 새 기능으로 마이그레이션하는 방법을 알아봅니다.
인스턴스 | 범주 | 기능 | 가격 |
---|---|---|---|
무료 - 웹/컨테이너 1개 동시 요청 |
텍스트 음성 변환 | 표준 | 매월 5 million자 무료 |
사용자 지정 |
매월 5 million자 무료 엔드포인트 호스팅: 매월 1개 모델 무료 |
||
표준 - 웹/컨테이너 베이스 모델의 경우 동시 요청 100개 사용자 지정 모델의 경우 동시 요청 20개 |
텍스트 음성 변환 | 표준 | 1백만 자당 $- |
사용자 지정 |
1백만 자당 $- 엔드포인트 호스팅: $-/모델/시간 |
Azure 가격 책정 및 구매 옵션
Microsoft와 직접 연락하기
Azure 가격 책정을 살펴보세요. 클라우드 솔루션의 가격 책정을 이해하고 비용 최적화에 대해 알아보고 사용자 지정 제안을 요청하세요.
판매 전문가에게 문의하기추가 리소스
Azure AI 음성
Azure AI 음성 기능에 대해 자세히 알아보세요.
가격 계산기
요구 사항에 맞는 모든 Azure 제품을 사용하는 데 드는 월별 예상 비용을 산출해 보세요.
설명서
기술 자습서, 동영상, 추가 Azure AI 음성 리소스를 검토하세요.
자주 묻는 질문
-
- Speech to Text 및 Speech Translation의 경우 사용량이 1초 단위로 청구됩니다.
- Text to Speech는 문자당 요금이 청구됩니다. 문자의 정의는 가격 책정 메모에서 확인하세요.
- 사용자 지정 신경망 음성 호스팅의 경우: 사용량은 초당 엔드포인트당 청구됩니다. 가격 정보에서 세부 정보를 확인하세요.
- 개인 보이스 프로필 스토리지의 경우: 사용량은 일별 음성 프로필당 청구됩니다. 가격 정보에서 세부 정보를 확인하세요.
- Text to Speech 아바타의 경우 사용량이 초당 청구됩니다.
- Speech to Text 및 Text to Speech(아바타 포함)의 경우 사용자 지정 모델에 대한 엔드포인트 호스팅은 모델별로 초당 청구됩니다.
-
음성 서비스를 통해 사용자는 고유한 어쿠스틱 및 언어 데이터에 따라 기준 모델을 조정하여 음성 텍스트 변환 및 음성 번역 둘 다에 사용할 수 있는 사용자 지정 음성 모델을 만들 수 있습니다.
-
언어 모델은 단어의 시퀀스에 대한 확률 분포입니다. 언어 모델은 시스템이 단어 시퀀스 자체의 발생 가능성에 따라 비슷하게 들리는 단어의 시퀀스 중에서 결정하는 데 도움을 줍니다. 예를 들어 \"recognize speech\"와 \"wreck a nice beach\"는 비슷하게 들리지만 첫 번째 가설이 발생할 확률이 훨씬 더 높으므로 언어 모델에서 더 높은 점수를 할당합니다. 애플리케이션에 대한 음성 쿼리에 특정 어휘 항목(예: 일반적인 말에서 드물게 나타나는 제품 이름 또는 전문 용어)이 포함될 것으로 예상하는 경우 언어 모델을 사용자 지정하여 향상된 성능을 얻을 수 있습니다. 예를 들어 음성으로 MSDN을 검색하는 앱을 빌드하는 경우 \"개체 지향\"이나 \"네임스페이스\" 또는 \"닷넷\"과 같은 용어가 일반적인 음성 애플리케이션에서보다 더 빈번하게 나타날 수 있습니다. 언어 모델을 사용자 지정하면 시스템이 이러한 내용을 학습할 수 있습니다.
-
어쿠스틱 모델은 각 언어로 된 오디오의 짧은 조각을 여러 음소 또는 소리 단위의 하나로 레이블을 지정하는 분류자입니다. 그런 다음 이러한 음소는 함께 연결되어 단어를 형성할 수 있습니다. 예를 들어 \"speech\"라는 단어는 4개의 음소 \"s p iy ch\"로 구성됩니다. 이러한 분류는 대략 초당 100번 만들어집니다. 어쿠스틱 모델을 사용자 지정하면 시스템이 이례적인 환경에서 음성 인식 작업을 더 잘 수행하는 방법을 학습할 수 있습니다. 예를 들어 창고나 공장에서 일하는 작업자가 사용하도록 설계된 앱이 있는 경우 사용자 지정된 어쿠스틱 모델은 이러한 환경에서 발생하는 소음이 존재할 때 음성을 더 정확하게 인식할 수 있습니다.
-
음성 서비스는 다양한 TTS(텍스트 음성 변환) 음성 글꼴을 제공하지만 사용자 지정 인공신경망 음성을 사용하면 사용자의 요구 사항과 브랜드에 맞는 고유한 사용자 지정 음성을 빌드할 수 있습니다. 자세한 내용은 블로그를 읽어보세요.
-
언어 식별을 사용하면 음성 언어의 전환을 식별하고 그에 따라 음성을 기록할 수 있습니다. 오디오 언어를 알 수 없거나 발표자가 여러 언어를 사용할 수 있는 시나리오에 적용할 수 있습니다. 단일 언어 식별은 추가 비용 없이 사용할 수 있습니다. 지속적인 언어 식별은 향상된 추가 기능입니다. 자세한 내용을 보려면 docs를 방문하세요.
-
- 발음 평가는 음성 발음을 평가하고 음성 오디오의 정확성과 유창성에 대한 피드백을 화자에게 제공합니다. 발음 평가를 통해 언어 학습자는 자신 있게 말하고 발표할 수 있도록 연습하고 즉각적인 피드백을 받고 발음을 향상시킬 수 있습니다. 교육자는 이 기능을 사용하여 여러 화자의 발음을 실시간으로 평가할 수 있습니다. 자세한 내용은 문서를 참조하십시오.
- 표준 음성 텍스트 변환으로 청구됩니다. 예를 들면 다음과 같습니다.
8초 분량의 음성을 평가하면 약 $-이(가) 청구됩니다
판매 전문가에게 문의하여 Azure 가격을 알아보세요. 클라우드 솔루션의 가격을 파악하세요.
별도 비용이 없는 클라우드 서비스와 $200 크레딧을 사용하여 30일간 Azure를 체험해 보세요.