음성 텍스트 변환, 텍스트 음성 변환 및 음성 번역을 위한 통합 음성 서비스
통합 음성 서비스는 음성 전사, 텍스트 음성 변환, 음성 번역 등 다양한 음성 인식 및 생성 기능을 제공합니다. 음성 서비스는 음성 전사, 텍스트 음성 변환, 음성 번역 및 화자 인식 등 다양한 음성 인식 및 생성 기능을 제공합니다.
가격 옵션 살펴보기
필터를 적용하여 요구 사항에 맞게 가격 옵션을 사용자 지정하세요.
가격은 예상값일 뿐이며 실제 가격 견적이 아닙니다. 실제 가격 책정은 Microsoft와 체결한 계약 유형, 구매 날짜 및 환율에 따라 다를 수 있습니다. 가격은 미국 달러를 기준으로 계산되며 전월 마지막 영업일 이전 영업일 기준 2일 동안 수집된 런던 종가 현물 환율을 사용하여 변환됩니다. 월말 전 영업일 기준 2일이 주요 시장의 공휴일인 경우에는 통상 영업일 기준 2일의 직전일을 기준금리 설정일로 합니다. 이 비율은 다가오는 달의 모든 거래에 적용됩니다. Azure 가격 책정 계산기에 로그인하여 Microsoft의 현재 프로그램/제안을 기반으로 가격 책정을 확인하세요. 가격 책정에 대한 자세한 내용을 알아보거나 가격 견적을 요청하려면 Azure 영업 전문가에게 문의하세요. Azure 가격 책정에 대한 자주 묻는 질문을 참조하세요.
미국 정부 기관은 Azure Government 서비스를 종량제 온라인 구독을 통해 직접 구입하거나 라이선스 솔루션 공급자를 통해 선불 약정 없이 구입할 수 없습니다.
중요: R$로 표시된 가격은 단순 참조용입니다. 국제 거래이기 때문에 최종 가격은 환율과 IOF 세금 포함 여부에 따라 달라집니다. eNF는 발행되지 않습니다.
미국 정부 기관은 Azure Government 서비스를 종량제 온라인 구독을 통해 직접 구입하거나 라이선스 솔루션 공급자를 통해 선불 약정 없이 구입할 수 없습니다.
중요: R$로 표시된 가격은 단순 참조용입니다. 국제 거래이기 때문에 최종 가격은 환율과 IOF 세금 포함 여부에 따라 달라집니다. eNF는 발행되지 않습니다.
무료(F0)
| 범주 | 기능 | 가격 |
|---|---|---|
| Speech to Text (초당 청구) |
표준 | 매월 5 오디오 시간 무료3 |
| 사용자 지정 |
매월 5 오디오 시간 무료3 엔드포인트 호스팅: 매월 1개 모델 무료1 |
|
| 대화 기록 다중 채널 오디오 미리 보기 | 매월 5 오디오 시간 무료 | |
| TTS (문자당 청구) |
인공신경망 | 매월 0.5 million자 무료 |
| Speech Translation (초당 청구) |
표준 | 매월 5 오디오 시간 무료 |
| Speaker Recognition (트랜잭션당 청구) |
화자 검증2 | 월별 10,000개 트랜잭션 무료 |
| 화자 식별2 | 월별 10,000개 트랜잭션 무료 | |
| 음성 프로필 저장 | 월별 10,000개 트랜잭션 무료 |
See the documentation for information on quotas, limits and instructions on how to increase concurrent requests.
1사용되지 않은 모델은 7일 후 자동으로 서비스 해제됩니다.
2Speaker Recognition is a limited access feature with a need to apply for access.
3음성 텍스트 변환을 위한 무료 오디오 시간은 표준과 사용자 지정 간에 공유되며 Batch는 지원되지 않습니다.
종량제: 사용한 만큼만 지불하세요.
| 범주 | 가격 | |
|---|---|---|
| Voice Live Pro(토큰 청구당)VL1 | 텍스트 |
입력: $- 캐시된 입력: $- 출력: $- |
| 음성 Azure AI 오디오 - 표준 |
입력: $- 캐시된 입력: $- 출력: $- |
|
| 음성 Azure AI 오디오 - 사용자 지정VL2 |
입력: $- 캐시된 입력: $- 출력: $- |
|
| Native audio with speech-to-speech real-time model |
입력: $- 캐시된 입력: $- 출력: $- |
|
| Voice Live Standard (per m token billing)VL1 | 텍스트 |
입력: $- 캐시된 입력: $- 출력: $- |
| 음성 Azure AI 오디오 - 표준 |
입력: $- 캐시된 입력: $- 출력: $- |
|
| 음성 Azure AI 오디오 - 사용자 지정VL2 |
입력: $- 캐시된 입력: $- 출력: $- |
|
| Native audio with speech-to-speech real-time model |
입력: $- 캐시된 입력: $- 출력: $- |
|
| Voice Live Lite(토큰 청구당)VL1 | 텍스트 |
입력: $- 캐시된 입력: $- 출력: $- |
| 음성 Azure AI 오디오 - 표준 |
입력: $- 캐시된 입력: $- 출력: $- |
|
| 음성 Azure AI 오디오 - 사용자 지정VL2 |
캐시된 입력: $- 출력: $- |
|
| Native audio with speech-to-speech real-time model |
입력: $- 캐시된 입력: $- |
|
| Voice Live BYO (per m token billing)VL1 | Audio with Azure AI Speech - Standard |
입력: $- 출력: $- |
| Audio with Azure AI Speech - CustomVL2 |
입력: $- 출력: $- |
|
| Voice Live Avatar (per minute billing) | Avatar output with Voice Live | Charged through Text to Speech Avatar ‘interactive avatar (real-time)’. See below Text to Speech pricing table for details. |
| Speech to Text (초당 청구) |
표준 전사 |
실시간 대화 내용 기록: 시간당 $- 빠른 대화기록: 시간당 $-9 일괄 대화 내용 기록: 시간당 $-1 |
| 사용자 지정 전사 |
실시간 대화 내용 기록: 시간당 $- 일괄 대화 내용 기록: 시간당 $-1 엔드포인트 호스팅: $-/모델/시간 Custom Speech 학습5: 컴퓨팅 시간당 $-개 |
|
향상된 추가 기능:
|
실시간: 기능당 시간당 $- 일괄 처리(연속 언어 식별, 분리): 표준/사용자 지정에 포함됨(추가 비용 없음) |
|
| 대화 기록 다중 채널 오디오 미리 보기 | 시간당 $-2 | |
| Speech Translation (초당 청구) |
실시간 Speech Translation | 오디오 시간당 $-3 |
| Live Interpreter |
Input audio: 오디오 시간당 $- Output text: 1백만 자당 $- Output audio (Standard voice): $- per audio hourLI Output audio (Custom voice): $- per audio hourLI |
|
| 비디오 번역 |
입력 비디오: 시간당 $- 출력 비디오(표준 음성): 시간당 $- 출력 비디오(개인 음성): 시간당 $- |
|
| 텍스트 음성 변환8 | 표준 음성 |
인공신경망(실시간 및 일괄 처리): 1백만 자당 $- 신경망 HD(실시간 및 일괄 처리)4: 1백만 자당 $- |
| Custom Voice |
전문 보이스:
합성(실시간 및 일괄 처리): 백만 문자당 $-
합성(신경망 HD 실시간 및 일괄 처리): 1M 문자당 $- 음성 모델 학습: 컴퓨팅 시간당 $-개, 최대 학습당 $- 엔드포인트 호스팅: $-/모델/시간 |
|
|
개인 보이스6:
합성(실시간 및 일괄 처리): 백만 문자당 $-
음성 만들기: 무료 음성 프로필 저장소: 매월 음성 프로필 1,000개당 $- |
||
| 향상된 추가 기능: 아바타 |
표준:
대화형 아바타(실시간): 분당 $-
대화형 4K 아바타(실시간): 분당 $- 아바타 비디오(일괄 처리): 분당 $- 4K 아바타 비디오(일괄 처리): 분당 $- |
|
|
사용자 지정:
아바타 모델 학습: 컴퓨팅 시간당 $-개
대화형 아바타(실시간): 분당 $- 대화형 4K 아바타(실시간): 분당 $- 아바타 비디오(일괄 처리): 분당 $- 4K 아바타 비디오(일괄 처리): 분당 $- 엔드포인트 호스팅: 모델당 시간당 $- |
||
| Speaker Recognition (트랜잭션당 청구) |
화자 검증7 | 1,000개 트랜잭션당 $- |
| 화자 식별7 | 1,000개 트랜잭션당 $- | |
| 음성 프로필 저장 | 음성 프로필 1,000개당 $-(매월 음성 프로필 10,000개 무료) | |
See the documentation for information on quotas, limits and instructions on how to increase concurrent requests.
음성 텍스트 변환 시간은 서비스로 전송된 오디오 시간으로 측정되며 초 단위로 청구됩니다.
1To take advantage of this new Batch Transcription pricing you need to use Speech to text REST API V3.2 or later versions. See Speech to text REST API for information.
2이는 공개 미리 보기 가격 책정을 반영합니다.
3This price includes 1 audio input and output, up to 2 text translation language using standard or custom Speech to Text and standard Translation. For custom Translation or 3+ translation languages, please reference the Azure AI Translator Text Translation pricing page.
4Selected text to speech voices are available via two model variants: Neural and NeuralHD. Learn more here.
5Custom Speech 학습은 2023년 10월 1일 또는 그 이후에 릴리스된 베이스 모델을 사용자 지정할 때 적용됩니다.
6Personal Voice is a limited access feature restricted to certain pre-approved use cases only, with a need to applying for access. To learn more about the service, check the document.
7Speaker Recognition is a limited access feature with a need to apply for access.
8Text to Speech: 음성 합성 사용량은 문자당 요금이 청구됩니다. 아바타는 초당 요금이 청구됩니다. 학습 및 모델 호스팅은 초당 요금이 청구됩니다.
9To use Fast Transcription you need to use Speech to text REST API 2024-05-15-preview or later versions. See Speech to text REST API for information.
VL1With Voice Live Pro, developers can choose from larger LLMs such as GPT-Realtime, GPT-4o and GPT-4.1 models. With Voice Live Standard, developers can choose from smaller LLMs such as GPT-4o-Mini-Realtime, GPT-4o Mini and GPT-4.1 Mini models. With Voice Live Lite, developers can choose from SLMs and equivalent models such as GPT-4.1 Nano and Phi models. Models for each tier will be updated or retired as they become available. To learn more how Voice Live API pricing works, click here.
VL2You will be charged separately for custom speech and custom voice model training and hosting. Refer to the ‘Speech to Text – Custom Transcription’ and ‘Text to Speech – Custom Voice – Professional’ pricing for details. Custom voice is a limited access feature. Learn more about how to create custom voices.
LIThis price includes text output
약정 계층 – Azure - 표준
| 범주 | 기능 | 가격(월별) | 초과분 |
|---|---|---|---|
| 음성을 텍스트로 변환 | 표준 | 2,000시간 동안 $- | 시간당 $- |
| 10,000시간 동안 $- | 시간당 $- | ||
| 50,000시간 동안 $- | 시간당 $- | ||
| 사용자 지정 | 2,000시간 동안 $- | 시간당 $- | |
| 10,000시간 동안 $- | 시간당 $- | ||
| 50,000시간 동안 $- | 시간당 $- | ||
향상된 추가 기능:2
|
2,000시간 동안 $- | 시간당 $- | |
| 10,000시간 동안 $- | 시간당 $- | ||
| 50,000시간 동안 $- | 시간당 $- | ||
| 텍스트 음성 변환 | 인공신경망1 | 80M 문자에 대해 $- | 1M 문자당 $- |
| 400M 문자에 대해 $- | 1M 문자당 $- | ||
| 2,000M 문자에 대해 $- | 1M 문자당 $- |
1여기에는 미리 빌드된 비 HD 및 비 AOAI 신경망 음성을 사용하는 실시간 합성과 일괄 처리 합성이 모두 포함됩니다. HD 음성, AOAI 음성, 사용자 지정 신경망 음성 및 개인 음성은 포함되지 않습니다.
2실시간 음성 텍스트 변환 전용, 연속 언어 식별 및 분리 추가 기능이 일괄 처리 음성 텍스트 변환에 포함되어 있습니다.
약정 계층 – 연결된 컨테이너
| 범주 | 기능 | 가격(월별) | 초과분 |
|---|---|---|---|
| 음성을 텍스트로 변환2 | 표준 | 2,000시간 동안 $- | 시간당 $- |
| 10,000시간 동안 $- | 시간당 $- | ||
| 50,000시간 동안 $- | 시간당 $- | ||
| 사용자 지정 | 2,000시간 동안 $- | 시간당 $- | |
| 10,000시간 동안 $- | 시간당 $- | ||
| 50,000시간 동안 $- | 시간당 $- | ||
향상된 추가 기능:2
|
2,000시간 동안 $- | 시간당 $- | |
| 10,000시간 동안 $- | 시간당 $- | ||
| 50,000시간 동안 $- | 시간당 $- | ||
| 텍스트 음성 변환 | 인공신경망1 | 80M 문자에 대해 $- | 1M 문자당 $- |
| 400M 문자에 대해 $- | 1M 문자당 $- | ||
| 2,000M 문자에 대해 $- | 1M 문자당 $- |
1여기에는 미리 빌드된 비 HD 및 비 AOAI 신경망 음성을 사용한 실시간 합성이 포함됩니다. HD 음성, AOAI 음성 및 사용자 지정 음성(전문가 및 개인 음성 모두)은 포함되지 않습니다. 일괄 처리 합성은 포함되지 않습니다.
2가격은 실시간 및 일괄 처리 사용 사례에 적용됩니다. 컨테이너에 대한 별도의 일괄 처리 가격은 없습니다.
See the documentation for information on Commitment tiers.
약정 계층 – 연결이 끊긴 컨테이너
Sign up to access speech in disconnected containers, or learn more
| 범주 | 기능 | 가격(연간) | 최대 사용량(연간) | 예상 사용량(월별) |
|---|---|---|---|---|
| 음성을 텍스트로 변환2 | 표준 |
$-
$- 등록하여 액세스 권한 얻기 자세한 내용 |
120,000시간
600,000시간 |
10,000시간
50,000시간 |
| 사용자 지정 |
$-
$- 등록하여 액세스 권한 얻기 자세한 내용 |
120,000시간
600,000시간 |
10,000시간
50,000시간 |
|
향상된 추가 기능:
|
$-
$- |
120,000시간
600,000시간 |
10,000시간
50,000시간 |
|
| 텍스트 음성 변환 | 인공신경망1 |
$-
$- 등록하여 액세스 권한 얻기 자세한 내용 |
4.8B 문자
24B 문자 |
400M자
2,000M자 |
1여기에는 미리 빌드된 비 HD 및 비 AOAI 신경망 음성을 사용한 실시간 합성이 포함됩니다. HD 음성, AOAI 음성 및 사용자 지정 음성(전문가 및 개인 음성 모두)은 포함되지 않습니다. 일괄 처리 합성은 포함되지 않습니다.
2가격은 실시간 및 일괄 처리 사용 사례에 적용됩니다. 컨테이너에 대한 별도의 일괄 처리 가격은 없습니다.
이러한 기능은 더 이상 사용되지 않으며 기존 고객이 사용할 수 있습니다. 자세한 내용을 확인하고 새 기능으로 마이그레이션하는 방법을 알아봅니다.
| 인스턴스 | 범주 | 기능 | 가격 |
|---|---|---|---|
| 무료 - 웹/컨테이너 1개 동시 요청 |
텍스트 음성 변환 | 표준 | 매월 5 million자 무료 |
| 사용자 지정 |
매월 5 million자 무료 엔드포인트 호스팅: 매월 1개 모델 무료 |
||
| 표준 - 웹/컨테이너 베이스 모델의 경우 동시 요청 100개 사용자 지정 모델의 경우 동시 요청 20개 |
텍스트 음성 변환 | 표준 | 1백만 자당 $- |
| 사용자 지정 |
1백만 자당 $- 엔드포인트 호스팅: $-/모델/시간 |
Azure 가격 책정 및 구매 옵션
Microsoft와 직접 연락하기
Azure 가격 책정을 살펴보세요. 클라우드 솔루션의 가격 책정을 이해하고 비용 최적화에 대해 알아보고 사용자 지정 제안을 요청하세요.
판매 전문가에게 문의하기추가 리소스
Azure AI 음성
Azure AI 음성 기능에 대해 자세히 알아보세요.
가격 계산기
요구 사항에 맞는 모든 Azure 제품을 사용하는 데 드는 월별 예상 비용을 산출해 보세요.
설명서
기술 자습서, 동영상, 추가 Azure AI 음성 리소스를 검토하세요.
자주 묻는 질문
-
- Speech to Text 및 Speech Translation의 경우 사용량이 1초 단위로 청구됩니다.
- For Text to Speech: usage is billed per character. Check the definition of character in the pricing note.
- For custom neural voice hosting: usage is billed per endpoint per second. Check details in the pricing note.
- For personal voice profile storage: usage is billed per voice profile per day. Check details in the pricing note.
- Text to Speech 아바타의 경우 사용량이 초당 청구됩니다.
- Speech to Text 및 Text to Speech(아바타 포함)의 경우 사용자 지정 모델에 대한 엔드포인트 호스팅은 모델별로 초당 청구됩니다.
-
음성 서비스를 통해 사용자는 고유한 어쿠스틱 및 언어 데이터에 따라 기준 모델을 조정하여 음성 텍스트 변환 및 음성 번역 둘 다에 사용할 수 있는 사용자 지정 음성 모델을 만들 수 있습니다.
-
언어 모델은 단어의 시퀀스에 대한 확률 분포입니다. 언어 모델은 시스템이 단어 시퀀스 자체의 발생 가능성에 따라 비슷하게 들리는 단어의 시퀀스 중에서 결정하는 데 도움을 줍니다. 예를 들어 \"recognize speech\"와 \"wreck a nice beach\"는 비슷하게 들리지만 첫 번째 가설이 발생할 확률이 훨씬 더 높으므로 언어 모델에서 더 높은 점수를 할당합니다. 애플리케이션에 대한 음성 쿼리에 특정 어휘 항목(예: 일반적인 말에서 드물게 나타나는 제품 이름 또는 전문 용어)이 포함될 것으로 예상하는 경우 언어 모델을 사용자 지정하여 향상된 성능을 얻을 수 있습니다. 예를 들어 음성으로 MSDN을 검색하는 앱을 빌드하는 경우 \"개체 지향\"이나 \"네임스페이스\" 또는 \"닷넷\"과 같은 용어가 일반적인 음성 애플리케이션에서보다 더 빈번하게 나타날 수 있습니다. 언어 모델을 사용자 지정하면 시스템이 이러한 내용을 학습할 수 있습니다.
-
어쿠스틱 모델은 각 언어로 된 오디오의 짧은 조각을 여러 음소 또는 소리 단위의 하나로 레이블을 지정하는 분류자입니다. 그런 다음 이러한 음소는 함께 연결되어 단어를 형성할 수 있습니다. 예를 들어 \"speech\"라는 단어는 4개의 음소 \"s p iy ch\"로 구성됩니다. 이러한 분류는 대략 초당 100번 만들어집니다. 어쿠스틱 모델을 사용자 지정하면 시스템이 이례적인 환경에서 음성 인식 작업을 더 잘 수행하는 방법을 학습할 수 있습니다. 예를 들어 창고나 공장에서 일하는 작업자가 사용하도록 설계된 앱이 있는 경우 사용자 지정된 어쿠스틱 모델은 이러한 환경에서 발생하는 소음이 존재할 때 음성을 더 정확하게 인식할 수 있습니다.
-
Speech service offers a wide range of text-to-speech (TTS) voice fonts, however custom neural voice allows you to build your own custom voice that suits your needs and your brand. Read the blog for more information.
-
Language identification allows you to identify a switch in spoken language and transcribe speech accordingly. This can be applied in scenarios where the audio language is unknown, or when speaker(s) may speak multiple languages. Single Language Identification is available at no additional cost. Continuous Language Identification is an enhanced add-on feature. Visit docs to learn more.
-
- Pronunciation assessment evaluates speech pronunciation and gives speakers feedback on the accuracy and fluency of spoken audio. With pronunciation assessment, language learners can practice, get instant feedback, and improve their pronunciation so that they can speak and present with confidence. Educators can use the capability to evaluate pronunciation of multiple speakers in real time. Visit docs to learn more.
- It is charged as standard Speech to Text, example:
For evaluation of 8 seconds of speech, you will be charged around $-
판매 전문가에게 문의하여 Azure 가격을 알아보세요. 클라우드 솔루션의 가격을 파악하세요.
별도 비용이 없는 클라우드 서비스와 $200 크레딧을 사용하여 30일간 Azure를 체험해 보세요.