주 콘텐츠로 건너뛰기
Azure

Azure AI 음성 가격

음성 텍스트 변환, 텍스트 음성 변환 및 음성 번역을 위한 통합 음성 서비스

통합 음성 서비스는 음성 전사, 텍스트 음성 변환, 음성 번역 등 다양한 음성 인식 및 생성 기능을 제공합니다. 음성 서비스는 음성 전사, 텍스트 음성 변환, 음성 번역 및 화자 인식 등 다양한 음성 인식 및 생성 기능을 제공합니다.

가격 옵션 살펴보기

필터를 적용하여 요구 사항에 맞게 가격 옵션을 사용자 지정하세요.

가격은 예상값일 뿐이며 실제 가격 견적이 아닙니다. 실제 가격 책정은 Microsoft와 체결한 계약 유형, 구매 날짜 및 환율에 따라 다를 수 있습니다. 가격은 미국 달러를 기준으로 계산되며 전월 마지막 영업일 이전 영업일 기준 2일 동안 수집된 런던 종가 현물 환율을 사용하여 변환됩니다. 월말 전 영업일 기준 2일이 주요 시장의 공휴일인 경우에는 통상 영업일 기준 2일의 직전일을 기준금리 설정일로 합니다. 이 비율은 다가오는 달의 모든 거래에 적용됩니다. Azure 가격 책정 계산기에 로그인하여 Microsoft의 현재 프로그램/제안을 기반으로 가격 책정을 확인하세요. 가격 책정에 대한 자세한 내용을 알아보거나 가격 견적을 요청하려면 Azure 영업 전문가에게 문의하세요. Azure 가격 책정에 대한 자주 묻는 질문을 참조하세요.

무료(F0)

범주 기능 가격
Speech to Text
(초당 청구)
표준 매월 5 오디오 시간 무료3
사용자 지정 매월 5 오디오 시간 무료3
엔드포인트 호스팅: 매월 1개 모델 무료1
대화 기록 다중 채널 오디오 미리 보기 매월 5 오디오 시간 무료
TTS
(문자당 청구)
인공신경망 매월 0.5 million자 무료
Speech Translation
(초당 청구)
표준 매월 5 오디오 시간 무료
Speaker Recognition
(트랜잭션당 청구)
화자 검증2 월별 10,000개 트랜잭션 무료
화자 식별2 월별 10,000개 트랜잭션 무료
음성 프로필 저장 월별 10,000개 트랜잭션 무료

할당량, 한도 및 동시 요청을 늘리는 방법에 대한 지침에 대한 정보는 설명서를 참조하세요.

1사용되지 않은 모델은 7일 후 자동으로 서비스 해제됩니다.

2Speaker Recognition은 액세스를 신청해야 하는 제한된 액세스 기능입니다.

3음성 텍스트 변환을 위한 무료 오디오 시간은 표준과 사용자 지정 간에 공유되며 Batch는 지원되지 않습니다.

종량제: 사용한 만큼만 지불하세요.

범주 가격
Speech to Text
(초당 청구)
표준 실시간 대화 내용 기록: 시간당 $-
빠른 대화기록미리 보기: 시간당 $-9
일괄 대화 내용 기록: 시간당 $-1
사용자 지정 실시간 대화 내용 기록: 시간당 $-
일괄 대화 내용 기록: 시간당 $-1
엔드포인트 호스팅: $-/모델/시간
Custom Speech 학습5: 컴퓨팅 시간당 $-
향상된 추가 기능:
  • 지속적인 언어 식별
  • 분할
  • 발음 평가(발음, 문법, 어휘, 항목)
실시간: 기능당 시간당 $-
일괄 처리(연속 언어 식별, 분리): 표준/사용자 지정에 포함됨(추가 비용 없음)
대화 기록 다중 채널 오디오 미리 보기 시간당 $-2
Speech Translation
(초당 청구)
실시간 Speech Translation 오디오 시간당 $-3
비디오 번역미리 보기 일괄 처리: 출력 비디오 분당 $-
콘텐츠 편집: 출력 비디오 분당 $-
개인 보이스: 출력 비디오 분당 $-
텍스트 음성 변환8 표준 음성 인공신경망: 1백만 자당 $-
인공신경망 HD4: 1백만 자당 $-
Custom Voice 전문 보이스:
합성: 1백만 자당 $-
음성 모델 학습: 컴퓨팅 시간당 $-개, 최대 학습당 $-
엔드포인트 호스팅: $-/모델/시간
개인 보이스6:
합성: 1백만 자당 $-
음성 만들기: 무료
음성 프로필 저장소: 매월 음성 프로필 1,000개당 $-
향상된 추가 기능: 아바타 표준: 분당 $-
사용자 지정:
실시간 합성: 분당 $-
일괄 처리 합성: 분당 $-
엔드포인트 호스팅: 모델당 시간당 $-
Speaker Recognition
(트랜잭션당 청구)
화자 검증7 1,000개 트랜잭션당 $-
화자 식별7 1,000개 트랜잭션당 $-
음성 프로필 저장 음성 프로필 1,000개당 $-(매월 음성 프로필 10,000개 무료)

할당량, 한도 및 동시 요청을 늘리는 방법에 대한 지침에 대한 정보는 설명서를 참조하세요.

음성 텍스트 변환 시간은 서비스로 전송된 오디오 시간으로 측정되며 초 단위로 청구됩니다.

1이 새 일괄 처리 대화 내용 기록 가격을 활용하려면 Speech to Text REST API V3.2 이상을 사용해야 합니다. 자세한 내용은 Speech to Text REST API를 참조하세요.

2이는 공개 미리 보기 가격 책정을 반영합니다.

3이 가격에는 오디오 입력 및 출력 1개, 표준 또는 사용자 지정 음성 텍스트 변환 및 표준 번역을 사용하는 최대 2개의 텍스트 번역 언어가 포함됩니다. 사용자 지정 번역 또는 3개 이상의 번역 언어의 경우 Azure AI Translator Text 번역 가격 책정 페이지를 참조하세요.

4OpenAI 텍스트 음성 변환 음성은 인공신경망 및 신경망 HD의 두 모델 변형을 통해 사용할 수 있습니다. 여기에서 자세히 알아보세요.

5Custom Speech 학습은 2023년 10월 1일 또는 그 이후에 릴리스된 베이스 모델을 사용자 지정할 때 적용됩니다.

6개인 보이스는 사전 승인된 사용 사례로만 제한된 액세스 기능으로 액세스를 신청해야 합니다. 서비스에 대해 자세히 알아보려면 문서를 확인하세요.

7Speaker Recognition은 액세스를 신청해야 하는 제한된 액세스 기능입니다.

8Text to Speech: 음성 합성 사용량은 문자당 요금이 청구됩니다. 아바타는 초당 요금이 청구됩니다. 학습 및 모델 호스팅은 초당 요금이 청구됩니다.

9빠른 대화기록을 사용하려면 Speech to Text REST API 2024-05-15-preview 이상 버전을 사용해야 합니다. 자세한 내용은 Speech to Text REST API를 참조하세요.

약정 계층 – Azure - 표준

범주 기능 가격(월별) 초과분
음성을 텍스트로 변환 표준 2,000시간 동안 $- 시간당 $-
10,000시간 동안 $- 시간당 $-
50,000시간 동안 $- 시간당 $-
사용자 지정 2,000시간 동안 $- 시간당 $-
10,000시간 동안 $- 시간당 $-
50,000시간 동안 $- 시간당 $-
향상된 추가 기능:2
  • 지속적인 언어 식별
  • 분할
  • 발음 평가(발음, 문법, 어휘, 항목)
2,000시간 동안 $- 시간당 $-
10,000시간 동안 $- 시간당 $-
50,000시간 동안 $- 시간당 $-
텍스트 음성 변환 인공신경망1 80M 문자에 대해 $- 1M 문자당 $-
400M 문자에 대해 $- 1M 문자당 $-
2,000M 문자에 대해 $- 1M 문자당 $-

1실시간 합성만 가능합니다. 긴 오디오 생성은 포함되지 않습니다.

2실시간 음성 텍스트 변환 전용, 연속 언어 식별 및 분리 추가 기능이 일괄 처리 음성 텍스트 변환에 포함되어 있습니다.

약정 계층 – 연결된 컨테이너

범주 기능 가격(월별) 초과분
음성을 텍스트로 변환2 표준 2,000시간 동안 $- 시간당 $-
10,000시간 동안 $- 시간당 $-
50,000시간 동안 $- 시간당 $-
사용자 지정 2,000시간 동안 $- 시간당 $-
10,000시간 동안 $- 시간당 $-
50,000시간 동안 $- 시간당 $-
향상된 추가 기능:2
  • 언어 식별
  • 분할
2,000시간 동안 $- 시간당 $-
10,000시간 동안 $- 시간당 $-
50,000시간 동안 $- 시간당 $-
텍스트 음성 변환 인공신경망1 80M 문자에 대해 $- 1M 문자당 $-
400M 문자에 대해 $- 1M 문자당 $-
2,000M 문자에 대해 $- 1M 문자당 $-

1실시간 합성만 가능합니다. 긴 오디오 생성은 포함되지 않습니다.

2가격은 실시간 및 일괄 처리 사용 사례에 적용됩니다. 컨테이너에 대한 별도의 일괄 처리 가격은 없습니다.

약정 등급에 대한 정보는 설명서를 참조하세요.

약정 계층 – 연결이 끊긴 컨테이너

연결이 끊긴 컨테이너에서 음성에 액세스하거나 자세히 알아보려면 등록하세요.

범주 기능 가격(연간) 최대 사용량(연간) 예상 사용량(월별)
음성을 텍스트로 변환2 표준 $-
$-
등록하여 액세스 권한 얻기
자세한 내용
120,000시간
600,000시간
10,000시간
50,000시간
사용자 지정 $-
$-
등록하여 액세스 권한 얻기
자세한 내용
120,000시간
600,000시간
10,000시간
50,000시간
향상된 추가 기능:
  • 언어 식별
  • 분할
$-
$-
120,000시간
600,000시간
10,000시간
50,000시간
텍스트 음성 변환 인공신경망1 $-
$-
등록하여 액세스 권한 얻기
자세한 내용
4.8B 문자
24B 문자
400M자
2,000M자

1실시간 합성만 가능합니다. 긴 오디오 생성은 포함되지 않습니다.

2가격은 실시간 및 일괄 처리 사용 사례에 적용됩니다. 컨테이너에 대한 별도의 일괄 처리 가격은 없습니다.

이러한 기능은 더 이상 사용되지 않으며 기존 고객이 사용할 수 있습니다. 자세한 내용을 확인하고 새 기능으로 마이그레이션하는 방법을 알아봅니다.

인스턴스 범주 기능 가격
무료 - 웹/컨테이너
1개 동시 요청
텍스트 음성 변환 표준 매월 5 million자 무료
사용자 지정 매월 5 million자 무료
엔드포인트 호스팅: 매월 1개 모델 무료
표준 - 웹/컨테이너
베이스 모델의 경우 동시 요청 100개
사용자 지정 모델의 경우 동시 요청 20개
텍스트 음성 변환 표준 1백만 자당 $-
사용자 지정 1백만 자당 $-
엔드포인트 호스팅: $-/모델/시간

Azure 가격 책정 및 구매 옵션

Microsoft와 직접 연락하기

Azure 가격 책정을 살펴보세요. 클라우드 솔루션의 가격 책정을 이해하고 비용 최적화에 대해 알아보고 사용자 지정 제안을 요청하세요.

판매 전문가에게 문의하기

구매 방법 확인

Azure 웹 사이트, Microsoft 담당자 또는 Azure 파트너를 통해 Azure 서비스를 구매하세요.

옵션 살펴보기

추가 리소스

Azure AI 음성

Azure AI 음성 기능에 대해 자세히 알아보세요.

가격 계산기

요구 사항에 맞는 모든 Azure 제품을 사용하는 데 드는 월별 예상 비용을 산출해 보세요.

설명서

기술 자습서, 동영상, 추가 Azure AI 음성 리소스를 검토하세요.

    • Speech to Text 및 Speech Translation의 경우 사용량이 1초 단위로 청구됩니다.
    • Text to Speech는 문자당 요금이 청구됩니다. 문자의 정의는 가격 책정 메모에서 확인하세요.
    • 사용자 지정 신경망 음성 호스팅의 경우: 사용량은 초당 엔드포인트당 청구됩니다. 가격 정보에서 세부 정보를 확인하세요.
    • 개인 보이스 프로필 스토리지의 경우: 사용량은 일별 음성 프로필당 청구됩니다. 가격 정보에서 세부 정보를 확인하세요.
    • Text to Speech 아바타의 경우 사용량이 초당 청구됩니다.
    • Speech to Text 및 Text to Speech(아바타 포함)의 경우 사용자 지정 모델에 대한 엔드포인트 호스팅은 모델별로 초당 청구됩니다.
  • 음성 서비스를 통해 사용자는 고유한 어쿠스틱 및 언어 데이터에 따라 기준 모델을 조정하여 음성 텍스트 변환 및 음성 번역 둘 다에 사용할 수 있는 사용자 지정 음성 모델을 만들 수 있습니다.

  • 언어 모델은 단어의 시퀀스에 대한 확률 분포입니다. 언어 모델은 시스템이 단어 시퀀스 자체의 발생 가능성에 따라 비슷하게 들리는 단어의 시퀀스 중에서 결정하는 데 도움을 줍니다. 예를 들어 \"recognize speech\"와 \"wreck a nice beach\"는 비슷하게 들리지만 첫 번째 가설이 발생할 확률이 훨씬 더 높으므로 언어 모델에서 더 높은 점수를 할당합니다. 애플리케이션에 대한 음성 쿼리에 특정 어휘 항목(예: 일반적인 말에서 드물게 나타나는 제품 이름 또는 전문 용어)이 포함될 것으로 예상하는 경우 언어 모델을 사용자 지정하여 향상된 성능을 얻을 수 있습니다. 예를 들어 음성으로 MSDN을 검색하는 앱을 빌드하는 경우 \"개체 지향\"이나 \"네임스페이스\" 또는 \"닷넷\"과 같은 용어가 일반적인 음성 애플리케이션에서보다 더 빈번하게 나타날 수 있습니다. 언어 모델을 사용자 지정하면 시스템이 이러한 내용을 학습할 수 있습니다.

  • 어쿠스틱 모델은 각 언어로 된 오디오의 짧은 조각을 여러 음소 또는 소리 단위의 하나로 레이블을 지정하는 분류자입니다. 그런 다음 이러한 음소는 함께 연결되어 단어를 형성할 수 있습니다. 예를 들어 \"speech\"라는 단어는 4개의 음소 \"s p iy ch\"로 구성됩니다. 이러한 분류는 대략 초당 100번 만들어집니다. 어쿠스틱 모델을 사용자 지정하면 시스템이 이례적인 환경에서 음성 인식 작업을 더 잘 수행하는 방법을 학습할 수 있습니다. 예를 들어 창고나 공장에서 일하는 작업자가 사용하도록 설계된 앱이 있는 경우 사용자 지정된 어쿠스틱 모델은 이러한 환경에서 발생하는 소음이 존재할 때 음성을 더 정확하게 인식할 수 있습니다.

  • 음성 서비스는 다양한 TTS(텍스트 음성 변환) 음성 글꼴을 제공하지만 사용자 지정 인공신경망 음성을 사용하면 사용자의 요구 사항과 브랜드에 맞는 고유한 사용자 지정 음성을 빌드할 수 있습니다. 자세한 내용은 블로그를 읽어보세요.

  • 언어 식별을 사용하면 음성 언어의 전환을 식별하고 그에 따라 음성을 기록할 수 있습니다. 오디오 언어를 알 수 없거나 발표자가 여러 언어를 사용할 수 있는 시나리오에 적용할 수 있습니다. 단일 언어 식별은 추가 비용 없이 사용할 수 있습니다. 지속적인 언어 식별은 향상된 추가 기능입니다. 자세한 내용을 보려면 docs를 방문하세요.

    • 발음 평가는 음성 발음을 평가하고 음성 오디오의 정확성과 유창성에 대한 피드백을 화자에게 제공합니다. 발음 평가를 통해 언어 학습자는 자신 있게 말하고 발표할 수 있도록 연습하고 즉각적인 피드백을 받고 발음을 향상시킬 수 있습니다. 교육자는 이 기능을 사용하여 여러 화자의 발음을 실시간으로 평가할 수 있습니다. 자세한 내용은 문서를 참조하십시오.
    • 표준 음성 텍스트 변환으로 청구됩니다. 예를 들면 다음과 같습니다.
      8초 분량의 음성을 평가하면 약 $-이(가) 청구됩니다

판매 전문가에게 문의하여 Azure 가격을 알아보세요. 클라우드 솔루션의 가격을 파악하세요.

별도 비용이 없는 클라우드 서비스와 $200 크레딧을 사용하여 30일간 Azure를 체험해 보세요.

예상 비용에 추가되었습니다. 계산기에서 보려면 ‘v’를 누르세요.
무엇을 도와 드릴까요?