跳至主要內容

Azure AI 語音定價

語音轉換文字、文字轉換語音和語音翻譯的統一語音服務

統一的語音服務可提供範圍廣泛的語音辨識以及產生語音功能,包括語音抄寫、文字轉換語音以及語音翻譯。語音服務可提供範圍廣泛的語音辨識以及產生語音功能,包括語音轉譯、文字轉換語音、語音翻譯及說話者辨識。

探索定價選項

套用篩選以根據您的需求自訂定價選項。

價格僅為估算值,並非實際價格報價。實際定價可能會根據與 Microsoft 簽訂的合約類型、購買日期和目前貨幣匯率而有所不同。價格是根據美元計算,並使用前一個月底最後一個工作天之前兩個工作天內擷取的倫敦即期匯率進行轉換。如果月底的前兩個工作天是主要市場中的銀行假日,則匯率設定日期通常為兩個工作天之前的那一天。此匯率適用於下個月的所有交易。登入 Azure 定價計算機查看依據您目前 Microsoft 方案/供應項目所訂的定價。如需定價的詳細資訊或要求報價,請連絡 Azure 銷售專員。請參閱 Azure 定價常見問題集。

免費 (F0)

類別 功能 價格
語音轉換文字
(每秒計費)
標準 每月免費 5 音訊小時3
自訂 每月免費 5 音訊小時3
端點裝載: 每月免費 1 個模型1
交談轉譯多聲道音訊 預覽 每月免費 5 音訊小時
文字轉換語音
(每個字元計費)
神經網路 每月免費 0.5 million 個字元
語音翻譯
(每秒計費)
標準 每月免費 5 音訊小時
說話者辨識
(每個交易計費)
說話者驗證2 每月免費 10,000 筆交易
說話者識別2 每月免費 10,000 筆交易
語音設定檔儲存體 每月免費 10,000 筆交易

請參閱文件,以取得有關配額、限制和指示的詳細資訊,以了解如何增加同時要求。

1未使用的模型會在 7 天後自動解除。

2說話者辨識是有限的存取功能,需要套用存取

3標準與自訂間共用的語音轉換文字免費音訊時數,不支援批次。

隨用隨付: 用多少付多少。

類別 功能 價格
語音轉換文字
(每秒計費)
即時 Batch
v3.2 API 或更高版本4
標準 每小時為 $- 每小時為 $-
自訂 每小時為 $-
端點裝載: 每個模型每小時 $-
每小時為 $-
端點裝載: 不適用
自訂語音訓練6 每計算時數 $-
增強的附加元件功能:
  • 持續語言識別
  • 自動分段標記
  • 發音評量 (發音、文法、詞彙、主題)
每個小時每功能為 $- 包含持續語言識別和 Diarization5
交談轉譯多聲道音訊 預覽 每小時為 $-1 N/A
文字轉換語音
(每個字元計費)
神經網路 即時與批次合成: 每 1 百萬個字元 $-
類神經 HD 即時與批次合成: 每 100 萬個字元 $-
自訂神經網路2 訓練:每計算時數 $- 個,最多 每個訓練 $-
即時與批次合成: 每 1 百萬個字元 $-
端點裝載: 每個模型每小時 $-
個人版語音8 語音建立: 免費
語音設定檔儲存空間: 每個月每 1,000 個語音設定檔 $-
合成: 每 1 百萬個字元 $-
文字轉換語音虛擬人偶 (每秒計費) 虛擬人偶 即時與批次合成: 每分鐘 $-
自訂虛擬人偶9 即時合成: 每分鐘 $-
批次合成: 每分鐘 $-
端點裝載: 每個模型每小時 $-
語音翻譯
(每秒計費)
標準 每音訊小時 $-7
說話者辨識
(每個交易計費)
說話者驗證3 每 1,000 筆交易 $-
說話者識別3 每 1,000 筆交易 $-
語音設定檔儲存體 每個 1,000 音訊設定檔 $- (每月有 10,000 的音訊設定檔免費)

請參閱文件,以取得有關配額、限制和指示的詳細資訊,以了解如何增加同時要求。

語音轉換文字時數會以傳送至服務的音訊時數計算,以秒數遞增計費。

1 此為公開預覽定價。正式版價格將於稍後正式上市時發佈。

2 自訂神經語音 (CNV) 是具有 Pro 和精簡版本的有限存取功能。透過 CNV 精簡 (公開預覽),客戶可以在申請 Pro 的存取權之前,錄製自己的語音並建立模型以進行示範/評估。查看 CNV 可用

3 說話者辨識是有限的存取功能,需要套用存取

4 若要利用這個新價格,您需要使用新的語音轉換文字 REST API V3.2 預覽版。請參閱建立批次謄寫 - 語音服務 - Azure AI 服務 | Microsoft Learn 以了解如何使用新的 v3.2 預覽 API。

5 增強的附加元件功能包含在所有 Batch API 版本的 Batch 價格中。

6 自訂於 2023 年 10 月 1 日或之後釋放的任何基礎模型時,會套用自訂語音訓練。

7 此價格包括 1 個音訊輸入和輸出、最多 2 個使用標準或自訂語音轉換文字與標準翻譯的文字翻譯語言。如需自訂翻譯或 3 種以上的翻譯語言,請參閱 Azure AI 翻譯工具文字翻譯價格頁面

8 這會反映公開預覽價格。GA 價格將於稍後於 GA 宣佈。「個人版語音」為受限存取功能,僅限特定預先核准的使用案例使用,且需要 申請存取權。若要深入了解服務,請檢查文件

9 自訂虛擬人偶為有限存取功能,需要申請存取權

定額層 - Azure - 標準

類別 功能 價格 (每個月) 超額
語音轉換文字 標準 2,000 小時,價格為 $- 每小時 $-
10,000 小時,價格為 $- 每小時 $-
50,000 小時,價格為 $- 每小時 $-
自訂 2,000 小時,價格為 $- 每小時 $-
10,000 小時,價格為 $- 每小時 $-
50,000 小時,價格為 $- 每小時 $-
增強的附加元件功能:2
  • 持續語言識別
  • 自動分段標記
  • 發音評量 (發音、文法、詞彙、主題)
2,000 小時,價格為 $- 每小時 $-
10,000 小時,價格為 $- 每小時 $-
50,000 小時,價格為 $- 每小時 $-
文字轉換語音 神經網路1 80 百萬個字元,價格為 $- 每 1 百萬個字元,價格為 $-
400 百萬個字元,價格為 $- 每 1 百萬個字元,價格為 $-
2,000 百萬個字元,價格為 $- 每 1 百萬個字元,價格為 $-

1僅限即時合成,這不包括建立長音訊。

2批次語音轉換文字包含的即時語音轉換文字、連續語言識別和 Diarization 附加元件功能。

定額層 – 已連線容器

類別 功能 價格 (每個月) 超額
語音轉換文字2 標準 2,000 小時,價格為 $- 每小時 $-
10,000 小時,價格為 $- 每小時 $-
50,000 小時,價格為 $- 每小時 $-
自訂 2,000 小時,價格為 $- 每小時 $-
10,000 小時,價格為 $- 每小時 $-
50,000 小時,價格為 $- 每小時 $-
增強的附加元件功能:2
  • 語言辨識
  • 自動分段標記
2,000 小時,價格為 $- 每小時 $-
10,000 小時,價格為 $- 每小時 $-
50,000 小時,價格為 $- 每小時 $-
文字轉換語音 神經網路1 80 百萬個字元,價格為 $- 每 1 百萬個字元,價格為 $-
400 百萬個字元,價格為 $- 每 1 百萬個字元,價格為 $-
2,000 百萬個字元,價格為 $- 每 1 百萬個字元,價格為 $-

1僅限即時合成,這不包括建立長音訊。

2價格適用於即時和批次使用案例。容器沒有個別批次價格。

如需定額層的詳細資訊,請參閱文件

定額層 – 已中斷連線的容器

註冊以存取已中斷連線容器中的語音,或深入了解

類別 功能 價格 (每年) 使用量上限 (每年) 預計使用量 (每月)
語音轉換文字2 標準 $-
$-
註冊以取得存取
深入了解
120,000 小時
600,000 小時
10,000 小時
50,000 小時
自訂 $-
$-
註冊以取得存取
深入了解
120,000 小時
600,000 小時
10,000 小時
50,000 小時
增強的附加元件功能:
  • 語言辨識
  • 自動分段標記
$-
$-
120,000 小時
600,000 小時
10,000 小時
50,000 小時
文字轉換語音 神經網路1 $-
$-
註冊以取得存取
深入了解
48 億個字元
240 億個字元
4 億個字元
20 億個字元

1僅限即時合成,這不包括建立長音訊。

2價格適用於即時和批次使用案例。容器沒有個別批次價格。

這些功能即將淘汰,且僅供現有客戶使用。查看詳細資料,並了解如何移轉至新功能

執行個體 類別 功能 價格
免費 - Web/容器
1 個並行要求
文字轉換語音 標準 每月免費 5 million 個字元
自訂 每月免費 5 million 個字元
端點裝載: 每月免費 1 個模型
標準 - Web/容器
100 個基底模型的並行要求
20 個自訂模型的並行要求
文字轉換語音 標準 每 1 百萬個字元 $-
自訂 每 1 百萬個字元 $-
端點裝載: 每個模型每小時 $-

Azure 定價與購買選項

直接與我們連絡

取得 Azure 定價的逐步解說。了解雲端解決方案的定價、了解成本最佳化,並要求自訂提案。

與銷售專員洽談

查看購買方式

透過 Azure 網站、Microsoft 代表或 Azure 合作夥伴購買 Azure 服務。

探索您的選擇

其他資源

Azure AI 語音

深入了解 Azure AI 語音 的功能。

定價計算機

預估您使用任何 Azure 產品組合的預期每月費用。

文件

檢閱技術教學課程、影片和更多 Azure AI 語音 資源。

    • 針對語音轉換文字和語音翻譯,使用量會按每秒遞增方式計費。
    • 文字轉換語音: 使用量是依字元計費。檢查定價筆記中的字元定義。
    • 對於自訂類神經語音裝載: 使用量會以每秒每個端點計費。在價格備註中查看詳細資料。
    • 針對個人語音設定檔儲存空間: 使用量會以每天每個語音設定檔計費。在價格備註中查看詳細資料。
    • 針對文字轉換語音虛擬人偶,使用量是以每秒計費。
    • 對於語音轉換文字和文字轉換語音 (包括虛擬人偶),自訂模型的端點裝載會以每秒每一模型計費。
  • 使用者可運用語音服務,依據其本身的原音與語言資料,採用基準的模型,然後再進入能同時運用在語音轉換文字及語音翻譯的客製化語音模型。

  • 語言模型是一系列字的可能性分佈。語言模型可協助系統決定發音類似字的順序,而其取決於字組順序本身的相似程度。例如,“recognize speech” 與 “wreck a nice beach” 發音類似,但前者的假設較為可能發生,因此會依據語言模型指派為較高的分數。若預期您應用程式的語音查詢會包含特定的詞彙項目,像是一般語音中很少出現的產品名稱或行話,很有可能可透過自訂語言模型的方式強化效能。例如,如果將應用程式建置為會利用語音搜尋 MSDN,很有可能會較一般語音應用程式更常出現像是 “object-oriented” 或 “namespace” 或 “dot net” 等字詞。自訂語言模型能讓系統學習此情況。

  • 原音模型是會將簡短的音訊片斷標入各語言中數種音素或聲音單位之一的分類器。這些音素如此即可結合在一起形成字。例如,“speech” 這個字即由四個音素 “s p iy ch” 所組成。這些分類以類似每秒 100 倍的方式製作。自訂原音模型可讓系統學習,而更能辨識非典型環境中的語音。例如,如果您的應用程式設計為倉庫或工廠中的工作人員所使用,則自訂的原音模型可於這些環境中出現雜音時,更正確地辨識語音。

  • 語音服務提供廣泛的文字轉換語音 (TTS) 語音字型,不過自訂神經語音可讓您建置自己的自訂語音,以符合您的需求和品牌。閱讀部落格文章以了解詳細資訊。

  • 語言識別可讓您識別口語的切換,並據以轉錄語音。這可運用在音訊語言未知,或說話者可能說多種語言的情況下。提供單一語言識別無需額外的費用。連續語言識別則是增強的附加元件功能。瀏覽文件以深入了解。

    • 發音評定會評估語音發音,並針對說出音訊的正確性和流暢性為說話者提供意見反應。有了發音評定,語言學習者可以練習、取得立即的意見反應並改善發音,讓他們可以自信地說話和表達。授課者可以使用此功能即時評估多位說話者的發音。請瀏覽 文件 >以深入了解。
    • 此功能以標準語音轉換文字進行收費,例如:
      如需評估 8 秒的語音,會向您收取大約 $-

與銷售專員洽談,取得 Azure 定價的逐步解說。了解您雲端解決方案的定價。

取得免費的雲端服務,以及可於 30 天內用來探索 Azure 的 $200 點數。

已新增至估算。 按下 'v' 即可在計算機上檢視