語音服務定價

語音轉換文字、文字轉換語音和語音翻譯的統一語音服務

統一的語音服務可提供範圍廣泛的語音辨識以及產生語音功能,包括語音抄寫、文字轉換語音以及語音翻譯。語音服務可提供範圍廣泛的語音辨識以及產生語音功能,包括語音轉譯、文字轉換語音、語音翻譯及說話者辨識。

探索定價選項

套用篩選以根據您的需求自訂定價選項。

執行個體 類別 功能 價格
免費 - Web/容器
1 個並行要求1
語音轉換文字 標準2 每月免費 5 音訊小時
自訂 每月免費 5 音訊小時
端點裝載: 每月免費 1 個模型 3
交談轉譯多聲道音訊 預覽 4 每月免費 5 音訊小時
文字轉換語音 標準 每月免費 5 million 個字元
神經網路 每月免費 0.5 million 個字元
自訂 每月免費 5 million 個字元
端點裝載: 每月免費 1 個模型
語音翻譯 標準 每月免費 5 音訊小時
說話者辨識 8 說話者驗證 每月免費 10,000 筆交易
說話者識別 每月免費 10,000 筆交易
語音儲存體 每月免費 10,000 筆交易
標準 - Web/容器
100 個基底模型的並行要求
20 個自訂模型的並行要求1
語音轉換文字 標準2 每音訊小時 $-
自訂 每音訊小時 $-
端點裝載: 每個模型每月 $-
交談轉譯多聲道音訊 預覽 4 每音訊小時 $- 5
文字轉換語音 標準 每 1 百萬個字元 $-
神經網路 $-/每 1 百萬個 字元 6
長期音訊建立: 每 1 百萬個字元 $-
自訂 每 1 百萬個字元 $-
端點裝載: 每個模型每月 $-
自訂神經網路 7 訓練:每計算時數 $- 個,最多 每個訓練 $-
即時合成: 每 1 百萬個字元 $-
端點裝載: 每個模型每月 $-
長期音訊建立: 每 1 百萬個字元 $-
語音翻譯 標準 每音訊小時 $-
說話者辨識 8 說話者驗證 每 1,000 筆交易 $-
說話者識別 每 1,000 筆交易 $-
語音儲存體 每 1,000 筆交易 $-

如需所有定價層的配額和限制等其他詳細資訊,請參閱文件

1若要增加並行要求,請參閱指示

2Speech to Text will now include pronunciation assessment for both the Free instance (e.g. 5 audio hours free per month) as well as the Standard instance, which will follow Standard pricing of $1 per audio hour.

3未使用的模型會在 7 天後自動解除。

4建議您在使用交談轉譯多聲道時,搭配圓形麥克風陣列裝置。如需詳細資料,請參閱 Microsoft 語音裝置 SDK。

5此為公開預覽定價。正式版價格將於稍後正式上市時發佈。

6請參閱神經網路文件,以取得提供神經網路文字轉換語音的地區。

7自訂神經語音功能是一項有限存取權功能。深入了解有限存取權處理序

8Speaker Recognition is currently only available in West US. Please select "West US" as the Region to see pricing for Speaker Recognition.

Azure 定價與購買選項

直接與我們連絡

取得 Azure 定價的逐步解說。了解雲端解決方案的定價、了解成本最佳化,並要求自訂提案。

與銷售專員洽談

查看購買方式

透過 Azure 網站、Microsoft 代表或 Azure 合作夥伴購買 Azure 服務。

探索您的選擇

其他資源

語音服務 詳細資料

深入了解 語音服務 的功能。

定價計算機

預估您使用任何 Azure 產品組合的預期每月費用。

文件

檢閱技術教學課程、影片和更多 語音服務 資源。

常見問題集

    • 針對語音翻譯、語音轉換文字以及使用自訂語音模型的語音轉換文字:使用量按秒計費。
    • 針對文字轉換語音以及使用自訂聲音音調的文字轉換語音:使用量按字元計費。
    • 針對自訂語音模型代管:使用量按小時計費;針對自訂語音音調代管:使用量按日計費。
    • 針對自訂命令:按語音轉換文字、文字轉換語音及 Language Understanding 的使用量來計費。自訂命令不會推出新的計費計量。
    • 語音模型的訓練不會產生費用。唯一的成本是訓練後的模型裝載費用,以及按小時計費的語音轉譯成本。
  • 使用者可運用語音服務,依據其本身的原音與語言資料,採用基準的模型,然後再進入能同時運用在語音轉換文字及語音翻譯的客製化語音模型。

  • 語言模型是一系列字的可能性分佈。語言模型可協助系統決定發音類似字的順序,而其取決於字組順序本身的相似程度。例如,"recognize speech" 與 "wreck a nice beach" 發音類似,但前者的假設較為可能發生,因此會依據語言模型指派為較高的分數。若預期您應用程式的語音查詢會包含特定的詞彙項目,像是一般語音中很少出現的產品名稱或行話,很有可能可透過自訂語言模型的方式強化效能。例如,如果將應用程式建置為會利用語音搜尋 MSDN,很有可能會較一般語音應用程式更常出現像是 “object-oriented” 或 “namespace” 或 “dot net” 等字詞。自訂語言模型能讓系統學習此情況。

  • 原音模型是會將簡短的音訊片斷標入各語言中數種音素或聲音單位之一的分類器。這些音素如此即可結合在一起形成字。例如,“speech” 這個字即由四個音素 “s p iy ch” 所組成。這些分類以類似每秒 100 倍的方式製作。自訂原音模型可讓系統學習,而更能辨識非典型環境中的語音。例如,如果您的應用程式設計為倉庫或工廠中的工作人員所使用,則自訂的原音模型可於這些環境中出現雜音時,更正確地辨識語音。

  • Speech service offers a wide range of text-to-speech (TTS) voice fonts, however custom neural voice allows you to build your own custom voice that suits your needs and your brand. Read the blog for more information.

  • There are scenarios in which a speaker or multiple speakers may speak multiple languages over the same audio file or live presentation. Continuous language detection allows you to identify a switch in spoken language and accurately transcribe speech accordingly. This feature will be free for private preview and can be accessed via the Speech SDK. Visit docs to learn more.

與銷售專員洽談,取得 Azure 定價的逐步解說。了解您雲端解決方案的定價。

取得免費的雲端服務,以及可於 30 天內用來探索 Azure 的 $200 點數。