語音轉換文字、文字轉換語音和語音翻譯的統一語音服務
統一的語音服務可提供範圍廣泛的語音辨識以及產生語音功能,包括語音抄寫、文字轉換語音以及語音翻譯。語音服務可提供範圍廣泛的語音辨識以及產生語音功能,包括語音轉譯、文字轉換語音、語音翻譯及說話者辨識。
探索定價選項
套用篩選以根據您的需求自訂定價選項。
價格僅為估算值,並非實際價格報價。實際定價可能會根據與 Microsoft 簽訂的合約類型、購買日期和目前貨幣匯率而有所不同。價格是根據美元計算,並使用前一個月底最後一個工作天之前兩個工作天內擷取的倫敦即期匯率進行轉換。如果月底的前兩個工作天是主要市場中的銀行假日,則匯率設定日期通常為兩個工作天之前的那一天。此匯率適用於下個月的所有交易。登入 Azure 定價計算機查看依據您目前 Microsoft 方案/供應項目所訂的定價。如需定價的詳細資訊或要求報價,請連絡 Azure 銷售專員。請參閱 Azure 定價常見問題集。
美國政府機構有資格透過授權解決方案提供者購買 Azure Government 服務,無須預先支付費用;亦可直接透過隨用隨付線上訂用帳戶購買。
重要 - 以 R$ 表示的價格僅供參考;這是國際交易,因此最終價格需視匯率與是否內含 IOF 稅而定,而且不會發行 eNF。
美國政府機構有資格透過授權解決方案提供者購買 Azure Government 服務,無須預先支付費用;亦可直接透過隨用隨付線上訂用帳戶購買。
重要 - 以 R$ 表示的價格僅供參考;這是國際交易,因此最終價格需視匯率與是否內含 IOF 稅而定,而且不會發行 eNF。
免費 (F0)
類別 | 功能 | 價格 |
---|---|---|
語音轉換文字 (每秒計費) |
標準 | 每月免費 5 音訊小時3 |
自訂 |
每月免費 5 音訊小時3 端點裝載: 每月免費 1 個模型1 |
|
交談轉譯多聲道音訊 預覽 | 每月免費 5 音訊小時 | |
文字轉換語音 (每個字元計費) |
神經網路 | 每月免費 0.5 million 個字元 |
語音翻譯 (每秒計費) |
標準 | 每月免費 5 音訊小時 |
說話者辨識 (每個交易計費) |
說話者驗證2 | 每月免費 10,000 筆交易 |
說話者識別2 | 每月免費 10,000 筆交易 | |
語音設定檔儲存體 | 每月免費 10,000 筆交易 |
隨用隨付: 用多少付多少。
類別 | 價格 | |
---|---|---|
Voice Live Pro (每 m 權杖計費)VL1 | 文字 |
輸入: $- 已快取的輸入: $- 輸出: $- |
含 Azure AI 語音的音訊 - 標準 |
輸入: $- 已快取的輸入: $- 輸出: $- |
|
含 Azure AI 語音的音訊 - 自訂VL2 |
輸出: $- |
|
具有 GPT-4o-Realtime 的原生音訊 |
輸入: $- 已快取的輸入: $- 輸出: $- |
|
Voice Live Basic (每 m 權杖計費)VL1 | 文字 |
輸入: $- 已快取的輸入: $- 輸出: $- |
含 Azure AI 語音的音訊 - 標準 |
輸入: $- 已快取的輸入: $- 輸出: $- |
|
含 Azure AI 語音的音訊 - 自訂VL2 |
輸出: $- |
|
具有 GPT-4o Mini-Realtime 的原生音訊 |
輸入: $- 已快取的輸入: $- 輸出: $- |
|
Voice Live Life (每 m 權杖計費)VL1 | 文字 |
輸入: $- 已快取的輸入: $- 輸出: $- |
含 Azure AI 語音的音訊 - 標準 |
輸入: $- 已快取的輸入: $- 輸出: $- |
|
含 Azure AI 語音的音訊 - 自訂VL2 |
輸出: $- |
|
Phi-MM 的原生音訊 |
輸入: $- 已快取的輸入: $- |
|
語音轉換文字 (每秒計費) |
標準轉錄 |
即時轉錄: 每小時為 $- 快速轉錄: 每小時為 $-9 批次轉錄: 每小時為 $-1 |
自訂轉錄 |
即時轉錄: 每小時為 $- 批次轉錄: 每小時為 $-1 端點裝載: 每個模型每小時 $- 自訂語音訓練5: 每計算時數 $- 個 |
|
增強的附加元件功能:
|
即時: 每個小時每功能為 $- 批次 (持續語言識別、Diarization):包含在標準/自訂 (不收取額外費用) |
|
交談轉譯多聲道音訊 預覽 | 每小時為 $-2 | |
語音翻譯 (每秒計費) |
即時語音翻譯 | 每音訊小時 $-3 |
Live Interpreter |
Input audio: 每音訊小時 $- Output text: 每 1 百萬個字元 $- 元 Output audio (Standard voice): $- per audio hourLI Output audio (Custom voice): $- per audio hourLI |
|
影片翻譯 |
輸入視訊: 每小時為 $- 輸出視訊 (標準語音): 每小時為 $- 輸出視訊 (個人語音): 每小時為 $- |
|
文字轉換語音8 | 標準語音 |
神經網路 (即時與批次): 每 1 百萬個字元 $- 元 神經網路 HD (即時與批次)4: 每 1 百萬個字元 $- 元 |
自訂語音 |
專業語音:
合成 (即時與批次): 每 1M 字元 $-
合成 (神經網路 HD 即時與批次): 每 1M 字元 $- 語音模型定型: 每計算時數 $- 個,最多 每個訓練 $- 個 端點裝載: 每個模型每小時 $- |
|
個人版語音6:
合成 (即時與批次): 每 1M 字元 $-
語音建立:免費 語音設定檔儲存空間: 每個月每 1,000 個語音設定檔 $- |
||
增強的附加元件功能:虛擬人偶 |
標準:
互動式虛擬人偶 (即時): 每分鐘 $-
互動式 4K 虛擬人偶 (即時): 每分鐘 $- 虛擬人偶影片 (批次): 每分鐘 $- 4K 虛擬人偶視訊 (批次): 每分鐘 $- |
|
自訂:
虛擬人偶模型訓練: 每計算時數 $- 個
互動式虛擬人偶 (即時): 每分鐘 $- 互動式 4K 虛擬人偶 (即時): 每分鐘 $- 虛擬人偶影片 (批次): 每分鐘 $- 4K 虛擬人偶視訊 (批次): 每分鐘 $- 端點裝載: 每個模型每小時 $- |
||
說話者辨識 (每個交易計費) |
說話者驗證7 | 每 1,000 筆交易 $- |
說話者識別7 | 每 1,000 筆交易 $- | |
語音設定檔儲存體 | 每個 1,000 音訊設定檔 $- (每月有 10,000 的音訊設定檔免費) |
定額層 - Azure - 標準
類別 | 功能 | 價格 (每個月) | 超額 |
---|---|---|---|
語音轉換文字 | 標準 | 2,000 小時,價格為 $- 元 | 每小時 $- |
10,000 小時,價格為 $- 元 | 每小時 $- | ||
50,000 小時,價格為 $- 元 | 每小時 $- | ||
自訂 | 2,000 小時,價格為 $- 元 | 每小時 $- | |
10,000 小時,價格為 $- 元 | 每小時 $- | ||
50,000 小時,價格為 $- 元 | 每小時 $- | ||
增強的附加元件功能:2
|
2,000 小時,價格為 $- 元 | 每小時 $- | |
10,000 小時,價格為 $- 元 | 每小時 $- | ||
50,000 小時,價格為 $- 元 | 每小時 $- | ||
文字轉換語音 | 神經網路1 | 80 百萬個字元,價格為 $- 元 | 每 1 百萬個字元,價格為 $- 元 |
400 百萬個字元,價格為 $- 元 | 每 1 百萬個字元,價格為 $- 元 | ||
2,000 百萬個字元,價格為 $- 元 | 每 1 百萬個字元,價格為 $- 元 |
1這包括使用預先建置的非 HD 和非 AOAI 神經語音的即時合成及批次合成。不包含 HD 語音、AOAI 語音、CNV 和個人語音。
2批次語音轉換文字包含的即時語音轉換文字、連續語言識別和 Diarization 附加元件功能。
定額層 – 已連線容器
類別 | 功能 | 價格 (每個月) | 超額 |
---|---|---|---|
語音轉換文字2 | 標準 | 2,000 小時,價格為 $- 元 | 每小時 $- |
10,000 小時,價格為 $- 元 | 每小時 $- | ||
50,000 小時,價格為 $- 元 | 每小時 $- | ||
自訂 | 2,000 小時,價格為 $- 元 | 每小時 $- | |
10,000 小時,價格為 $- 元 | 每小時 $- | ||
50,000 小時,價格為 $- 元 | 每小時 $- | ||
增強的附加元件功能:2
|
2,000 小時,價格為 $- 元 | 每小時 $- | |
10,000 小時,價格為 $- 元 | 每小時 $- | ||
50,000 小時,價格為 $- 元 | 每小時 $- | ||
文字轉換語音 | 神經網路1 | 80 百萬個字元,價格為 $- 元 | 每 1 百萬個字元,價格為 $- 元 |
400 百萬個字元,價格為 $- 元 | 每 1 百萬個字元,價格為 $- 元 | ||
2,000 百萬個字元,價格為 $- 元 | 每 1 百萬個字元,價格為 $- 元 |
1這包括使用預先建置的非 HD 和非 AOAI 神經語音的即時合成。不包含 HD 語音、AOAI 語音及 CNV (專業與個人語音)。不包含批次合成。
2價格適用於即時和批次使用案例。容器沒有個別批次價格。
如需定額層的詳細資訊,請參閱文件。
類別 | 功能 | 價格 (每年) | 使用量上限 (每年) | 預計使用量 (每月) |
---|---|---|---|---|
語音轉換文字2 | 標準 |
$-
$- 註冊以取得存取 深入了解 |
120,000 小時
600,000 小時 |
10,000 小時
50,000 小時 |
自訂 |
$-
$- 註冊以取得存取 深入了解 |
120,000 小時
600,000 小時 |
10,000 小時
50,000 小時 |
|
增強的附加元件功能:
|
$-
$- |
120,000 小時
600,000 小時 |
10,000 小時
50,000 小時 |
|
文字轉換語音 | 神經網路1 |
$-
$- 註冊以取得存取 深入了解 |
48 億個字元
240 億個字元 |
4 億個字元
20 億個字元 |
1這包括使用預先建置的非 HD 和非 AOAI 神經語音的即時合成。不包含 HD 語音、AOAI 語音及 CNV (專業與個人語音)。不包含批次合成。
2價格適用於即時和批次使用案例。容器沒有個別批次價格。
這些功能即將淘汰,且僅供現有客戶使用。查看詳細資料,並了解如何移轉至新功能。
執行個體 | 類別 | 功能 | 價格 |
---|---|---|---|
免費 - Web/容器 1 個並行要求 |
文字轉換語音 | 標準 | 每月免費 5 million 個字元 |
自訂 |
每月免費 5 million 個字元 端點裝載: 每月免費 1 個模型 |
||
標準 - Web/容器 100 個基底模型的並行要求 20 個自訂模型的並行要求 |
文字轉換語音 | 標準 | 每 1 百萬個字元 $- 元 |
自訂 |
每 1 百萬個字元 $- 元 端點裝載: 每個模型每小時 $- |
Azure 定價與購買選項
其他資源
Azure AI 語音
深入了解 Azure AI 語音 的功能。
定價計算機
預估您使用任何 Azure 產品組合的預期每月費用。
文件
檢閱技術教學課程、影片和更多 Azure AI 語音 資源。
常見問題集
-
使用者可運用語音服務,依據其本身的原音與語言資料,採用基準的模型,然後再進入能同時運用在語音轉換文字及語音翻譯的客製化語音模型。
-
語言模型是一系列字的可能性分佈。語言模型可協助系統決定發音類似字的順序,而其取決於字組順序本身的相似程度。例如,“recognize speech” 與 “wreck a nice beach” 發音類似,但前者的假設較為可能發生,因此會依據語言模型指派為較高的分數。若預期您應用程式的語音查詢會包含特定的詞彙項目,像是一般語音中很少出現的產品名稱或行話,很有可能可透過自訂語言模型的方式強化效能。例如,如果將應用程式建置為會利用語音搜尋 MSDN,很有可能會較一般語音應用程式更常出現像是 “object-oriented” 或 “namespace” 或 “dot net” 等字詞。自訂語言模型能讓系統學習此情況。
-
原音模型是會將簡短的音訊片斷標入各語言中數種音素或聲音單位之一的分類器。這些音素如此即可結合在一起形成字。例如,“speech” 這個字即由四個音素 “s p iy ch” 所組成。這些分類以類似每秒 100 倍的方式製作。自訂原音模型可讓系統學習,而更能辨識非典型環境中的語音。例如,如果您的應用程式設計為倉庫或工廠中的工作人員所使用,則自訂的原音模型可於這些環境中出現雜音時,更正確地辨識語音。
-
語音服務提供廣泛的文字轉換語音 (TTS) 語音字型,不過自訂神經語音可讓您建置自己的自訂語音,以符合您的需求和品牌。閱讀部落格文章以了解詳細資訊。
-
Language identification allows you to identify a switch in spoken language and transcribe speech accordingly. This can be applied in scenarios where the audio language is unknown, or when speaker(s) may speak multiple languages. Single Language Identification is available at no additional cost. Continuous Language Identification is an enhanced add-on feature. Visit docs to learn more.
-
- Pronunciation assessment evaluates speech pronunciation and gives speakers feedback on the accuracy and fluency of spoken audio. With pronunciation assessment, language learners can practice, get instant feedback, and improve their pronunciation so that they can speak and present with confidence. Educators can use the capability to evaluate pronunciation of multiple speakers in real time. Visit docs to learn more.
- It is charged as standard Speech to Text, example:
For evaluation of 8 seconds of speech, you will be charged around $-
與銷售專員洽談,取得 Azure 定價的逐步解說。了解您雲端解決方案的定價。
取得免費的雲端服務,以及可於 30 天內用來探索 Azure 的 $200 點數。