音声テキスト変換、テキスト読み上げ、音声翻訳のための統合音声サービス
一元化された Speech Services は、音声の文字起こし、テキスト読み上げ、音声翻訳、話者認識など、音声認識と生成の機能を幅広く提供しています。
価格オプションの詳細
フィルターを適用して、価格オプションをお客様のニーズに合わせてカスタマイズします。
価格は見積もりのみで、実際の価格見積もりとして意図されていません。実際の価格は、Microsoft との契約の種類、購入日、為替レートによって異なる場合があります。価格は米ドルに基づいて計算され、前月の最後の営業日前の 2 営業日に捕捉されたロンドン市場の引け値レートを使用して変換されます。月末までの 2 営業日が主要市場の銀行休日に該当する場合、通常、レート設定日は 2 営業日の直前の日です。このレートは、今後 1 か月間のすべてのトランザクションに適用されます。Azure 料金計算ツールにサインインして、Microsoft の現在のプログラムまたはオファーに基づく価格を確認します。価格の詳細については、Azure 営業担当者にお問い合わせいただくか、価格見積もりを要求してください。Azure の価格についてはよく寄せられる質問を参照してください。
米国政府機関は、ライセンス ソリューション プロバイダーから、Azure Government サービスを購入できます。その際、事前の料金契約なしで、または従量課金制のオンライン サブスクリプションで直接ご購入いただけます。
重要 - R$ で示されている料金は参照用のみです。これは国際取引のため、最終料金は為替レートと IOF 税により変更される場合があります。eNF は発行されません。
米国政府機関は、ライセンス ソリューション プロバイダーから、Azure Government サービスを購入できます。その際、事前の料金契約なしで、または従量課金制のオンライン サブスクリプションで直接ご購入いただけます。
重要 - R$ で示されている料金は参照用のみです。これは国際取引のため、最終料金は為替レートと IOF 税により変更される場合があります。eNF は発行されません。
Free (F0)
カテゴリ | 機能 | 料金 |
---|---|---|
Speech to Text (1 秒あたりの請求) |
標準 | 1 か月あたり 5 音声時間は無料3 |
カスタム |
1 か月あたり 5 音声時間は無料3 エンドポイント ホスティング: 1 か月あたり 1 モデルまで無料1 |
|
会話の文字起こしのマルチチャネル オーディオ プレビュー | 1 か月あたり 5 音声時間は無料 | |
Text to Speech (文字ごとの請求) |
ニューラル | 1 か月あたり 0.5 million 文字まで無料 |
Speech Translation (1 秒あたりの請求) |
標準 | 1 か月あたり 5 音声時間は無料 |
Speaker Recognition (トランザクションごとの請求) |
話者認証2 | 10,000 無料トランザクション / 月 |
話者識別2 | 10,000 無料トランザクション / 月 | |
音声プロファイル ストレージ | 10,000 無料トランザクション / 月 |
従量課金制: 使用した分だけお支払いください。
カテゴリ | 料金 | |
---|---|---|
Voice Live Pro (m 単位のトークン請求)VL1 | テキスト |
入力: $- キャッシュされた入力: $- 出力: $- |
Azure AI 音声を使用したオーディオ - Standard |
入力: $- キャッシュされた入力: $- 出力: $- |
|
Azure AI 音声を使用したオーディオ - カスタムVL2 |
出力: $- |
|
GPT-4o-Realtime を使用したネイティブ オーディオ |
入力: $- キャッシュされた入力: $- 出力: $- |
|
Voice Live Basic (m 単位のトークン課金)VL1 | テキスト |
入力: $- キャッシュされた入力: $- 出力: $- |
Azure AI 音声を使用したオーディオ - Standard |
入力: $- キャッシュされた入力: $- 出力: $- |
|
Azure AI 音声を使用したオーディオ - カスタムVL2 |
出力: $- |
|
GPT-4o Mini-Realtime を使用したネイティブ オーディオ |
入力: $- キャッシュされた入力: $- 出力: $- |
|
Voice Live Lite (m 単位のトークン課金)VL1 | テキスト |
入力: $- キャッシュされた入力: $- 出力: $- |
Azure AI 音声を使用したオーディオ - Standard |
入力: $- キャッシュされた入力: $- 出力: $- |
|
Azure AI 音声を使用したオーディオ - カスタムVL2 |
出力: $- |
|
Phi-MM を使用したネイティブ オーディオ |
入力: $- キャッシュされた入力: $- |
|
Speech to Text (1 秒あたりの請求) |
標準文字起こし |
リアルタイム トランスクリプション: 1 時間あたりの $- ファスト トランスクリプション: 1 時間あたりの $-9 バッチ トランスクリプション: 1 時間あたりの $-1 |
カスタム文字起こし |
リアルタイム トランスクリプション: 1 時間あたりの $- バッチ トランスクリプション: 1 時間あたりの $-1 エンドポイント ホスティング: 1 モデル、1 時間あたり $- Custom Speech トレーニング5: コンピューティング時間あたり $- |
|
強化されたアドオン機能:
|
リアルタイム: 機能ごと時間あたりの $- バッチ (継続的n言語識別、ダイアライゼーション): 標準/カスタムに含まれる (追加料金なし) |
|
会話の文字起こしのマルチチャネル オーディオ プレビュー | 1 時間あたりの $-2 | |
Speech Translation (1 秒あたりの請求) |
リアルタイム音声翻訳 | 音声時間あたり $-3 |
Live Interpreter |
Input audio: 音声時間あたり $- Output text: 1,000,000 文字あたり $- Output audio (Standard voice): $- per audio hourLI Output audio (Custom voice): $- per audio hourLI |
|
ビデオ翻訳 |
入力ビデオ: 1 時間あたりの $- 出力ビデオ (標準音声): 1 時間あたりの $- 出力ビデオ (個人音声): 1 時間あたりの $- |
|
テキスト読み上げ8 | 標準音声 |
ニューラル (リアルタイムとバッチ): 1,000,000 文字あたり $- ニューラル HD (リアルタイムとバッチ)4: 1,000,000 文字あたり $- |
Custom Voice |
プロフェッショナル音声:
合成 (リアルタイムおよびバッチ): 100 万文字あたり $-
合成 (ニューラル HD リアルタイムおよびバッチ): 100 万文字あたり $- 音声モデル トレーニング: コンピューティング時間あたり $-、最大 トレーニングあたり $- エンドポイント ホスティング: 1 モデル、1 時間あたり $- |
|
パーソナル音声6:
合成 (リアルタイムおよびバッチ): 100 万文字あたり $-
音声の作成: 無料 音声プロファイル ストレージ: 1,000 音声プロファイルあたり月額 $- |
||
強化されたアドオン機能: アバター |
標準:
対話型アバター (リアルタイム): 1 分あたり $-
対話型 4K アバター (リアルタイム): 1 分あたり $- アバター ビデオ (バッチ): 1 分あたり $- 4K アバター ビデオ (バッチ): 1 分あたり $- |
|
カスタム:
アバター モデルのトレーニング: コンピューティング時間あたり $-
対話型アバター (リアルタイム): 1 分あたり $- 対話型 4K アバター (リアルタイム): 1 分あたり $- アバター ビデオ (バッチ): 1 分あたり $- 4K アバター ビデオ (バッチ): 1 分あたり $- エンドポイント ホスティング: 1 時間あたり、モデルあたり $- |
||
Speaker Recognition (トランザクションごとの請求) |
話者認証7 | $-/1,000 トランザクション |
話者識別7 | $-/1,000 トランザクション | |
音声プロファイル ストレージ | 1,000 音声プロファイルあたり $- (1 か月あたり 10,000 の無料の音声プロファイル) |
コミットメント レベル – Azure - Standard
カテゴリ | 機能 | 月額 | 超過分 |
---|---|---|---|
音声テキスト変換 | 標準 | 2,000 時間で $- | $- / 時間 |
10,000 時間で $- | $- / 時間 | ||
50,000 時間で $- | $- / 時間 | ||
カスタム | 2,000 時間で $- | $- / 時間 | |
10,000 時間で $- | $- / 時間 | ||
50,000 時間で $- | $- / 時間 | ||
強化されたアドオン機能:2
|
2,000 時間で $- | $- / 時間 | |
10,000 時間で $- | $- / 時間 | ||
50,000 時間で $- | $- / 時間 | ||
テキスト読み上げ | ニューラル1 | 8000 万文字で $- | 100 万文字あたり $- |
40000 万文字で $- | 100 万文字あたり $- | ||
2,00000 万文字で $- | 100 万文字あたり $- |
1これには、事前構築済みの非 HD および非 AOAI ニューラル音声を使用したリアルタイム合成とバッチ合成の両方が含まれます。HD 音声、AOAI 音声、カスタム ニューラル音声、パーソナル音声は含まれていません。
2リアルタイム音声テキスト変換のみ、バッチ音声テキスト変換に含まれる継続的言語識別およびダイアライゼーション アドオン機能。
コミットメントレベル – 接続されたコンテナー
カテゴリ | 機能 | 月額 | 超過分 |
---|---|---|---|
音声テキスト変換2 | 標準 | 2,000 時間で $- | $- / 時間 |
10,000 時間で $- | $- / 時間 | ||
50,000 時間で $- | $- / 時間 | ||
カスタム | 2,000 時間で $- | $- / 時間 | |
10,000 時間で $- | $- / 時間 | ||
50,000 時間で $- | $- / 時間 | ||
強化されたアドオン機能:2
|
2,000 時間で $- | $- / 時間 | |
10,000 時間で $- | $- / 時間 | ||
50,000 時間で $- | $- / 時間 | ||
テキスト読み上げ | ニューラル1 | 8000 万文字で $- | 100 万文字あたり $- |
40000 万文字で $- | 100 万文字あたり $- | ||
2,00000 万文字で $- | 100 万文字あたり $- |
1これには、事前構築済みの非 HD および非 AOAI ニューラル音声を使用したリアルタイム合成が含まれます。HD 音声、AOAI 音声、カスタム音声 (プロフェッショナルボイスとパーソナル音声の両方) は含まれません。バッチ合成は含まれていません。
2価格は、リアルタイムとバッチのユース ケースに適用されます。コンテナーには個別のバッチ価格はありません。
コミットメント レベルの詳細については、ドキュメント を参照してください。
カテゴリ | 機能 | 価格 (年単位) | 最大使用量 (1 年あたり) | 予想される使用量 (1 か月あたり) |
---|---|---|---|---|
音声テキスト変換2 | 標準 |
$-
$- サインアップしてアクセスを取得する 詳しく見る |
120,000 時間
600,000 時間 |
10,000 時間
50,000 時間 |
カスタム |
$-
$- サインアップしてアクセスを取得する 詳しく見る |
120,000 時間
600,000 時間 |
10,000 時間
50,000 時間 |
|
強化されたアドオン機能:
|
$-
$- |
120,000 時間
600,000 時間 |
10,000 時間
50,000 時間 |
|
テキスト読み上げ | ニューラル1 |
$-
$- サインアップしてアクセスを取得する 詳しく見る |
4.8B 文字
24B 文字 |
400M 文字
2,000M 文字 |
1これには、事前構築済みの非 HD および非 AOAI ニューラル音声を使用したリアルタイム合成が含まれます。HD 音声、AOAI 音声、カスタム音声 (プロフェッショナルボイスとパーソナル音声の両方) は含まれません。バッチ合成は含まれていません。
2価格は、リアルタイムとバッチのユース ケースに適用されます。コンテナーには個別のバッチ価格はありません。
これらの機能は非推奨とされ、既存のお客様のみが使用できます。 詳細を確認し、新機能に移行する方法を確認してください。
インスタンス | カテゴリ | 機能 | 料金 |
---|---|---|---|
Free - Web/コンテナー 1 個の同時要求 |
テキスト読み上げ | 標準 | 1 か月あたり 5 million 文字まで無料 |
カスタム |
1 か月あたり 5 million 文字まで無料 エンドポイント ホスティング: 1 か月あたり 1 モデルまで無料 |
||
Standard - Web/コンテナー 基本モデルに対する 100 の同時要求 カスタム モデルに対する 20 の同時要求 |
テキスト読み上げ | 標準 | 1,000,000 文字あたり $- |
カスタム |
1,000,000 文字あたり $- エンドポイント ホスティング: 1 モデル、1 時間あたり $- |
Azure の価格および購入オプション

Microsoft と直接つながる
Azure の価格のチュートリアルをご覧ください。お客様のクラウド ソリューションの価格について理解したり、コストの最適化について確認したり、カスタム提案を要求したりすることができます。
営業担当者に問い合わせるその他の資料
Azure AI Speech
Azure AI Speech の特徴と機能についての詳細情報
料金計算ツール
Azure 製品の任意の組み合わせを使用する場合の推定の月間コストを見積もります。
ドキュメント
技術チュートリアル、ビデオ、その他の Azure AI Speech のリソースをご確認ください。
よく寄せられる質問
-
- Speech to TextとSpeech Translationの場合、使用量は 1 秒の増分単位で課金されます。
- Text to Speechの場合: 使用量は文字ごとに課金されます。価格ノートの文字の定義を確認します。
- カスタム ニューラル音声ホスティングの場合: 使用量はエンドポイントごとに 1 秒単位で課金されます。「価格に関する注意」で詳細を確認してください。
- パーソナル音声プロファイル ストレージの場合: 使用量は音声プロファイルごとに 1 日単位で課金されます。「価格に関する注意」で詳細を確認してください。
- テキスト読み上げアバターの場合、使用量は 1 秒単位で課金されます。
- 音声テキスト変換とテキスト読み上げ (アバターを含む) の場合、カスタム モデルのエンドポイント ホスティングは、モデルごとに 1 秒単位で課金されます。
-
Speech Servicesでは、ユーザーの音響データと言語データに基づいてベースラインとなるモデルを調整し、音声テキスト変換と音声翻訳のどちらにも使えるカスタム音声モデルを作成できます。
-
言語モデルは、一連の単語における確率分布を表すものです。言語モデルにより、一連の単語の中から、単語系列自体の確率に基づいて音が似ている単語を選択できます。たとえば、“recognize speech” と “wreck a nice beach” の音は似ていますが、前者の仮定の発生確率の方がはるかに大きいため、言語モデルが付けるスコアは大きくなります。アプリケーションに対する音声クエリに、通常の音声ではめったに使われない製品名や専門用語などの特定の語彙が含まれると予想される場合は、言語モデルをカスタマイズすることでパフォーマンスの改善を実現できる可能性があります。たとえば、音声により MSDN を検索するアプリを作成する場合、通常の音声アプリケーションよりも “オブジェクト指向” や “名前空間”、“Dot Net” などの用語が使われる可能性は高いと考えられます。言語モデルのカスタマイズにより、システムにこうした状況を学習させることができます。
-
音響モデルとは、音声の短い断片を各言語のいくつかの音素、つまり音声単位に分類する分類器です。分類後、これらの音声をつなぎ合わせて語句にすることができます。たとえば、“speech” という単語は “s p iy ch” という 4 つの音素で構成されています。こうした分類は、1 秒あたり 100 回程度行われます。音響モデルをカスタマイズすることでシステムを学習し、特殊な環境における音声をより良く認識させることができます。たとえば、倉庫や工場の作業者用に設計したアプリがある場合、音響モデルをカスタマイズして、こうした環境で発生する騒音の中で音声をより正確に認識することができます。
-
Speech サービスにはさまざまなテキスト読み上げ (TTS) 音声フォントが用意されていますが、カスタム ニューラル音声を使用すると、お客様のニーズやブランドに合ったお客様独自のカスタム音声を構築することができます。詳細についてはブログ記事をご覧ください。
-
Language identification allows you to identify a switch in spoken language and transcribe speech accordingly. This can be applied in scenarios where the audio language is unknown, or when speaker(s) may speak multiple languages. Single Language Identification is available at no additional cost. Continuous Language Identification is an enhanced add-on feature. Visit docs to learn more.
-
- Pronunciation assessment evaluates speech pronunciation and gives speakers feedback on the accuracy and fluency of spoken audio. With pronunciation assessment, language learners can practice, get instant feedback, and improve their pronunciation so that they can speak and present with confidence. Educators can use the capability to evaluate pronunciation of multiple speakers in real time. Visit docs to learn more.
- It is charged as standard Speech to Text, example:
For evaluation of 8 seconds of speech, you will be charged around $-
Azure の価格の説明については、営業担当者にお問い合わせください。クラウド ソリューションの価格を把握できます。
無料のクラウド サービスと、30 日間 Azure を検証できる $200 のクレジットを利用できます。