メイン コンテンツへスキップ
Azure

Azure AI Speech の価格

音声テキスト変換、テキスト読み上げ、音声翻訳のための統合音声サービス

一元化された Speech Services は、音声の文字起こし、テキスト読み上げ、音声翻訳、話者認識など、音声認識と生成の機能を幅広く提供しています。

価格オプションの詳細

フィルターを適用して、価格オプションをお客様のニーズに合わせてカスタマイズします。

価格は見積もりのみで、実際の価格見積もりとして意図されていません。実際の価格は、Microsoft との契約の種類、購入日、為替レートによって異なる場合があります。価格は米ドルに基づいて計算され、前月の最後の営業日前の 2 営業日に捕捉されたロンドン市場の引け値レートを使用して変換されます。月末までの 2 営業日が主要市場の銀行休日に該当する場合、通常、レート設定日は 2 営業日の直前の日です。このレートは、今後 1 か月間のすべてのトランザクションに適用されます。Azure 料金計算ツールにサインインして、Microsoft の現在のプログラムまたはオファーに基づく価格を確認します。価格の詳細については、Azure 営業担当者にお問い合わせいただくか、価格見積もりを要求してください。Azure の価格についてはよく寄せられる質問を参照してください。

Free (F0)

カテゴリ 機能 料金
Speech to Text
(1 秒あたりの請求)
標準 1 か月あたり 5 音声時間は無料3
カスタム 1 か月あたり 5 音声時間は無料3
エンドポイント ホスティング: 1 か月あたり 1 モデルまで無料1
会話の文字起こしのマルチチャネル オーディオ プレビュー 1 か月あたり 5 音声時間は無料
Text to Speech
(文字ごとの請求)
ニューラル 1 か月あたり 0.5 million 文字まで無料
Speech Translation
(1 秒あたりの請求)
標準 1 か月あたり 5 音声時間は無料
Speaker Recognition
(トランザクションごとの請求)
話者認証2 10,000 無料トランザクション / 月
話者識別2 10,000 無料トランザクション / 月
音声プロファイル ストレージ 10,000 無料トランザクション / 月

同時要求を増やす方法については、クォータ、制限、および 手順の、ドキュメントを参照してください。

1未使用のモデルは、7 日後に自動的に使用停止状態になります。

2Speaker Recognitionは制限付きアクセス機能であり、アクセスに適用する必要があります。

3音声テキスト変換の無料音声時間は標準とカスタムの間で共有されます。バッチはサポートされていません。

従量課金制: 使用した分だけお支払いください。

カテゴリ 料金
Voice Live Pro (m 単位のトークン請求)VL1 テキスト 入力: $-
キャッシュされた入力: $-
出力: $-
Azure AI 音声を使用したオーディオ - Standard 入力: $-
キャッシュされた入力: $-
出力: $-
Azure AI 音声を使用したオーディオ - カスタムVL2 出力: $-
GPT-4o-Realtime を使用したネイティブ オーディオ 入力: $-
キャッシュされた入力: $-
出力: $-
Voice Live Basic (m 単位のトークン課金)VL1 テキスト 入力: $-
キャッシュされた入力: $-
出力: $-
Azure AI 音声を使用したオーディオ - Standard 入力: $-
キャッシュされた入力: $-
出力: $-
Azure AI 音声を使用したオーディオ - カスタムVL2 出力: $-
GPT-4o Mini-Realtime を使用したネイティブ オーディオ 入力: $-
キャッシュされた入力: $-
出力: $-
Voice Live Lite (m 単位のトークン課金)VL1 テキスト 入力: $-
キャッシュされた入力: $-
出力: $-
Azure AI 音声を使用したオーディオ - Standard 入力: $-
キャッシュされた入力: $-
出力: $-
Azure AI 音声を使用したオーディオ - カスタムVL2 出力: $-
Phi-MM を使用したネイティブ オーディオ 入力: $-
キャッシュされた入力: $-
Speech to Text
(1 秒あたりの請求)
標準文字起こし リアルタイム トランスクリプション: 1 時間あたりの $-
ファスト トランスクリプション: 1 時間あたりの $-9
バッチ トランスクリプション: 1 時間あたりの $-1
カスタム文字起こし リアルタイム トランスクリプション: 1 時間あたりの $-
バッチ トランスクリプション: 1 時間あたりの $-1
エンドポイント ホスティング: 1 モデル、1 時間あたり $-
Custom Speech トレーニング5: コンピューティング時間あたり $-
強化されたアドオン機能:
  • 継続的な言語識別
  • ダイアライゼーション
  • 発音評価 (プロソディ、文法、ボキャブラリ、トピック)
リアルタイム: 機能ごと時間あたりの $-
バッチ (継続的n言語識別、ダイアライゼーション): 標準/カスタムに含まれる (追加料金なし)
会話の文字起こしのマルチチャネル オーディオ プレビュー 1 時間あたりの $-2
Speech Translation
(1 秒あたりの請求)
リアルタイム音声翻訳 音声時間あたり $-3
Live Interpreter Input audio: 音声時間あたり $-
Output text: 1,000,000 文字あたり $-
Output audio (Standard voice): $- per audio hourLI
Output audio (Custom voice): $- per audio hourLI
ビデオ翻訳 入力ビデオ: 1 時間あたりの $-
出力ビデオ (標準音声): 1 時間あたりの $-
出力ビデオ (個人音声): 1 時間あたりの $-
テキスト読み上げ8 標準音声 ニューラル (リアルタイムとバッチ): 1,000,000 文字あたり $-
ニューラル HD (リアルタイムとバッチ)4: 1,000,000 文字あたり $-
Custom Voice プロフェッショナル音声:
合成 (リアルタイムおよびバッチ): 100 万文字あたり $-
合成 (ニューラル HD リアルタイムおよびバッチ): 100 万文字あたり $-
音声モデル トレーニング: コンピューティング時間あたり $-、最大 トレーニングあたり $-
エンドポイント ホスティング: 1 モデル、1 時間あたり $-
パーソナル音声6:
合成 (リアルタイムおよびバッチ): 100 万文字あたり $-
音声の作成: 無料
音声プロファイル ストレージ: 1,000 音声プロファイルあたり月額 $-
強化されたアドオン機能: アバター 標準:
対話型アバター (リアルタイム): 1 分あたり $-
対話型 4K アバター (リアルタイム): 1 分あたり $-
アバター ビデオ (バッチ): 1 分あたり $-
4K アバター ビデオ (バッチ): 1 分あたり $-
カスタム:
アバター モデルのトレーニング: コンピューティング時間あたり $-
対話型アバター (リアルタイム): 1 分あたり $-
対話型 4K アバター (リアルタイム): 1 分あたり $-
アバター ビデオ (バッチ): 1 分あたり $-
4K アバター ビデオ (バッチ): 1 分あたり $-
エンドポイント ホスティング: 1 時間あたり、モデルあたり $-
Speaker Recognition
(トランザクションごとの請求)
話者認証7 $-/1,000 トランザクション
話者識別7 $-/1,000 トランザクション
音声プロファイル ストレージ 1,000 音声プロファイルあたり $- (1 か月あたり 10,000 の無料の音声プロファイル)

同時要求を増やす方法については、クォータ、制限、および 手順の、ドキュメントを参照してください。

音声テキスト変換時間は、サービスに送信された音声の時間として計測され、秒単位で課金されます。

1この新しいバッチ トランスクリプション価格を利用するには、音声テキスト変換 REST API V3.2 以降のバージョンを使用する必要があります。詳細については、音声テキスト変換 REST API を参照してください。

2これにはパブリック プレビュー価格が反映されます。

3この価格には、1 つのオーディオ入力と出力、標準またはカスタムの Speech to Text と標準翻訳を使用した最大 2 つのテキスト翻訳言語が含まれています。カスタム翻訳言語または 3 つ以上の翻訳言語については、「Azure AI Translator Text 翻訳の価格」ページを参照してください。

4選択したテキスト読み上げ音声は、ニューラルとニューラルHD の 2 つのモデル バリアントを介して利用できます。こちらで詳細情報をご確認ください。

5Custom Speech トレーニングは、2023 年 10 月 1 日以降にリリースされた基本モデルをカスタマイズするときに適用されます。

6パーソナル音声は、事前に承認された特定のユース ケースのみに制限された制限付きアクセス機能であり、アクセスを申請する必要があります。サービスの詳細については、ドキュメントを確認してください

7Speaker Recognitionは制限付きアクセス機能であり、アクセスに適用する必要があります。

8テキスト読み上げ: 音声合成の使用量は文字ごとに課金されます。アバターは秒ごとに課金されます。トレーニングとモデルのホスティングは秒ごとに課金されます。

9ファスト トランスクリプションを使用するには、音声テキスト変換 REST API 2024-05-15-preview 以降のバージョンを使用する必要があります。詳細については、音声テキスト変換 REST API を参照してください。

VL1Voice Live Plus では、開発者は GPT-4o-Realtime、GPT-4o、GPT-4.1 などの LLM から選択できます。Voice Live Basic では、開発者は GPT-4o-Mini-Realtime、GPT-4o Mini、GPT-4.1 Mini などのより小規模な LLM から選択できます。 Voice Live Lite では、開発者は SLM や同等のモデル (GPT-4.1 Nano や Phi モデルなど) から選択できます。Voice Live API の価格体系について詳しくは、こちらをクリックしてください。

VL2You will be charged separately for custom voice model training and hosting. Refer to the ‘Text to Speech – Custom Voice – Professional’ pricing for details. Custom voice is a limited access feature. Learn more about how to create custom voices.

LIThis price includes text output

コミットメント レベル – Azure - Standard

カテゴリ 機能 月額 超過分
音声テキスト変換 標準 2,000 時間で $- $- / 時間
10,000 時間で $- $- / 時間
50,000 時間で $- $- / 時間
カスタム 2,000 時間で $- $- / 時間
10,000 時間で $- $- / 時間
50,000 時間で $- $- / 時間
強化されたアドオン機能:2
  • 継続的な言語識別
  • ダイアライゼーション
  • 発音評価 (プロソディ、文法、ボキャブラリ、トピック)
2,000 時間で $- $- / 時間
10,000 時間で $- $- / 時間
50,000 時間で $- $- / 時間
テキスト読み上げ ニューラル1 8000 万文字で $- 100 万文字あたり $-
40000 万文字で $- 100 万文字あたり $-
2,00000 万文字で $- 100 万文字あたり $-

1これには、事前構築済みの非 HD および非 AOAI ニューラル音声を使用したリアルタイム合成とバッチ合成の両方が含まれます。HD 音声、AOAI 音声、カスタム ニューラル音声、パーソナル音声は含まれていません。

2リアルタイム音声テキスト変換のみ、バッチ音声テキスト変換に含まれる継続的言語識別およびダイアライゼーション アドオン機能。

コミットメントレベル – 接続されたコンテナー

カテゴリ 機能 月額 超過分
音声テキスト変換2 標準 2,000 時間で $- $- / 時間
10,000 時間で $- $- / 時間
50,000 時間で $- $- / 時間
カスタム 2,000 時間で $- $- / 時間
10,000 時間で $- $- / 時間
50,000 時間で $- $- / 時間
強化されたアドオン機能:2
  • 言語の識別
  • ダイアライゼーション
2,000 時間で $- $- / 時間
10,000 時間で $- $- / 時間
50,000 時間で $- $- / 時間
テキスト読み上げ ニューラル1 8000 万文字で $- 100 万文字あたり $-
40000 万文字で $- 100 万文字あたり $-
2,00000 万文字で $- 100 万文字あたり $-

1これには、事前構築済みの非 HD および非 AOAI ニューラル音声を使用したリアルタイム合成が含まれます。HD 音声、AOAI 音声、カスタム音声 (プロフェッショナルボイスとパーソナル音声の両方) は含まれません。バッチ合成は含まれていません。

2価格は、リアルタイムとバッチのユース ケースに適用されます。コンテナーには個別のバッチ価格はありません。

コミットメント レベルの詳細については、ドキュメント を参照してください。

コミットメントレベル – 切断されたコンテナー

サインアップして切断されたコンテナーの音声にアクセスするか、詳細を確認します

カテゴリ 機能 価格 (年単位) 最大使用量 (1 年あたり) 予想される使用量 (1 か月あたり)
音声テキスト変換2 標準 $-
$-
サインアップしてアクセスを取得する
詳しく見る
120,000 時間
600,000 時間
10,000 時間
50,000 時間
カスタム $-
$-
サインアップしてアクセスを取得する
詳しく見る
120,000 時間
600,000 時間
10,000 時間
50,000 時間
強化されたアドオン機能:
  • 言語の識別
  • ダイアライゼーション
$-
$-
120,000 時間
600,000 時間
10,000 時間
50,000 時間
テキスト読み上げ ニューラル1 $-
$-
サインアップしてアクセスを取得する
詳しく見る
4.8B 文字
24B 文字
400M 文字
2,000M 文字

1これには、事前構築済みの非 HD および非 AOAI ニューラル音声を使用したリアルタイム合成が含まれます。HD 音声、AOAI 音声、カスタム音声 (プロフェッショナルボイスとパーソナル音声の両方) は含まれません。バッチ合成は含まれていません。

2価格は、リアルタイムとバッチのユース ケースに適用されます。コンテナーには個別のバッチ価格はありません。

これらの機能は非推奨とされ、既存のお客様のみが使用できます。 詳細を確認し、新機能に移行する方法を確認してください

インスタンス カテゴリ 機能 料金
Free - Web/コンテナー
1 個の同時要求
テキスト読み上げ 標準 1 か月あたり 5 million 文字まで無料
カスタム 1 か月あたり 5 million 文字まで無料
エンドポイント ホスティング: 1 か月あたり 1 モデルまで無料
Standard - Web/コンテナー
基本モデルに対する 100 の同時要求
カスタム モデルに対する 20 の同時要求
テキスト読み上げ 標準 1,000,000 文字あたり $-
カスタム 1,000,000 文字あたり $-
エンドポイント ホスティング: 1 モデル、1 時間あたり $-

Azure の価格および購入オプション

Microsoft と直接つながる

Azure の価格のチュートリアルをご覧ください。お客様のクラウド ソリューションの価格について理解したり、コストの最適化について確認したり、カスタム提案を要求したりすることができます。

営業担当者に問い合わせる

購入方法を見る

Azure の Web サイト、Microsoft の担当者、または Azure パートナーを通じて、Azure サービスをご購入ください。

お客様のオプションを調べる

その他の資料

Azure AI Speech

Azure AI Speech の特徴と機能についての詳細情報

料金計算ツール

Azure 製品の任意の組み合わせを使用する場合の推定の月間コストを見積もります。

ドキュメント

技術チュートリアル、ビデオ、その他の Azure AI Speech のリソースをご確認ください。

    • Speech to TextとSpeech Translationの場合、使用量は 1 秒の増分単位で課金されます。
    • Text to Speechの場合: 使用量は文字ごとに課金されます。価格ノートの文字の定義を確認します。
    • カスタム ニューラル音声ホスティングの場合: 使用量はエンドポイントごとに 1 秒単位で課金されます。「価格に関する注意」で詳細を確認してください。
    • パーソナル音声プロファイル ストレージの場合: 使用量は音声プロファイルごとに 1 日単位で課金されます。「価格に関する注意」で詳細を確認してください。
    • テキスト読み上げアバターの場合、使用量は 1 秒単位で課金されます。
    • 音声テキスト変換とテキスト読み上げ (アバターを含む) の場合、カスタム モデルのエンドポイント ホスティングは、モデルごとに 1 秒単位で課金されます。
  • Speech Servicesでは、ユーザーの音響データと言語データに基づいてベースラインとなるモデルを調整し、音声テキスト変換と音声翻訳のどちらにも使えるカスタム音声モデルを作成できます。

  • 言語モデルは、一連の単語における確率分布を表すものです。言語モデルにより、一連の単語の中から、単語系列自体の確率に基づいて音が似ている単語を選択できます。たとえば、“recognize speech” と “wreck a nice beach” の音は似ていますが、前者の仮定の発生確率の方がはるかに大きいため、言語モデルが付けるスコアは大きくなります。アプリケーションに対する音声クエリに、通常の音声ではめったに使われない製品名や専門用語などの特定の語彙が含まれると予想される場合は、言語モデルをカスタマイズすることでパフォーマンスの改善を実現できる可能性があります。たとえば、音声により MSDN を検索するアプリを作成する場合、通常の音声アプリケーションよりも “オブジェクト指向” や “名前空間”、“Dot Net” などの用語が使われる可能性は高いと考えられます。言語モデルのカスタマイズにより、システムにこうした状況を学習させることができます。

  • 音響モデルとは、音声の短い断片を各言語のいくつかの音素、つまり音声単位に分類する分類器です。分類後、これらの音声をつなぎ合わせて語句にすることができます。たとえば、“speech” という単語は “s p iy ch” という 4 つの音素で構成されています。こうした分類は、1 秒あたり 100 回程度行われます。音響モデルをカスタマイズすることでシステムを学習し、特殊な環境における音声をより良く認識させることができます。たとえば、倉庫や工場の作業者用に設計したアプリがある場合、音響モデルをカスタマイズして、こうした環境で発生する騒音の中で音声をより正確に認識することができます。

  • Speech サービスにはさまざまなテキスト読み上げ (TTS) 音声フォントが用意されていますが、カスタム ニューラル音声を使用すると、お客様のニーズやブランドに合ったお客様独自のカスタム音声を構築することができます。詳細についてはブログ記事をご覧ください

  • Language identification allows you to identify a switch in spoken language and transcribe speech accordingly. This can be applied in scenarios where the audio language is unknown, or when speaker(s) may speak multiple languages. Single Language Identification is available at no additional cost. Continuous Language Identification is an enhanced add-on feature. Visit docs to learn more.

    • Pronunciation assessment evaluates speech pronunciation and gives speakers feedback on the accuracy and fluency of spoken audio. With pronunciation assessment, language learners can practice, get instant feedback, and improve their pronunciation so that they can speak and present with confidence. Educators can use the capability to evaluate pronunciation of multiple speakers in real time. Visit docs to learn more.
    • It is charged as standard Speech to Text, example:
      For evaluation of 8 seconds of speech, you will be charged around $-

Azure の価格の説明については、営業担当者にお問い合わせください。クラウド ソリューションの価格を把握できます。

無料のクラウド サービスと、30 日間 Azure を検証できる $200 のクレジットを利用できます。

見積に追加されました。 計算ツールで表示するには 'v' を押してください
どのようなご用件ですか?