Azure AI 音声の価格 | Microsoft Azure

音声テキスト変換、テキスト読み上げ、音声翻訳のための統合音声サービス

一元化された Speech Services は、音声の文字起こし、テキスト読み上げ、音声翻訳、話者認識など、音声認識と生成の機能を幅広く提供しています。

価格オプションの詳細

フィルターを適用して、価格オプションをお客様のニーズに合わせてカスタマイズします。

価格は見積もりのみで、実際の価格見積もりとして意図されていません。実際の価格は、Microsoft との契約の種類、購入日、為替レートによって異なる場合があります。価格は米ドルに基づいて計算され、前月の最後の営業日前の 2 営業日に捕捉されたロンドン市場の引け値レートを使用して変換されます。月末までの 2 営業日が主要市場の銀行休日に該当する場合、通常、レート設定日は 2 営業日の直前の日です。このレートは、今後 1 か月間のすべてのトランザクションに適用されます。Azure 料金計算ツールにサインインして、Microsoft の現在のプログラムまたはオファーに基づく価格を確認します。価格の詳細については、Azure 営業担当者にお問い合わせいただくか、価格見積もりを要求してください。Azure の価格についてはよく寄せられる質問を参照してください。

リージョン:

通貨:

Free (F0)

同時要求を増やす方法については、クォータ、制限、および手順の、ドキュメントを参照してください。

¹未使用のモデルは、7 日後に自動的に使用停止状態になります。

²Speaker Recognitionは制限付きアクセス機能であり、アクセスに適用する必要があります。

³音声テキスト変換の無料音声時間は標準とカスタムの間で共有されます。バッチはサポートされていません。
カテゴリ	機能	料金
Speech to Text (1 秒あたりの請求)	標準	1 か月あたり 5 音声時間は無料³
	カスタム	1 か月あたり 5 音声時間は無料³ エンドポイントホスティング: 1 か月あたり 1 モデルまで無料¹
	会話の文字起こしのマルチチャネルオーディオ ^{プレビュー}	1 か月あたり 5 音声時間は無料
Text to Speech (文字ごとの請求)	ニューラル	1 か月あたり 0.5 million 文字まで無料
Speech Translation (1 秒あたりの請求)	標準	1 か月あたり 5 音声時間は無料
Speaker Recognition (トランザクションごとの請求)	話者認証²	10,000 無料トランザクション / 月
	話者識別²	10,000 無料トランザクション / 月
	音声プロファイルストレージ	10,000 無料トランザクション / 月

従量課金制: 使用した分だけお支払いください。

同時要求を増やす方法については、クォータ、制限、および手順の、ドキュメントを参照してください。

音声テキスト変換時間は、サービスに送信された音声の時間として計測され、秒単位で課金されます。

¹この新しいバッチトランスクリプション価格を利用するには、音声テキスト変換 REST API V3.2 以降のバージョンを使用する必要があります。詳細については、音声テキスト変換 REST API を参照してください。

²これにはパブリックプレビュー価格が反映されます。

³この価格には、1 つのオーディオ入力と出力、標準またはカスタムの Speech to Text と標準翻訳を使用した最大 2 つのテキスト翻訳言語が含まれています。カスタム翻訳言語または 3 つ以上の翻訳言語については、「Azure AI Translator Text 翻訳の価格」ページを参照してください。

⁴OpenAI テキスト読み上げ音声は、ニューラルとニューラルHD の 2 つのモデルバリアントを介して利用できます。こちらで詳細情報をご確認ください。

⁵Custom Speech トレーニングは、2023 年 10 月 1 日以降にリリースされた基本モデルをカスタマイズするときに適用されます。

⁶パーソナル音声は、事前に承認された特定のユースケースのみに制限された制限付きアクセス機能であり、アクセスを申請する必要があります。サービスの詳細については、ドキュメントを確認してください。

⁷Speaker Recognitionは制限付きアクセス機能であり、アクセスに適用する必要があります。

⁸テキスト読み上げ: 音声合成の使用量は文字ごとに課金されます。アバターは秒ごとに課金されます。トレーニングとモデルのホスティングは秒ごとに課金されます。

⁹ファストトランスクリプションを使用するには、音声テキスト変換 REST API 2024-05-15-preview 以降のバージョンを使用する必要があります。詳細については、音声テキスト変換 REST API を参照してください。
カテゴリ	料金
Speech to Text (1 秒あたりの請求)	標準	リアルタイムトランスクリプション: 1 時間あたりの $- ファストトランスクリプション: 1 時間あたりの $-⁹ バッチトランスクリプション: 1 時間あたりの $-¹
	カスタム	リアルタイムトランスクリプション: 1 時間あたりの $- バッチトランスクリプション: 1 時間あたりの $-¹ エンドポイントホスティング: 1 モデル、1 時間あたり $- Custom Speech トレーニング⁵: コンピューティング時間あたり $-
	強化されたアドオン機能: 継続的な言語識別ダイアライゼーション発音評価 (プロソディ、文法、ボキャブラリ、トピック)	リアルタイム: 機能ごと時間あたりの $- バッチ (継続的ｎ言語識別、ダイアライゼーション): 標準/カスタムに含まれる (追加料金なし)
	会話の文字起こしのマルチチャネルオーディオ ^{プレビュー}	1 時間あたりの $-²
Speech Translation (1 秒あたりの請求)	リアルタイム音声翻訳	音声時間あたり $-³
Speech Translation (1 秒あたりの請求)	ビデオ翻訳^{プレビュー}	バッチ: 出力ビデオ 1 分ごとの $- コンテンツの編集: 出力ビデオ 1 分ごとの $- パーソナル音声: 出力ビデオ 1 分ごとの $-
テキスト読み上げ⁸	標準音声	ニューラル: 1,000,000 文字あたり $- ニューラル HD⁴: 1,000,000 文字あたり $-
	Custom Voice	プロフェッショナル音声: 合成: 100 万文字あたり $- 音声モデルトレーニング: コンピューティング時間あたり $-、最大トレーニングあたり $- エンドポイントホスティング: 1 モデル、1 時間あたり $-
	Custom Voice	パーソナル音声⁶: 合成: 100 万文字あたり $- 音声の作成: 無料音声プロファイルストレージ: 1,000 音声プロファイルあたり月額 $-
	強化されたアドオン機能: アバター	標準: $-/分
	強化されたアドオン機能: アバター	カスタム: リアルタイム合成: 1 分あたり $- バッチ合成: 1 分あたり $- エンドポイントホスティング: 1 時間あたり、モデルあたり $-
Speaker Recognition (トランザクションごとの請求)	話者認証⁷	$-/1,000 トランザクション
	話者識別⁷	$-/1,000 トランザクション
	音声プロファイルストレージ	1,000 音声プロファイルあたり $- (1 か月あたり 10,000 の無料の音声プロファイル)

コミットメントレベル – Azure - Standard

カテゴリ	機能	月額	超過分
音声テキスト変換	標準	2,000 時間で $-	$- / 時間
		10,000 時間で $-	$- / 時間
		50,000 時間で $-	$- / 時間
	カスタム	2,000 時間で $-	$- / 時間
		10,000 時間で $-	$- / 時間
		50,000 時間で $-	$- / 時間
	強化されたアドオン機能:² 継続的な言語識別ダイアライゼーション発音評価 (プロソディ、文法、ボキャブラリ、トピック)	2,000 時間で $-	$- / 時間
		10,000 時間で $-	$- / 時間
		50,000 時間で $-	$- / 時間
テキスト読み上げ	ニューラル¹	8000 万文字で $-	100 万文字あたり $-
		40000 万文字で $-	100 万文字あたり $-
		2,00000 万文字で $-	100 万文字あたり $-

¹リアルタイム合成のみ。これには長いオーディオ作成は含まれません。

²リアルタイム音声テキスト変換のみ、バッチ音声テキスト変換に含まれる継続的言語識別およびダイアライゼーションアドオン機能。

コミットメントレベル – 接続されたコンテナー

カテゴリ	機能	月額	超過分
音声テキスト変換²	標準	2,000 時間で $-	$- / 時間
		10,000 時間で $-	$- / 時間
		50,000 時間で $-	$- / 時間
	カスタム	2,000 時間で $-	$- / 時間
		10,000 時間で $-	$- / 時間
		50,000 時間で $-	$- / 時間
	強化されたアドオン機能:² 言語の識別ダイアライゼーション	2,000 時間で $-	$- / 時間
		10,000 時間で $-	$- / 時間
		50,000 時間で $-	$- / 時間
テキスト読み上げ	ニューラル¹	8000 万文字で $-	100 万文字あたり $-
		40000 万文字で $-	100 万文字あたり $-
		2,00000 万文字で $-	100 万文字あたり $-

¹リアルタイム合成のみ。これには長いオーディオ作成は含まれません。

²価格は、リアルタイムとバッチのユースケースに適用されます。コンテナーには個別のバッチ価格はありません。

コミットメントレベルの詳細については、ドキュメントを参照してください。

コミットメントレベル – 切断されたコンテナー

サインアップして切断されたコンテナーの音声にアクセスするか、詳細を確認します

カテゴリ	機能	価格 (年単位)	最大使用量 (1 年あたり)	予想される使用量 (1 か月あたり)
音声テキスト変換²	標準	$- $- サインアップしてアクセスを取得する詳しく見る	120,000 時間 600,000 時間	10,000 時間 50,000 時間
	カスタム	$- $- サインアップしてアクセスを取得する詳しく見る	120,000 時間 600,000 時間	10,000 時間 50,000 時間
	強化されたアドオン機能: 言語の識別ダイアライゼーション	$- $-	120,000 時間 600,000 時間	10,000 時間 50,000 時間
テキスト読み上げ	ニューラル¹	$- $- サインアップしてアクセスを取得する詳しく見る	4.8B 文字 24B 文字	400M 文字 2,000M 文字

¹リアルタイム合成のみ。これには長いオーディオ作成は含まれません。

²価格は、リアルタイムとバッチのユースケースに適用されます。コンテナーには個別のバッチ価格はありません。

これらの機能は非推奨とされ、既存のお客様のみが使用できます。詳細を確認し、新機能に移行する方法を確認してください。

インスタンス	カテゴリ	機能	料金
Free - Web/コンテナー 1 個の同時要求	テキスト読み上げ	標準	1 か月あたり 5 million 文字まで無料
Free - Web/コンテナー 1 個の同時要求	テキスト読み上げ	カスタム	1 か月あたり 5 million 文字まで無料エンドポイントホスティング: 1 か月あたり 1 モデルまで無料
Standard - Web/コンテナー基本モデルに対する 100 の同時要求カスタムモデルに対する 20 の同時要求	テキスト読み上げ	標準	1,000,000 文字あたり $-
	テキスト読み上げ	カスタム	1,000,000 文字あたり $- エンドポイントホスティング: 1 モデル、1 時間あたり $-

Azure の価格および購入オプション

Microsoft と直接つながる

Azure の価格のチュートリアルをご覧ください。お客様のクラウドソリューションの価格について理解したり、コストの最適化について確認したり、カスタム提案を要求したりすることができます。

営業担当者に問い合わせる

購入方法を見る

Azure の Web サイト、Microsoft の担当者、または Azure パートナーを通じて、Azure サービスをご購入ください。

お客様のオプションを調べる

その他の資料

よく寄せられる質問

Azure の料金に関してよく寄せられる質問

- Speech to TextとSpeech Translationの場合、使用量は 1 秒の増分単位で課金されます。
- Text to Speechの場合: 使用量は文字ごとに課金されます。価格ノートの文字の定義を確認します。
- カスタムニューラル音声ホスティングの場合: 使用量はエンドポイントごとに 1 秒単位で課金されます。「価格に関する注意」で詳細を確認してください。
- パーソナル音声プロファイルストレージの場合: 使用量は音声プロファイルごとに 1 日単位で課金されます。「価格に関する注意」で詳細を確認してください。
- テキスト読み上げアバターの場合、使用量は 1 秒単位で課金されます。
- 音声テキスト変換とテキスト読み上げ (アバターを含む) の場合、カスタムモデルのエンドポイントホスティングは、モデルごとに 1 秒単位で課金されます。
Speech Servicesでは、ユーザーの音響データと言語データに基づいてベースラインとなるモデルを調整し、音声テキスト変換と音声翻訳のどちらにも使えるカスタム音声モデルを作成できます。
言語モデルは、一連の単語における確率分布を表すものです。言語モデルにより、一連の単語の中から、単語系列自体の確率に基づいて音が似ている単語を選択できます。たとえば、“recognize speech” と “wreck a nice beach” の音は似ていますが、前者の仮定の発生確率の方がはるかに大きいため、言語モデルが付けるスコアは大きくなります。アプリケーションに対する音声クエリに、通常の音声ではめったに使われない製品名や専門用語などの特定の語彙が含まれると予想される場合は、言語モデルをカスタマイズすることでパフォーマンスの改善を実現できる可能性があります。たとえば、音声により MSDN を検索するアプリを作成する場合、通常の音声アプリケーションよりも “オブジェクト指向” や “名前空間”、“Dot Net” などの用語が使われる可能性は高いと考えられます。言語モデルのカスタマイズにより、システムにこうした状況を学習させることができます。
音響モデルとは、音声の短い断片を各言語のいくつかの音素、つまり音声単位に分類する分類器です。分類後、これらの音声をつなぎ合わせて語句にすることができます。たとえば、“speech” という単語は “s p iy ch” という 4 つの音素で構成されています。こうした分類は、1 秒あたり 100 回程度行われます。音響モデルをカスタマイズすることでシステムを学習し、特殊な環境における音声をより良く認識させることができます。たとえば、倉庫や工場の作業者用に設計したアプリがある場合、音響モデルをカスタマイズして、こうした環境で発生する騒音の中で音声をより正確に認識することができます。
Speech サービスにはさまざまなテキスト読み上げ (TTS) 音声フォントが用意されていますが、カスタムニューラル音声を使用すると、お客様のニーズやブランドに合ったお客様独自のカスタム音声を構築することができます。詳細についてはブログ記事をご覧ください。
言語の切り替えを識別し、それに応じて音声を文字起こしできます。これは、オーディオ言語が不明なシナリオや、話者が複数の言語を話す場合に適用できます。単一言語識別は追加料金なしで利用できます。継続的言語識別は、強化されたアドオン機能です。詳細については、ドキュメントを参照してください。
- 発音評価では、音声の発音を評価し、話者に音声の正確さと流暢さに関するフィードバックを提供します。発音評価を使用すると、語学学習者は練習し、即座にフィードバックを得て、自信を持って話したり発表したりできるように発音を改善することができます。教育者は、複数の話者の発音をリアルタイムで評価する機能を使用できます。詳細については、ドキュメントをご覧ください。
- 標準の Speech to Text として課金されます。例:
  8 秒のスピーチの評価の場合、約 $- の料金がかかります

Azure の価格の説明については、営業担当者にお問い合わせください。クラウドソリューションの価格を把握できます。

価格見積もりの要求

無料のクラウドサービスと、30 日間 Azure を検証できる $200 のクレジットを利用できます。

Azure を無料で試す

Azure AI Speech の価格

音声テキスト変換、テキスト読み上げ、音声翻訳のための統合音声サービス

価格オプションの詳細

Free (F0)

従量課金制: 使用した分だけお支払いください。

コミットメントレベル – Azure - Standard

コミットメントレベル – 接続されたコンテナー

コミットメントレベル – 切断されたコンテナー

非推奨

Azure の価格および購入オプション

Microsoft と直接つながる

購入方法を見る

その他の資料

Azure AI Speech

料金計算ツール

ドキュメント

よく寄せられる質問

Azure AI Speech の価格

音声テキスト変換、テキスト読み上げ、音声翻訳のための統合音声サービス

価格オプションの詳細

Free (F0)

従量課金制: 使用した分だけお支払いください。

コミットメント レベル – Azure - Standard

コミットメントレベル – 接続されたコンテナー

コミットメントレベル – 切断されたコンテナー

非推奨

Azure の価格および購入オプション

Microsoft と直接つながる

購入方法を見る

その他の資料

Azure AI Speech

料金計算ツール

ドキュメント

よく寄せられる質問

コミットメントレベル – Azure - Standard