音声テキスト変換、テキスト読み上げ、音声翻訳のための統合音声サービス
一元化された Speech Services は、音声の文字起こし、テキスト読み上げ、音声翻訳、話者認識など、音声認識と生成の機能を幅広く提供しています。
価格オプションの詳細
フィルターを適用して、価格オプションをお客様のニーズに合わせてカスタマイズします。
価格は見積もりのみで、実際の価格見積もりとして意図されていません。実際の価格は、Microsoft との契約の種類、購入日、為替レートによって異なる場合があります。価格は米ドルに基づいて計算され、前月の最後の営業日前の 2 営業日に捕捉されたロンドン市場の引け値レートを使用して変換されます。月末までの 2 営業日が主要市場の銀行休日に該当する場合、通常、レート設定日は 2 営業日の直前の日です。このレートは、今後 1 か月間のすべてのトランザクションに適用されます。Azure 料金計算ツールにサインインして、Microsoft の現在のプログラムまたはオファーに基づく価格を確認します。価格の詳細については、Azure 営業担当者にお問い合わせいただくか、価格見積もりを要求してください。Azure の価格についてはよく寄せられる質問を参照してください。
米国政府機関は、ライセンス ソリューション プロバイダーから、Azure Government サービスを購入できます。その際、事前の料金契約なしで、または従量課金制のオンライン サブスクリプションで直接ご購入いただけます。
重要 - R$ で示されている料金は参照用のみです。これは国際取引のため、最終料金は為替レートと IOF 税により変更される場合があります。eNF は発行されません。
米国政府機関は、ライセンス ソリューション プロバイダーから、Azure Government サービスを購入できます。その際、事前の料金契約なしで、または従量課金制のオンライン サブスクリプションで直接ご購入いただけます。
重要 - R$ で示されている料金は参照用のみです。これは国際取引のため、最終料金は為替レートと IOF 税により変更される場合があります。eNF は発行されません。
Free (F0)
カテゴリ | 機能 | 料金 |
---|---|---|
Speech to Text (1 秒あたりの請求) |
標準 | 1 か月あたり 5 音声時間は無料3 |
カスタム |
1 か月あたり 5 音声時間は無料3 エンドポイント ホスティング: 1 か月あたり 1 モデルまで無料1 |
|
会話の文字起こしのマルチチャネル オーディオ プレビュー | 1 か月あたり 5 音声時間は無料 | |
Text to Speech (文字ごとの請求) |
ニューラル | 1 か月あたり 0.5 million 文字まで無料 |
Speech Translation (1 秒あたりの請求) |
標準 | 1 か月あたり 5 音声時間は無料 |
Speaker Recognition (トランザクションごとの請求) |
話者認証2 | 10,000 無料トランザクション / 月 |
話者識別2 | 10,000 無料トランザクション / 月 | |
音声プロファイル ストレージ | 10,000 無料トランザクション / 月 |
従量課金制: 使用した分だけお支払いください。
カテゴリ | 料金 | |
---|---|---|
Speech to Text (1 秒あたりの請求) |
標準 |
リアルタイム トランスクリプション: 1 時間あたりの $- ファスト トランスクリプションプレビュー: 1 時間あたりの $-9 バッチ トランスクリプション: 1 時間あたりの $-1 |
カスタム |
リアルタイム トランスクリプション: 1 時間あたりの $- バッチ トランスクリプション: 1 時間あたりの $-1 エンドポイント ホスティング: 1 モデル、1 時間あたり $- Custom Speech トレーニング5: コンピューティング時間あたり $- |
|
強化されたアドオン機能:
|
リアルタイム: 機能ごと時間あたりの $- バッチ (継続的n言語識別、ダイアライゼーション): 標準/カスタムに含まれる (追加料金なし) |
|
会話の文字起こしのマルチチャネル オーディオ プレビュー | 1 時間あたりの $-2 | |
Speech Translation (1 秒あたりの請求) |
リアルタイム音声翻訳 | 音声時間あたり $-3 |
ビデオ翻訳プレビュー |
バッチ: 出力ビデオ 1 分ごとの $- コンテンツの編集: 出力ビデオ 1 分ごとの $- パーソナル音声: 出力ビデオ 1 分ごとの $- |
|
テキスト読み上げ8 | 標準音声 |
ニューラル: 1,000,000 文字あたり $- ニューラル HD4: 1,000,000 文字あたり $- |
Custom Voice |
プロフェッショナル音声:
合成: 100 万文字あたり $-
音声モデル トレーニング: コンピューティング時間あたり $-、最大 トレーニングあたり $- エンドポイント ホスティング: 1 モデル、1 時間あたり $- |
|
パーソナル音声6:
合成: 100 万文字あたり $-
音声の作成: 無料 音声プロファイル ストレージ: 1,000 音声プロファイルあたり月額 $- |
||
強化されたアドオン機能: アバター | 標準: $-/分 | |
カスタム:
リアルタイム合成: 1 分あたり $-
バッチ合成: 1 分あたり $- エンドポイント ホスティング: 1 時間あたり、モデルあたり $- |
||
Speaker Recognition (トランザクションごとの請求) |
話者認証7 | $-/1,000 トランザクション |
話者識別7 | $-/1,000 トランザクション | |
音声プロファイル ストレージ | 1,000 音声プロファイルあたり $- (1 か月あたり 10,000 の無料の音声プロファイル) |
コミットメント レベル – Azure - Standard
カテゴリ | 機能 | 月額 | 超過分 |
---|---|---|---|
音声テキスト変換 | 標準 | 2,000 時間で $- | $- / 時間 |
10,000 時間で $- | $- / 時間 | ||
50,000 時間で $- | $- / 時間 | ||
カスタム | 2,000 時間で $- | $- / 時間 | |
10,000 時間で $- | $- / 時間 | ||
50,000 時間で $- | $- / 時間 | ||
強化されたアドオン機能:2
|
2,000 時間で $- | $- / 時間 | |
10,000 時間で $- | $- / 時間 | ||
50,000 時間で $- | $- / 時間 | ||
テキスト読み上げ | ニューラル1 | 8000 万文字で $- | 100 万文字あたり $- |
40000 万文字で $- | 100 万文字あたり $- | ||
2,00000 万文字で $- | 100 万文字あたり $- |
1リアルタイム合成のみ。これには長いオーディオ作成は含まれません。
2リアルタイム音声テキスト変換のみ、バッチ音声テキスト変換に含まれる継続的言語識別およびダイアライゼーション アドオン機能。
コミットメントレベル – 接続されたコンテナー
カテゴリ | 機能 | 月額 | 超過分 |
---|---|---|---|
音声テキスト変換2 | 標準 | 2,000 時間で $- | $- / 時間 |
10,000 時間で $- | $- / 時間 | ||
50,000 時間で $- | $- / 時間 | ||
カスタム | 2,000 時間で $- | $- / 時間 | |
10,000 時間で $- | $- / 時間 | ||
50,000 時間で $- | $- / 時間 | ||
強化されたアドオン機能:2
|
2,000 時間で $- | $- / 時間 | |
10,000 時間で $- | $- / 時間 | ||
50,000 時間で $- | $- / 時間 | ||
テキスト読み上げ | ニューラル1 | 8000 万文字で $- | 100 万文字あたり $- |
40000 万文字で $- | 100 万文字あたり $- | ||
2,00000 万文字で $- | 100 万文字あたり $- |
1リアルタイム合成のみ。これには長いオーディオ作成は含まれません。
2価格は、リアルタイムとバッチのユース ケースに適用されます。コンテナーには個別のバッチ価格はありません。
コミットメント レベルの詳細については、ドキュメント を参照してください。
カテゴリ | 機能 | 価格 (年単位) | 最大使用量 (1 年あたり) | 予想される使用量 (1 か月あたり) |
---|---|---|---|---|
音声テキスト変換2 | 標準 |
$-
$- サインアップしてアクセスを取得する 詳しく見る |
120,000 時間
600,000 時間 |
10,000 時間
50,000 時間 |
カスタム |
$-
$- サインアップしてアクセスを取得する 詳しく見る |
120,000 時間
600,000 時間 |
10,000 時間
50,000 時間 |
|
強化されたアドオン機能:
|
$-
$- |
120,000 時間
600,000 時間 |
10,000 時間
50,000 時間 |
|
テキスト読み上げ | ニューラル1 |
$-
$- サインアップしてアクセスを取得する 詳しく見る |
4.8B 文字
24B 文字 |
400M 文字
2,000M 文字 |
1リアルタイム合成のみ。これには長いオーディオ作成は含まれません。
2価格は、リアルタイムとバッチのユース ケースに適用されます。コンテナーには個別のバッチ価格はありません。
これらの機能は非推奨とされ、既存のお客様のみが使用できます。 詳細を確認し、新機能に移行する方法を確認してください。
インスタンス | カテゴリ | 機能 | 料金 |
---|---|---|---|
Free - Web/コンテナー 1 個の同時要求 |
テキスト読み上げ | 標準 | 1 か月あたり 5 million 文字まで無料 |
カスタム |
1 か月あたり 5 million 文字まで無料 エンドポイント ホスティング: 1 か月あたり 1 モデルまで無料 |
||
Standard - Web/コンテナー 基本モデルに対する 100 の同時要求 カスタム モデルに対する 20 の同時要求 |
テキスト読み上げ | 標準 | 1,000,000 文字あたり $- |
カスタム |
1,000,000 文字あたり $- エンドポイント ホスティング: 1 モデル、1 時間あたり $- |
Azure の価格および購入オプション
Microsoft と直接つながる
Azure の価格のチュートリアルをご覧ください。お客様のクラウド ソリューションの価格について理解したり、コストの最適化について確認したり、カスタム提案を要求したりすることができます。
営業担当者に問い合わせるその他の資料
Azure AI Speech
Azure AI Speech の特徴と機能についての詳細情報
料金計算ツール
Azure 製品の任意の組み合わせを使用する場合の推定の月間コストを見積もります。
ドキュメント
技術チュートリアル、ビデオ、その他の Azure AI Speech のリソースをご確認ください。
よく寄せられる質問
-
- Speech to TextとSpeech Translationの場合、使用量は 1 秒の増分単位で課金されます。
- Text to Speechの場合: 使用量は文字ごとに課金されます。価格ノートの文字の定義を確認します。
- カスタム ニューラル音声ホスティングの場合: 使用量はエンドポイントごとに 1 秒単位で課金されます。「価格に関する注意」で詳細を確認してください。
- パーソナル音声プロファイル ストレージの場合: 使用量は音声プロファイルごとに 1 日単位で課金されます。「価格に関する注意」で詳細を確認してください。
- テキスト読み上げアバターの場合、使用量は 1 秒単位で課金されます。
- 音声テキスト変換とテキスト読み上げ (アバターを含む) の場合、カスタム モデルのエンドポイント ホスティングは、モデルごとに 1 秒単位で課金されます。
-
Speech Servicesでは、ユーザーの音響データと言語データに基づいてベースラインとなるモデルを調整し、音声テキスト変換と音声翻訳のどちらにも使えるカスタム音声モデルを作成できます。
-
言語モデルは、一連の単語における確率分布を表すものです。言語モデルにより、一連の単語の中から、単語系列自体の確率に基づいて音が似ている単語を選択できます。たとえば、“recognize speech” と “wreck a nice beach” の音は似ていますが、前者の仮定の発生確率の方がはるかに大きいため、言語モデルが付けるスコアは大きくなります。アプリケーションに対する音声クエリに、通常の音声ではめったに使われない製品名や専門用語などの特定の語彙が含まれると予想される場合は、言語モデルをカスタマイズすることでパフォーマンスの改善を実現できる可能性があります。たとえば、音声により MSDN を検索するアプリを作成する場合、通常の音声アプリケーションよりも “オブジェクト指向” や “名前空間”、“Dot Net” などの用語が使われる可能性は高いと考えられます。言語モデルのカスタマイズにより、システムにこうした状況を学習させることができます。
-
音響モデルとは、音声の短い断片を各言語のいくつかの音素、つまり音声単位に分類する分類器です。分類後、これらの音声をつなぎ合わせて語句にすることができます。たとえば、“speech” という単語は “s p iy ch” という 4 つの音素で構成されています。こうした分類は、1 秒あたり 100 回程度行われます。音響モデルをカスタマイズすることでシステムを学習し、特殊な環境における音声をより良く認識させることができます。たとえば、倉庫や工場の作業者用に設計したアプリがある場合、音響モデルをカスタマイズして、こうした環境で発生する騒音の中で音声をより正確に認識することができます。
-
Speech サービスにはさまざまなテキスト読み上げ (TTS) 音声フォントが用意されていますが、カスタム ニューラル音声を使用すると、お客様のニーズやブランドに合ったお客様独自のカスタム音声を構築することができます。詳細についてはブログ記事をご覧ください。
-
言語の切り替えを識別し、それに応じて音声を文字起こしできます。これは、オーディオ言語が不明なシナリオや、話者が複数の言語を話す場合に適用できます。単一言語識別は追加料金なしで利用できます。継続的言語識別は、強化されたアドオン機能です。詳細については、ドキュメントを参照してください。
-
- 発音評価では、音声の発音を評価し、話者に音声の正確さと流暢さに関するフィードバックを提供します。発音評価を使用すると、語学学習者は練習し、即座にフィードバックを得て、自信を持って話したり発表したりできるように発音を改善することができます。教育者は、複数の話者の発音をリアルタイムで評価する機能を使用できます。詳細については、ドキュメントをご覧ください。
- 標準の Speech to Text として課金されます。例:
8 秒のスピーチの評価の場合、約 $- の料金がかかります
Azure の価格の説明については、営業担当者にお問い合わせください。クラウド ソリューションの価格を把握できます。
無料のクラウド サービスと、30 日間 Azure を検証できる $200 のクレジットを利用できます。