音声テキスト変換、テキスト読み上げ、音声翻訳のための統合音声サービス
一元化された Speech Services は、音声の文字起こし、テキスト読み上げ、音声翻訳、話者認識など、音声認識と生成の機能を幅広く提供しています。
価格オプションの詳細
フィルターを適用して、価格オプションをお客様のニーズに合わせてカスタマイズします。
価格は見積もりのみで、実際の価格見積もりとして意図されていません。実際の価格は、Microsoft との契約の種類、購入日、為替レートによって異なる場合があります。価格は米ドルに基づいて計算され、前月の最後の営業日前の 2 営業日に捕捉されたロンドン市場の引け値レートを使用して変換されます。月末までの 2 営業日が主要市場の銀行休日に該当する場合、通常、レート設定日は 2 営業日の直前の日です。このレートは、今後 1 か月間のすべてのトランザクションに適用されます。Azure 料金計算ツールにサインインして、Microsoft の現在のプログラムまたはオファーに基づく価格を確認します。価格の詳細については、Azure 営業担当者にお問い合わせいただくか、価格見積もりを要求してください。Azure の価格についてはよく寄せられる質問を参照してください。
米国政府機関は、ライセンス ソリューション プロバイダーから、Azure Government サービスを購入できます。その際、事前の料金契約なしで、または従量課金制のオンライン サブスクリプションで直接ご購入いただけます。
重要 - R$ で示されている料金は参照用のみです。これは国際取引のため、最終料金は為替レートと IOF 税により変更される場合があります。eNF は発行されません。
米国政府機関は、ライセンス ソリューション プロバイダーから、Azure Government サービスを購入できます。その際、事前の料金契約なしで、または従量課金制のオンライン サブスクリプションで直接ご購入いただけます。
重要 - R$ で示されている料金は参照用のみです。これは国際取引のため、最終料金は為替レートと IOF 税により変更される場合があります。eNF は発行されません。
Free (F0)
| カテゴリ | 機能 | 料金 | 
|---|---|---|
| Speech to Text (1 秒あたりの請求) | 標準 | 1 か月あたり 5 音声時間は無料3 | 
| カスタム | 1 か月あたり 5 音声時間は無料3 エンドポイント ホスティング: 1 か月あたり 1 モデルまで無料1 | |
| 会話の文字起こしのマルチチャネル オーディオ プレビュー | 1 か月あたり 5 音声時間は無料 | |
| Text to Speech (文字ごとの請求) | ニューラル | 1 か月あたり 0.5 million 文字まで無料 | 
| Speech Translation (1 秒あたりの請求) | 標準 | 1 か月あたり 5 音声時間は無料 | 
| Speaker Recognition (トランザクションごとの請求) | 話者認証2 | 10,000 無料トランザクション / 月 | 
| 話者識別2 | 10,000 無料トランザクション / 月 | |
| 音声プロファイル ストレージ | 10,000 無料トランザクション / 月 | 
See the documentation for information on quotas, limits and instructions on how to increase concurrent requests.
1未使用のモデルは、7 日後に自動的に使用停止状態になります。
2Speaker Recognition is a limited access feature with a need to apply for access.
3音声テキスト変換の無料音声時間は標準とカスタムの間で共有されます。バッチはサポートされていません。
従量課金制: 使用した分だけお支払いください。
| カテゴリ | 料金 | |
|---|---|---|
| Voice Live Pro (m 単位のトークン請求)VL1 | テキスト | 入力: $- キャッシュされた入力: $- 出力: $- | 
| Azure AI 音声を使用したオーディオ - Standard | 入力: $- キャッシュされた入力: $- 出力: $- | |
| Azure AI 音声を使用したオーディオ - カスタムVL2 | 出力: $- | |
| GPT-4o-Realtime を使用したネイティブ オーディオ | 入力: $- キャッシュされた入力: $- 出力: $- | |
| Voice Live Basic (m 単位のトークン課金)VL1 | テキスト | 入力: $- キャッシュされた入力: $- 出力: $- | 
| Azure AI 音声を使用したオーディオ - Standard | 入力: $- キャッシュされた入力: $- 出力: $- | |
| Azure AI 音声を使用したオーディオ - カスタムVL2 | 出力: $- | |
| GPT-4o Mini-Realtime を使用したネイティブ オーディオ | 入力: $- キャッシュされた入力: $- 出力: $- | |
| Voice Live Lite (m 単位のトークン課金)VL1 | テキスト | 入力: $- キャッシュされた入力: $- 出力: $- | 
| Azure AI 音声を使用したオーディオ - Standard | 入力: $- キャッシュされた入力: $- 出力: $- | |
| Azure AI 音声を使用したオーディオ - カスタムVL2 | 出力: $- | |
| Phi-MM を使用したネイティブ オーディオ | 入力: $- キャッシュされた入力: $- | |
| Speech to Text (1 秒あたりの請求) | 標準文字起こし | リアルタイム トランスクリプション: 1 時間あたりの $- ファスト トランスクリプション: 1 時間あたりの $-9 バッチ トランスクリプション: 1 時間あたりの $-1 | 
| カスタム文字起こし | リアルタイム トランスクリプション: 1 時間あたりの $- バッチ トランスクリプション: 1 時間あたりの $-1 エンドポイント ホスティング: 1 モデル、1 時間あたり $- Custom Speech トレーニング5: コンピューティング時間あたり $- | |
| 強化されたアドオン機能: 
 | リアルタイム: 機能ごと時間あたりの $- バッチ (継続的n言語識別、ダイアライゼーション): 標準/カスタムに含まれる (追加料金なし) | |
| 会話の文字起こしのマルチチャネル オーディオ プレビュー | 1 時間あたりの $-2 | |
| Speech Translation (1 秒あたりの請求) | リアルタイム音声翻訳 | 音声時間あたり $-3 | 
| Live Interpreter | Input audio: 音声時間あたり $- Output text: 1,000,000 文字あたり $- Output audio (Standard voice): $- per audio hourLI Output audio (Custom voice): $- per audio hourLI | |
| ビデオ翻訳 | 入力ビデオ: 1 時間あたりの $- 出力ビデオ (標準音声): 1 時間あたりの $- 出力ビデオ (個人音声): 1 時間あたりの $- | |
| テキスト読み上げ8 | 標準音声 | ニューラル (リアルタイムとバッチ): 1,000,000 文字あたり $- ニューラル HD (リアルタイムとバッチ)4: 1,000,000 文字あたり $- | 
| Custom Voice | プロフェッショナル音声: 
                                合成 (リアルタイムおよびバッチ): 100 万文字あたり $-  合成 (ニューラル HD リアルタイムおよびバッチ): 100 万文字あたり $- 音声モデル トレーニング: コンピューティング時間あたり $-、最大 トレーニングあたり $- エンドポイント ホスティング: 1 モデル、1 時間あたり $- | |
| パーソナル音声6: 
                                合成 (リアルタイムおよびバッチ): 100 万文字あたり $- 音声の作成: 無料 音声プロファイル ストレージ: 1,000 音声プロファイルあたり月額 $- | ||
| 強化されたアドオン機能: アバター | 標準: 
                                対話型アバター (リアルタイム): 1 分あたり $-  対話型 4K アバター (リアルタイム): 1 分あたり $- アバター ビデオ (バッチ): 1 分あたり $- 4K アバター ビデオ (バッチ): 1 分あたり $- | |
| カスタム: 
                                アバター モデルのトレーニング: コンピューティング時間あたり $-  対話型アバター (リアルタイム): 1 分あたり $- 対話型 4K アバター (リアルタイム): 1 分あたり $- アバター ビデオ (バッチ): 1 分あたり $- 4K アバター ビデオ (バッチ): 1 分あたり $- エンドポイント ホスティング: 1 時間あたり、モデルあたり $- | ||
| Speaker Recognition (トランザクションごとの請求) | 話者認証7 | $-/1,000 トランザクション | 
| 話者識別7 | $-/1,000 トランザクション | |
| 音声プロファイル ストレージ | 1,000 音声プロファイルあたり $- (1 か月あたり 10,000 の無料の音声プロファイル) | |
See the documentation for information on quotas, limits and instructions on how to increase concurrent requests.
音声テキスト変換時間は、サービスに送信された音声の時間として計測され、秒単位で課金されます。
1To take advantage of this new Batch Transcription pricing you need to use Speech to text REST API V3.2 or later versions. See Speech to text REST API for information.
2これにはパブリック プレビュー価格が反映されます。
3This price includes 1 audio input and output, up to 2 text translation language using standard or custom Speech to Text and standard Translation. For custom Translation or 3+ translation languages, please reference the Azure AI Translator Text Translation pricing page.
4Selected text to speech voices are available via two model variants: Neural and NeuralHD. Learn more here.
5Custom Speech トレーニングは、2023 年 10 月 1 日以降にリリースされた基本モデルをカスタマイズするときに適用されます。
6Personal Voice is a limited access feature restricted to certain pre-approved use cases only, with a need to applying for access. To learn more about the service, check the document.
7Speaker Recognition is a limited access feature with a need to apply for access.
8テキスト読み上げ: 音声合成の使用量は文字ごとに課金されます。アバターは秒ごとに課金されます。トレーニングとモデルのホスティングは秒ごとに課金されます。
9To use Fast Transcription you need to use Speech to text REST API 2024-05-15-preview or later versions. See Speech to text REST API for information.
VL1With Voice Live Plus, developers can choose from LLMs such as GPT-4o-Realtime, GPT-4o and GPT-4.1 models. With Voice Live Basic, developers can choose from smaller LLMs such as GPT-4o-Mini-Realtime, GPT-4o Mini and GPT-4.1 Mini models. With Voice Live Lite, developers can choose from SLMs and equivalent models such as GPT-4.1 Nano and Phi models. To learn more how Voice Live API pricing works, click here.
VL2You will be charged separately for custom voice model training and hosting. Refer to the ‘Text to Speech – Custom Voice – Professional’ pricing for details. Custom voice is a limited access feature. Learn more about how to create custom voices.
LIThis price includes text output
コミットメント レベル – Azure - Standard
| カテゴリ | 機能 | 月額 | 超過分 | 
|---|---|---|---|
| 音声テキスト変換 | 標準 | 2,000 時間で $- | $- / 時間 | 
| 10,000 時間で $- | $- / 時間 | ||
| 50,000 時間で $- | $- / 時間 | ||
| カスタム | 2,000 時間で $- | $- / 時間 | |
| 10,000 時間で $- | $- / 時間 | ||
| 50,000 時間で $- | $- / 時間 | ||
| 強化されたアドオン機能:2 
 | 2,000 時間で $- | $- / 時間 | |
| 10,000 時間で $- | $- / 時間 | ||
| 50,000 時間で $- | $- / 時間 | ||
| テキスト読み上げ | ニューラル1 | 8000 万文字で $- | 100 万文字あたり $- | 
| 40000 万文字で $- | 100 万文字あたり $- | ||
| 2,00000 万文字で $- | 100 万文字あたり $- | 
1これには、事前構築済みの非 HD および非 AOAI ニューラル音声を使用したリアルタイム合成とバッチ合成の両方が含まれます。HD 音声、AOAI 音声、カスタム ニューラル音声、パーソナル音声は含まれていません。
2リアルタイム音声テキスト変換のみ、バッチ音声テキスト変換に含まれる継続的言語識別およびダイアライゼーション アドオン機能。
コミットメントレベル – 接続されたコンテナー
| カテゴリ | 機能 | 月額 | 超過分 | 
|---|---|---|---|
| 音声テキスト変換2 | 標準 | 2,000 時間で $- | $- / 時間 | 
| 10,000 時間で $- | $- / 時間 | ||
| 50,000 時間で $- | $- / 時間 | ||
| カスタム | 2,000 時間で $- | $- / 時間 | |
| 10,000 時間で $- | $- / 時間 | ||
| 50,000 時間で $- | $- / 時間 | ||
| 強化されたアドオン機能:2 
 | 2,000 時間で $- | $- / 時間 | |
| 10,000 時間で $- | $- / 時間 | ||
| 50,000 時間で $- | $- / 時間 | ||
| テキスト読み上げ | ニューラル1 | 8000 万文字で $- | 100 万文字あたり $- | 
| 40000 万文字で $- | 100 万文字あたり $- | ||
| 2,00000 万文字で $- | 100 万文字あたり $- | 
1これには、事前構築済みの非 HD および非 AOAI ニューラル音声を使用したリアルタイム合成が含まれます。HD 音声、AOAI 音声、カスタム音声 (プロフェッショナルボイスとパーソナル音声の両方) は含まれません。バッチ合成は含まれていません。
2価格は、リアルタイムとバッチのユース ケースに適用されます。コンテナーには個別のバッチ価格はありません。
See the documentation for information on Commitment tiers.
コミットメントレベル – 切断されたコンテナー
Sign up to access speech in disconnected containers, or learn more
| カテゴリ | 機能 | 価格 (年単位) | 最大使用量 (1 年あたり) | 予想される使用量 (1 か月あたり) | 
|---|---|---|---|---|
| 音声テキスト変換2 | 標準 | $- $- サインアップしてアクセスを取得する 詳しく見る | 120,000 時間 600,000 時間 | 10,000 時間 50,000 時間 | 
| カスタム | $- $- サインアップしてアクセスを取得する 詳しく見る | 120,000 時間 600,000 時間 | 10,000 時間 50,000 時間 | |
| 強化されたアドオン機能: 
 | $- $- | 120,000 時間 600,000 時間 | 10,000 時間 50,000 時間 | |
| テキスト読み上げ | ニューラル1 | $- $- サインアップしてアクセスを取得する 詳しく見る | 4.8B 文字 24B 文字 | 400M 文字 2,000M 文字 | 
1これには、事前構築済みの非 HD および非 AOAI ニューラル音声を使用したリアルタイム合成が含まれます。HD 音声、AOAI 音声、カスタム音声 (プロフェッショナルボイスとパーソナル音声の両方) は含まれません。バッチ合成は含まれていません。
2価格は、リアルタイムとバッチのユース ケースに適用されます。コンテナーには個別のバッチ価格はありません。
これらの機能は非推奨とされ、既存のお客様のみが使用できます。 詳細を確認し、新機能に移行する方法を確認してください。
| インスタンス | カテゴリ | 機能 | 料金 | 
|---|---|---|---|
| Free - Web/コンテナー 1 個の同時要求 | テキスト読み上げ | 標準 | 1 か月あたり 5 million 文字まで無料 | 
| カスタム | 1 か月あたり 5 million 文字まで無料 エンドポイント ホスティング: 1 か月あたり 1 モデルまで無料 | ||
| Standard - Web/コンテナー 基本モデルに対する 100 の同時要求 カスタム モデルに対する 20 の同時要求 | テキスト読み上げ | 標準 | 1,000,000 文字あたり $- | 
| カスタム | 1,000,000 文字あたり $- エンドポイント ホスティング: 1 モデル、1 時間あたり $- | 
Azure の価格および購入オプション
 
                
            Microsoft と直接つながる
Azure の価格のチュートリアルをご覧ください。お客様のクラウド ソリューションの価格について理解したり、コストの最適化について確認したり、カスタム提案を要求したりすることができます。
営業担当者に問い合わせるその他の資料
Azure AI Speech
Azure AI Speech の特徴と機能についての詳細情報
料金計算ツール
Azure 製品の任意の組み合わせを使用する場合の推定の月間コストを見積もります。
ドキュメント
技術チュートリアル、ビデオ、その他の Azure AI Speech のリソースをご確認ください。
よく寄せられる質問
- 
            
            - Speech to TextとSpeech Translationの場合、使用量は 1 秒の増分単位で課金されます。
- For Text to Speech: usage is billed per character. Check the definition of character in the pricing note.
- For custom neural voice hosting: usage is billed per endpoint per second. Check details in the pricing note.
- For personal voice profile storage: usage is billed per voice profile per day. Check details in the pricing note.
- テキスト読み上げアバターの場合、使用量は 1 秒単位で課金されます。
- 音声テキスト変換とテキスト読み上げ (アバターを含む) の場合、カスタム モデルのエンドポイント ホスティングは、モデルごとに 1 秒単位で課金されます。
 
- 
            
            Speech Servicesでは、ユーザーの音響データと言語データに基づいてベースラインとなるモデルを調整し、音声テキスト変換と音声翻訳のどちらにも使えるカスタム音声モデルを作成できます。 
- 
            
            言語モデルは、一連の単語における確率分布を表すものです。言語モデルにより、一連の単語の中から、単語系列自体の確率に基づいて音が似ている単語を選択できます。たとえば、“recognize speech” と “wreck a nice beach” の音は似ていますが、前者の仮定の発生確率の方がはるかに大きいため、言語モデルが付けるスコアは大きくなります。アプリケーションに対する音声クエリに、通常の音声ではめったに使われない製品名や専門用語などの特定の語彙が含まれると予想される場合は、言語モデルをカスタマイズすることでパフォーマンスの改善を実現できる可能性があります。たとえば、音声により MSDN を検索するアプリを作成する場合、通常の音声アプリケーションよりも “オブジェクト指向” や “名前空間”、“Dot Net” などの用語が使われる可能性は高いと考えられます。言語モデルのカスタマイズにより、システムにこうした状況を学習させることができます。 
- 
            
            音響モデルとは、音声の短い断片を各言語のいくつかの音素、つまり音声単位に分類する分類器です。分類後、これらの音声をつなぎ合わせて語句にすることができます。たとえば、“speech” という単語は “s p iy ch” という 4 つの音素で構成されています。こうした分類は、1 秒あたり 100 回程度行われます。音響モデルをカスタマイズすることでシステムを学習し、特殊な環境における音声をより良く認識させることができます。たとえば、倉庫や工場の作業者用に設計したアプリがある場合、音響モデルをカスタマイズして、こうした環境で発生する騒音の中で音声をより正確に認識することができます。 
- 
            
            Speech service offers a wide range of text-to-speech (TTS) voice fonts, however custom neural voice allows you to build your own custom voice that suits your needs and your brand. Read the blog for more information. 
- 
            
            Language identification allows you to identify a switch in spoken language and transcribe speech accordingly. This can be applied in scenarios where the audio language is unknown, or when speaker(s) may speak multiple languages. Single Language Identification is available at no additional cost. Continuous Language Identification is an enhanced add-on feature. Visit docs to learn more. 
- 
            
            - Pronunciation assessment evaluates speech pronunciation and gives speakers feedback on the accuracy and fluency of spoken audio. With pronunciation assessment, language learners can practice, get instant feedback, and improve their pronunciation so that they can speak and present with confidence. Educators can use the capability to evaluate pronunciation of multiple speakers in real time. Visit docs to learn more.
- It is charged as standard Speech to Text, example:
 For evaluation of 8 seconds of speech, you will be charged around $-
 
Azure の価格の説明については、営業担当者にお問い合わせください。クラウド ソリューションの価格を把握できます。
無料のクラウド サービスと、30 日間 Azure を検証できる $200 のクレジットを利用できます。
