Cognitive Services の価格—Speech Services

インテリジェンス API を使用して、視覚、言語、検索機能を有効にします。

一元化された Speech Services では、音声の文字起こし、テキスト読み上げ、音声翻訳など、音声認識と生成の機能を幅広く提供しています。

価格の詳細

ニューラル テキスト読み上げが一般提供されました。表示されている価格は GA の価格であり、2019 年 7 月 1 日から適用されます。2019 年 6 月 30 日まで、50% 割引で課金されます。

音声コンテナーはパブリック プレビュー段階です。

インスタンス Category 機能 料金
Free - Web/コンテナー
1 個の同時要求1
Speech to Text Standard 1 か月あたり 5 音声時間は無料
Custom 1 か月あたり 5 音声時間は無料
Endpoint hosting: 1 か月あたり 1 モデルまで無料 2
会話の文字起こしのマルチチャネル オーディオ プレビュー 3 1 か月あたり 5 音声時間は無料
Text to Speech Standard 1 か月あたり 5 百万文字まで無料
ニューラル 1 か月あたり 0.5 百万文字まで無料
Custom 1 か月あたり 5 百万文字まで無料
Endpoint hosting: 1 か月あたり 1 モデルまで無料
Speech Translation Standard 1 か月あたり 5 音声時間は無料
Standard - Web/コンテナー
20 個の同時要求 1
Speech to Text Standard 音声時間あたり $-
Custom 音声時間あたり $-
Endpoint hosting: $- per model per hour
会話の文字起こしのマルチチャネル オーディオ プレビュー 3 音声時間あたり $- 4
Text to Speech Standard 1,000,000 文字あたり $-
ニューラル 1,000,000 文字あたり $- 5
Custom 1,000,000 文字あたり $-
Endpoint hosting: $-1 モデル、1 か月あたり
Custom Neural プレビュー 6 Real-time synthesis: 1,000,000 文字あたり $-
Voice building: contact us
Endpoint hosting: $- per model per hour
Long audio creation: 1,000,000 文字あたり $-
Speech Translation Standard 音声時間あたり $-

1Web エンドポイントにのみ適用される同時要求数。

2未使用のモデルは、7 日後に自動的に使用停止状態になります。

3会話の文字起こしのマルチチャネルでは、円形のマイク配列デバイスが推奨されます。詳細については、Microsoft Speech Device SDK を参照してください。

4これにはパブリック プレビュー価格が適用されます。一般提供価格は一般提供の際に発表されます。

5表示されている価格は GA の価格であり、2019 年 7 月 1 日から適用されます。2019 年 6 月 30 日まで、Neural TTS は 50% 割引で課金されます。ニューラル テキスト読み上げを利用できるリージョンについては、ニューラル ドキュメントをご確認ください。

6The Custom Neural Voice capability is in gated preview. Learn more about the gating process.

サポートおよび SLA

  • 請求およびサブスクリプション管理サポート (無償) が含まれます。
  • Cognitive Services については、Standard レベルでの実行時に 99.9 パーセントの可用性が保証されます。無料試用版では SLA は提供されません。SLA を参照してください

FAQ

    • 音声翻訳、音声テキスト変換、およびカスタム音声モデルを使った音声テキスト変換の場合: 1 秒単位で課金されます
    • テキスト読み上げおよびカスタム音声フォントを使ったテキスト読み上げの場合: 1 文字単位で課金されます
    • カスタム音声モデルのホスティングの場合は 1 時間ごと、カスタム音声フォントのホスティングの場合は 1 日単位で課金されます。
  • Speech Servicesでは、ユーザーの音響データと言語データに基づいてベースラインとなるモデルを調整し、音声テキスト変換と音声翻訳のどちらにも使えるカスタム音声モデルを作成できます。

  • 言語モデルは、一連の単語における確率分布を表すものです。言語モデルにより、一連の単語の中から、単語系列自体の確率に基づいて音が似ている単語を選択できます。たとえば、“recognize speech” と “wreck a nice beach” の音は似ていますが、前者の仮定の発生確率の方がはるかに大きいため、言語モデルが付けるスコアは大きくなります。アプリケーションに対する音声クエリに、通常の音声ではめったに使われない製品名や専門用語などの特定の語彙が含まれると予想される場合は、言語モデルをカスタマイズすることでパフォーマンスの改善を実現できる可能性があります。たとえば、音声により MSDN を検索するアプリを作成する場合、通常の音声アプリケーションよりも “オブジェクト指向” や “名前空間”、“Dot Net” などの用語が使われる可能性は高いと考えられます。言語モデルのカスタマイズにより、システムにこうした状況を学習させることができます。

  • 音響モデルとは、音声の短い断片を各言語のいくつかの音素、つまり音声単位に分類する分類器です。分類後、これらの音声をつなぎ合わせて語句にすることができます。たとえば、“speech” という単語は “s p iy ch” という 4 つの音素で構成されています。こうした分類は、1 秒あたり 100 回程度行われます。音響モデルをカスタマイズすることでシステムを学習し、特殊な環境における音声をより良く認識させることができます。たとえば、倉庫や工場の作業者用に設計したアプリがある場合、音響モデルをカスタマイズして、こうした環境で発生する騒音の中で音声をより正確に認識することができます。

  • Microsoft のSpeech Servicesビスでは、既定の音声 (音声フォント) が 70 種類以上用意されており、40 以上の言語でテキストを音声に変換できます。もっとも、バーチャル アシスタントをはじめ、音声認識を使用するさまざまなアプリケーションが流行している現在では、自社のブランド アイデンティティに合わせて入念に設計した独自の音声を使用したいと考える企業が多いのも事実です。たとえば、カスタマー ケア サービスのためのチャット ボットを開発している場合であれば、自社のブランドを反映した独自の音声を関連付けることによって、お客様からの好感度を高めることができるでしょう。同じように、カーナビ ソフトウェアを開発している場合であれば、テキスト読み上げをさまざまなカスタム音声に対応させることによって、ユーザー エクスペリエンスを充実させることができます。

    Voice Studio (カスタム音声作成ポータル) では、このようなことが簡単に行なえます。独自のオーディオ データ (人間の声を録音したデータとそのスクリプト) を使えば、カスタム音声フォントを生成できます。生成したカスタム音声フォントは Microsoft のテキスト読み上げサービスにデプロイし、API エンドポイントを備えたアプリケーションに簡単にプラグインして利用できます。

リソース

Azure サービスの月額料金を概算できます。

Azure の価格についてよく寄せられる質問を見ることができます

Cognitive Servicesの詳細を表示します

技術チュートリアル、ビデオ、その他のリソースを確認します。

見積に追加されました。 計算ツールで表示するには 'v' を押してください

$200 のクレジットで学習と開発ができ、継続は無料です