Cognitive Services の価格 - Custom Speech Service プレビュー

視覚、音声、言語、ナレッジ機能を有効にするインテリジェンス API の使用

Custom Speech Service を使用すると、カスタムの音声認識モデルを作成して、アプリケーションに合わせてカスタマイズした音声テキスト変換エンドポイントにデプロイできます。Custom Speech Service の音声認識エンジンの言語モデルはカスタマイズ可能であり、アプリケーションのボキャブラリやユーザーの話し方を学習させることができます。また、音声認識エンジンの音響モデルをカスタマイズして、アプリケーションの対象となる環境やユーザーに、より適切に合わせることができます。

Model adaptation is free.

価格の詳細

カスタム モデル デプロイ 0-1 – 無料
1 モデルあたり 1+ - $-/月
モデルのカスタマイズ 無料
オフライン テスト 0-2 時間 – 無料
2+ - $-/時間
スケール アウト $-/unit/day where each unit allows you to send five concurrent requests
トレースなし 1 モデルあたり $-/月
要求料金 0-2 時間 – 無料
2+ - $-/時間

サポートおよび SLA

  • 請求およびサブスクリプション管理サポート (無償)
  • プレビュー サービスの技術サポートが必要ですか? フォーラムをご利用ください
  • Cognitive Services については、Standard レベルでの実行時に 99.9% の可用性が保証されます。Free レベルに対して、SLA は提供されません。SLA を参照する
  • プレビュー期間中は SLA は提供されません。詳細情報

FAQ

Custom Speech Service

  • レベル 1 では最大で 4 つの音声 (つまり 4 つの書き起こし) を同時に処理することができ、さらにリアルタイムの応答も可能です。ユーザーが 5 つ以上の音声を送信した場合、上限を超えた音声は拒否され、同時認識数が多すぎることを示すエラー コードとともに返されます。これは、12 件の同時書き起こしを処理可能なレベル 2 にも適用されます。Free レベルでは 1 件の同時書き起こしが可能です。このレベルでは、音声はリアルタイムでアップロードされると想定しています。音声が前倒しでアップロードされた場合、同時実行のため、音声の再生時間が終了するまで (認識結果はこれよりも早く返される場合がありますが) 要求は継続中のままとみなされます。

    注: さらに上の同時実行レベルが必要な場合はお問い合わせください

  • 言語モデルは、一連の単語における確率分布を表すものです。言語モデルにより、一連の単語の中から、単語系列自体の確率に基づいて音が似ている単語を選択できます。たとえば、“recognize speech” と “wreck a nice beach” の音は似ていますが、前者の仮定の発生確率の方がはるかに大きいため、言語モデルが付けるスコアは大きくなります。アプリケーションに対する音声クエリに、通常の音声ではめったに使われない製品名や専門用語などの特定の語彙が含まれると予想される場合は、言語モデルをカスタマイズすることでパフォーマンスの改善を実現できる可能性があります。たとえば、音声により MSDN を検索するアプリを作成する場合、通常の音声アプリケーションよりも “オブジェクト指向” や “名前空間”、“Dot Net” などの用語が使われる可能性は高いと考えられます。言語モデルのカスタマイズにより、システムにこうした状況を学習させることができます。

  • 音響モデルとは、音声の短い断片を各言語のいくつかの音素、つまり音声単位に分類する分類器です。分類後、これらの音声をつなぎ合わせて語句にすることができます。たとえば、“speech” という単語は “s p iy ch” という 4 つの音素で構成されています。こうした分類は、1 秒あたり 100 回程度行われます。音響モデルをカスタマイズすることでシステムを学習し、特殊な環境における音声をより良く認識させることができます。たとえば、倉庫や工場の作業者用に設計したアプリがある場合、音響モデルをカスタマイズして、こうした環境で発生する騒音の中で音声をより正確に認識することができます。

  • ショート フレーズ認識は、最長 15 秒間の音声に対応しています。音声クライアント ライブラリと併用した場合、データがサーバーに送信された際にクライアントは、複数の部分結果と N ベスト チョイスの最終結果 1 つを受け取ります。

  • ロング ディクテーション認識は、最長 2 分間の音声に対応しています。音声クライアント ライブラリと併用した場合、データがサーバーに送信された際に、サーバーが指定した文の区切り位置に基づいてクライアントには複数の部分結果と複数の最終結果が送られます。

  • 例として、お客様が S1 レベルを使用して 100 万件の書き起こしを処理した場合、そのレベルの価格 ($-) が請求されます。また、最初の 100,000 件の書き起こしには 1,000 書き起こしあたり $- で、残りの 900,000 件の書き起こしには 1,000 書き起こしあたり $- で請求されます。したがって、実際の請求金額は $- + 100,000 * ($- / 1,000) + 900,000 * ($- / 1,000) = $4500になります。

  • Microsoft Cognitive Services の Web ページと Custom Speech Service の Web サイト (www.cris.ai) で、Custom Speech Service の情報をご覧ください。

  • カスタム モデル デプロイとは、カスタム モデルをラップしてからサービスとして公開するプロセスのことです。デプロイされたカスタム モデルによりエンドポイントが公開されます。カスタム モデルにはエンドポイントを通してアクセスが可能です。ユーザーは、必要な数だけモデルをデプロイすることができます。

  • Custom Speech Service では、ユーザーの音響データと言語データに基づいて、ベースラインとなるモデルを調整することができます。このプロセスを、モデルのカスタマイズといいます。

  • カスタム モデルが作成されると、テスト データをアップロードして新たに作成したモデルを評価することができます。新規カスタム モデルのテストでは、必要なデータを必要な分だけ使用できます。これを無制限のオフライン テストといいます。

  • デプロイが完了したカスタム モデルの URI は、一度に 1 つの音声要求を処理することができます。この URI に同時に複数の音声要求を送信する場合、その時点で 5 個の同時要求の料金でスケール アウトすることができます。これはスケール ユニットを購入することで可能となります。各スケール ユニットでは、同時音声要求をスケール ユニットあたり $200 で、最大 5 個まで保証します。たとえば、23 個の音声要求をエンドポイントに同時に送信することが想定される場合、スケール ユニットを 5 個購入し、最大 25 個の同時要求を保証する必要があります。

  • ログ管理では、デプロイしたモデルのログ記録を無効にすることができます。ユーザーはプライバシーについて不安であれば、1 か月あたり $20 の料金で、デプロイしたモデルのログ記録を無効にできます。

  • 要求料金 とは、デプロイしたカスタム モデルのエンドポイントによる音声要求の処理にかかる費用のことです。

全般

  • Emotion API、Face API、Language Understanding Intelligent Service API、Bing Speech to Text API、Bing Text-to-Speech API は、実稼働 API 呼び出しがアクティブに実行されている間の 1,000 件の API トランザクション呼び出しごとに課金されます。課金は、実稼働 API トランザクション呼び出し数に対して按分計算されます。

    Bing Long Form Speech API サービスは、分析された音声の時間単位で課金されます。課金は分単位で計算されます。

    Recommendations API と Text Analytics API は、Standard レベルを 1 単位として固定価格で購入できます。レベルの各単位には、API トランザクション数が含まれています。含まれているトランザクション数を超える場合、超過分は上記の料金表に指定されている料金が課金されます。これらの超過分は按分計算され、サービスは月単位で課金されます。レベルに含まれているトランザクション数は毎月リセットされます。

  • トランザクションが Free レベルの上限に達した場合は使用量が制限されます。お客様は、Free レベルの超過分を課金されることはありません。

  • Standard レベルの使用量を超えた場合は、そのアカウントの超過分の課金が開始されます。これらの超過分は月単位で課金され、各レベルに指定されている料金が計算されます。

  • バッチ スコアリング呼び出しを除くすべての API 呼び出しは、1 トランザクションとしてカウントされます。バッチ スコアリング呼び出しは、そのトランザクションでスコア付けする必要があるアイテムの数に応じてカウントされます。

  • トランザクションが Free レベルの上限に達した場合は使用量が制限されます。お客様は、Free レベルの超過分を課金されることはありません。Free レベルではバッチ スコアリングはサポートされていません。

  • Recommendations API は、Standard レベルを 1 単位として固定価格で購入できます。レベルの各単位には、API トランザクション数が含まれています。含まれているトランザクション数を超える場合、超過分は上記の料金表に指定されている料金が課金されます。これらの超過分は按分計算され、サービスは月単位で課金されます。レベルに含まれているトランザクション数は毎月リセットされます。

  • Bing Search API、Bing Autosuggest API、Bing Speller API の課金は月単位で行われます。購入したレベルに応じて、API 呼び出しとして定義された件数のトランザクションが含まれています。含まれるトランザクション数は、使用開始時期にかかわらず常にカレンダー月に関連付けられています。含まれているトランザクション数を超える場合、料金表で指定されている料金が超過分に対して課金されます。これらの超過分は日割りされません。サービスは月単位で課金されます。各レベルに含まれているトランザクション数は毎月リセットされます。

  • 無料試用版は https://www.microsoft.com/cognitive-services/en-US/subscriptions からリクエスト可能です。

  • いつでも上のレベルにアップグレード可能です。アップグレード後のレベルに対応する課金レートと含まれるトランザクション数がすぐに適用されます。

リソース

計算ツール

Azure サービスの月額料金を概算できます。

購入の FAQ

Azure の価格についてよく寄せられる質問を見ることができます

製品詳細

詳細を表示するCognitive Services

ドキュメント

技術チュートリアル、ビデオ、その他のリソースを確認します

今すぐサインアップして $200 の Azure クレジットを手に入れましょう

今すぐ利用を開始する