ナビゲーションをスキップする

Cognitive Services の価格—Speech Services

視覚、音声、言語、ナレッジ機能を有効にするインテリジェンス API の使用

一元化された Speech Services では、音声の文字起こし、テキスト読み上げ、音声翻訳など、音声認識と生成の機能を幅広く提供しています。

価格の詳細

インスタンス 同時要求 機能 料金
Free 1 個の同時要求 Speech Translation 1 か月あたり 5 時間まで無料
Speech to Text 1 か月あたり 5 時間まで無料
カスタム音声モデルを使った音声テキスト変換 1 か月あたり 5 時間まで無料
Speech エンドポイント ホスティング1 1 か月あたり 1 モデルは無料
Text to Speech with Standard Voices 1 か月あたり 500 万文字まで無料
カスタム音声フォントを使ったテキスト読み上げ 1 か月あたり 500 万文字まで無料
Text to Speech with Neural Voices 0.5M characters free per month
カスタム音声フォントのホスティング1 1 か月あたり 1 モデルは無料
Standard 20 個の同時要求 Speech Translation $- / 時間
Speech to Text $- / 時間
カスタム音声モデルを使った音声テキスト変換 $- / 時間
Speech エンドポイント ホスティング 1 モデルあたり $-/月
Text to Speech with Standard Voices 100 万文字あたり $-
カスタム音声フォントを使ったテキスト読み上げ 100 万文字あたり $-
Text to Speech with Neural Voices 100 万文字あたり $-2
カスタム音声フォントのホスティング 1 モデルあたり $-/月
1使用されていないモデルは 7 日後に自動的に使用停止されます
2This is a public preview price for Text to Speech with Neural Voices.

サポートおよび SLA

  • 請求およびサブスクリプション管理サポート (無償) が含まれます。
  • Cognitive Services については、Standard レベルでの実行時に 99.9 パーセントの可用性が保証されます。無料試用版では SLA は提供されません。SLA を参照してください

FAQ

Speech Services

    • 音声翻訳、音声テキスト変換、およびカスタム音声モデルを使った音声テキスト変換の場合: 1 秒単位で課金されます
    • テキスト読み上げおよびカスタム音声フォントを使ったテキスト読み上げの場合: 1 文字単位で課金されます
    • カスタム音声モデルのホスティングおよびカスタム音声フォントのホスティングの場合: 1 日単位で課金されます
  • Speech Servicesでは、ユーザーの音響データと言語データに基づいてベースラインとなるモデルを調整し、音声テキスト変換と音声翻訳のどちらにも使えるカスタム音声モデルを作成できます。

  • 言語モデルは、一連の単語における確率分布を表すものです。言語モデルにより、一連の単語の中から、単語系列自体の確率に基づいて音が似ている単語を選択できます。たとえば、“recognize speech” と “wreck a nice beach” の音は似ていますが、前者の仮定の発生確率の方がはるかに大きいため、言語モデルが付けるスコアは大きくなります。アプリケーションに対する音声クエリに、通常の音声ではめったに使われない製品名や専門用語などの特定の語彙が含まれると予想される場合は、言語モデルをカスタマイズすることでパフォーマンスの改善を実現できる可能性があります。たとえば、音声により MSDN を検索するアプリを作成する場合、通常の音声アプリケーションよりも “オブジェクト指向” や “名前空間”、“Dot Net” などの用語が使われる可能性は高いと考えられます。言語モデルのカスタマイズにより、システムにこうした状況を学習させることができます。

  • 音響モデルとは、音声の短い断片を各言語のいくつかの音素、つまり音声単位に分類する分類器です。分類後、これらの音声をつなぎ合わせて語句にすることができます。たとえば、“speech” という単語は “s p iy ch” という 4 つの音素で構成されています。こうした分類は、1 秒あたり 100 回程度行われます。音響モデルをカスタマイズすることでシステムを学習し、特殊な環境における音声をより良く認識させることができます。たとえば、倉庫や工場の作業者用に設計したアプリがある場合、音響モデルをカスタマイズして、こうした環境で発生する騒音の中で音声をより正確に認識することができます。

  • Microsoft のSpeech Servicesビスでは、既定の音声 (音声フォント) が 70 種類以上用意されており、40 以上の言語でテキストを音声に変換できます。もっとも、バーチャル アシスタントをはじめ、音声認識を使用するさまざまなアプリケーションが流行している現在では、自社のブランド アイデンティティに合わせて入念に設計した独自の音声を使用したいと考える企業が多いのも事実です。たとえば、カスタマー ケア サービスのためのチャット ボットを開発している場合であれば、自社のブランドを反映した独自の音声を関連付けることによって、お客様からの好感度を高めることができるでしょう。同じように、カーナビ ソフトウェアを開発している場合であれば、テキスト読み上げをさまざまなカスタム音声に対応させることによって、ユーザー エクスペリエンスを充実させることができます。

    Voice Studio (カスタム音声作成ポータル) では、このようなことが簡単に行なえます。独自のオーディオ データ (人間の声を録音したデータとそのスクリプト) を使えば、カスタム音声フォントを生成できます。生成したカスタム音声フォントは Microsoft のテキスト読み上げサービスにデプロイし、API エンドポイントを備えたアプリケーションに簡単にプラグインして利用できます。

全般

  • Bing Search APIs の課金は、トランザクション (別名 API 呼び出し) の数に基づいて行われます。これらのプランは従量課金制であり、複雑なクエリと 10 件を超える結果 (ほとんどの場合、最大 50 件の結果) で追加のコストが発生することはありません。

  • 前述の 1 秒あたりのトランザクション (TPS) の数を超えた場合、その制限内に収まるよう使用量が調整されます。このページで説明されている TPS を超える TPS がお客様のアプリケーションで必要な場合、Azure サポート チームまでご連絡ください。

  • 請求上、トランザクションに該当するのは成功した Bing API 呼び出し要求です (ただし DoS 攻撃に注意する必要があります)。(Bing Statistics アドインなどの) ログとレポートという観点では、成功または失敗を問わず、すべての Bing API 呼び出しが該当します。

  • サービスのレベルはいつでも変更できます。API 呼び出しでは適切なキーを使用するようにしてください。Microsoft とエンタープライズ契約を結んでいる場合、お客様のアカウント担当者とご協力ください。

リソース

Azure サービスの月額料金を概算できます。

Azure の価格についてよく寄せられる質問を見ることができます

詳細を表示するCognitive Services

技術チュートリアル、ビデオ、その他のリソースを確認します。

見積に追加されました。 計算ツールで表示するには 'v' を押してください 計算ツールで表示する

$200 のクレジットで学習と開発ができ、継続は無料です