Cognitive Services の価格—Speech Services

インテリジェンス API を使用して、視覚、言語、検索機能を有効にする

一元化された Speech Services では、音声の文字起こし、テキスト読み上げ、音声翻訳など、音声認識と生成の機能を幅広く提供しています。Speech Services は、音声の文字起こし、テキスト読み上げ、音声翻訳、話者認識など、音声認識と生成の機能を幅広く提供しています。

価格の詳細

インスタンス カテゴリ 機能 料金
無料 - Web/コンテナー
1 個の同時要求1
Speech to Text Standard 1 か月あたり 5 音声時間は無料
カスタム 1 か月あたり 5 音声時間は無料
エンドポイント ホスティング: 1 か月あたり 1 モデルまで無料 2
会話の文字起こしのマルチチャネル オーディオ プレビュー 3 1 か月あたり 5 音声時間は無料
Text to Speech Standard 1 か月あたり 5 million 文字まで無料
ニューラル 1 か月あたり 0.5 million 文字まで無料
カスタム 1 か月あたり 5 million 文字まで無料
エンドポイント ホスティング: 1 か月あたり 1 モデルまで無料
Speech Translation Standard 1 か月あたり 5 音声時間は無料
Speaker Recognition 7 話者認証 10,000 無料トランザクション / 月
話者識別 10,000 無料トランザクション / 月
音声ストレージ 10,000 無料トランザクション / 月
Standard - Web/コンテナー
20 個の同時要求 1
Speech to Text Standard 音声時間あたり $-
カスタム 音声時間あたり $-
エンドポイント ホスティング: 1 モデル、1 か月あたり $-
会話の文字起こしのマルチチャネル オーディオ プレビュー 3 音声時間あたり $- 4
Text to Speech Standard 1,000,000 文字あたり $-
ニューラル 1M あたり $- 文字 5
長い音声の作成: 1,000,000 文字あたり $-
カスタム 1,000,000 文字あたり $-
エンドポイント ホスティング: 1 モデル、1 か月あたり $-
カスタム ニューラル 6 Training: $- per compute hour, up to $- per training
リアルタイムの合成: 1,000,000 文字あたり $-
エンドポイント ホスティング: 1 モデル、1 か月あたり $-
長い音声の作成: 1,000,000 文字あたり $-
Speech Translation Standard 音声時間あたり $-
Speaker Recognition 7 話者認証 $-/1,000 トランザクション
話者識別 $-/1,000 トランザクション
音声ストレージ $-/1,000 トランザクション

すべての価格レベルのクォータと制限の詳細については、ドキュメントをご覧ください。

1同時要求の数を増やすには、こちらの手順をご覧ください。

2未使用のモデルは、7 日後に自動的に使用停止状態になります。

3会話の文字起こしのマルチチャネルでは、円形のマイク配列デバイスが推奨されます。詳細については、Microsoft Speech Device SDK を参照してください。

4これにはパブリック プレビュー価格が適用されます。一般提供価格は一般提供の際に発表されます。

5ニューラル テキスト読み上げを利用できるリージョンについては、ニューラル ドキュメントをご確認ください。

6カスタム ニューラル音声は、制限付きアクセス機能です。制限付きアクセス プロセスの詳細についてはご確認ください。

サポートおよび SLA

  • 請求およびサブスクリプション管理サポート (無償) が含まれます。
  • Cognitive Services については、Standard レベルでの実行時に 99.9 パーセントの可用性が保証されます。無料試用版では SLA は提供されません。SLA を参照してください

FAQ

    • Speech Translation、Speech to Text、Custom Speech Model を使用した Speech to Text の場合: 1 秒単位で課金されます。
    • Text to Speech および Custom Voice Font を使用した Text to Speech の場合: 1 文字単位で課金されます。
    • カスタム音声モデルのホスティングの場合は 1 時間ごと、Custom Voice フォントのホスティングの場合は 1 日単位で課金されます。
    • Custom Commands の場合: 課金は、Speech to Text、Text to Speech、Language Understanding の使用として追跡されます。Custom Commands では、新しい課金の測定は導入されません。
    • 音声モデルのトレーニングには料金は発生しません。トレーニングが完了した後のモデルのホストのホスト、およびその後の音声の文字起こしの 1 時間あたりのコストのみが発生します。
  • Speech Servicesでは、ユーザーの音響データと言語データに基づいてベースラインとなるモデルを調整し、音声テキスト変換と音声翻訳のどちらにも使えるカスタム音声モデルを作成できます。

  • 言語モデルは、一連の単語における確率分布を表すものです。言語モデルにより、一連の単語の中から、単語系列自体の確率に基づいて音が似ている単語を選択できます。たとえば、“recognize speech” と “wreck a nice beach” の音は似ていますが、前者の仮定の発生確率の方がはるかに大きいため、言語モデルが付けるスコアは大きくなります。アプリケーションに対する音声クエリに、通常の音声ではめったに使われない製品名や専門用語などの特定の語彙が含まれると予想される場合は、言語モデルをカスタマイズすることでパフォーマンスの改善を実現できる可能性があります。たとえば、音声により MSDN を検索するアプリを作成する場合、通常の音声アプリケーションよりも “オブジェクト指向” や “名前空間”、“Dot Net” などの用語が使われる可能性は高いと考えられます。言語モデルのカスタマイズにより、システムにこうした状況を学習させることができます。

  • 音響モデルとは、音声の短い断片を各言語のいくつかの音素、つまり音声単位に分類する分類器です。分類後、これらの音声をつなぎ合わせて語句にすることができます。たとえば、“speech” という単語は “s p iy ch” という 4 つの音素で構成されています。こうした分類は、1 秒あたり 100 回程度行われます。音響モデルをカスタマイズすることでシステムを学習し、特殊な環境における音声をより良く認識させることができます。たとえば、倉庫や工場の作業者用に設計したアプリがある場合、音響モデルをカスタマイズして、こうした環境で発生する騒音の中で音声をより正確に認識することができます。

  • Microsoft のSpeech Servicesビスでは、既定の音声 (音声フォント) が 70 種類以上用意されており、40 以上の言語でテキストを音声に変換できます。もっとも、バーチャル アシスタントをはじめ、音声認識を使用するさまざまなアプリケーションが流行している現在では、自社のブランド アイデンティティに合わせて入念に設計した独自の音声を使用したいと考える企業が多いのも事実です。たとえば、カスタマー ケア サービスのためのチャット ボットを開発している場合であれば、自社のブランドを反映した独自の音声を関連付けることによって、お客様からの好感度を高めることができるでしょう。同じように、カーナビ ソフトウェアを開発している場合であれば、テキスト読み上げをさまざまなカスタム音声に対応させることによって、ユーザー エクスペリエンスを充実させることができます。

    Voice Studio (カスタム音声作成ポータル) では、このようなことが簡単に行なえます。独自のオーディオ データ (人間の声を録音したデータとそのスクリプト) を使えば、カスタム音声フォントを生成できます。生成したカスタム音声フォントは Microsoft のテキスト読み上げサービスにデプロイし、API エンドポイントを備えたアプリケーションに簡単にプラグインして利用できます。

リソース

Azure サービスの月額料金を概算できます。

Azure の価格についてよく寄せられる質問を見ることができます

Azure Cognitive Servicesの詳細を表示します

技術チュートリアル、ビデオ、その他のリソースを確認します。

見積に追加されました。 計算ツールで表示するには 'v' を押してください

Azure の価格の説明については、営業担当者にお問い合わせください。クラウド ソリューションの価格を把握できます。

無料のクラウド サービスと、30 日間 Azure を検証できる $200 のクレジットを利用できます。