ナビゲーションをスキップする

Speech Services の価格

音声テキスト変換、テキスト読み上げ、音声翻訳のための統合音声サービス

一元化された Speech Services は、音声の文字起こし、テキスト読み上げ、音声翻訳、話者認識など、音声認識と生成の機能を幅広く提供しています。

価格オプションの詳細

フィルターを適用して、価格オプションをお客様のニーズに合わせてカスタマイズします。

価格は見積もりに過ぎず、実際の価格設定としては意図されていません。実際の価格は、Microsoft との契約の種類、購入日、通貨換算レートによって異なる場合があります。料金は米ドルに基づいて計算され、毎月 1 日に更新される Thomson Reuters ベンチマーク レートを使用して変換されます。Azure 料金計算ツールにサインインして、Microsoft での現在のプログラム/プランに基づく価格を確認してください。価格の詳細については、Azure 営業担当者に問い合わせるか、価格クォートを要求してください。Azure の価格の詳細については、よく寄せられる質問を参照してください。

Free (F0)

カテゴリ 機能 料金
Speech to Text
(1 秒あたりの請求)
標準 1 か月あたり 5 音声時間は無料
カスタム 1 か月あたり 5 音声時間は無料
エンドポイント ホスティング: 1 か月あたり 1 モデルまで無料1
会話の文字起こしのマルチチャネル オーディオ プレビュー 1 か月あたり 5 音声時間は無料
Text to Speech
(文字ごとの請求)
ニューラル 1 か月あたり 0.5 million 文字まで無料
Speech Translation
(1 秒あたりの請求)
Standard 1 か月あたり 5 音声時間は無料
Speaker Recognition
(トランザクションごとの請求)
話者認証2 10,000 無料トランザクション / 月
話者識別2 10,000 無料トランザクション / 月
音声プロファイル ストレージ 10,000 無料トランザクション / 月

同時要求を増やす方法については、クォータ、制限、および 手順の、ドキュメントを参照してください。

1未使用のモデルは、7 日後に自動的に使用停止状態になります。

2Speaker Recognitionは制限付きアクセス機能であり、アクセスに適用する必要があります。

従量課金制: 使用した分だけお支払いください。

インスタンス カテゴリ 機能 料金
Standard - Web/コンテナー
基本モデルに対する 100 の同時要求
カスタム モデルに対する 20 の同時要求1
音声テキスト変換 標準2 音声時間あたり $-
カスタム 音声時間あたり $-
エンドポイント ホスティング: 1 モデル、1 時間あたり $-
強化されたアドオン機能:
  • 言語の識別
  • 3 人以上のスピーカーに対するバッチ文字起こし
音声時間あたり $-
会話の文字起こしのマルチチャネル オーディオ プレビュー 音声時間あたり $-1
Text to Speech
(文字ごとの請求)
ニューラル リアルタイムの合成: 1M あたり $- 文字
長い音声の作成: 1,000,000 文字あたり $-
カスタム ニューラル2 トレーニング: コンピューティング時間あたり $-、最大 トレーニングあたり $-
リアルタイムの合成: 1,000,000 文字あたり $-
エンドポイント ホスティング: 1 モデル、1 時間あたり $-
長い音声の作成: 1,000,000 文字あたり $-
Speech Translation
(1 秒あたりの請求)
Standard 音声時間あたり $-
Speaker Recognition
(トランザクションごとの請求)
話者認証3 $-/1,000 トランザクション
話者識別3 $-/1,000 トランザクション
音声プロファイル ストレージ 1,000 音声プロファイルあたり $- (1 か月あたり 10,000 の無料の音声プロファイル)

同時要求を増やす方法については、クォータ、制限、および 手順の、ドキュメントを参照してください。

1 これにはパブリック プレビュー価格が適用されます。一般提供価格は一般提供の際に発表されます。

2 カスタム ニューラル音声 (CNV) は、Pro と Lite のバージョンをフィーチャーした制限付きアクセス機能です。CNV Lite (パブリック プレビュー) を使用すると、お客様は Pro へのアクセスを申請する前に、自分の音声を録音し、デモ/評価用のモデルを作成できます。CNV が利用可能な場所を確認します。

3 Speaker Recognitionは制限付きアクセス機能であり、アクセスに適用する必要があります。

コミットメント レベル

この価格では限定的なアクセスです。ここに適用します

インスタンス カテゴリ 機能 月額 超過分
Azure - Standard 音声テキスト変換 標準 2,000 時間で $- $- / 時間
10,000 時間で $- $- / 時間
50,000 時間で $- $- / 時間
カスタム 2,000 時間で $- $- / 時間
10,000 時間で $- $- / 時間
50,000 時間で $- $- / 時間
テキスト読み上げ ニューラル1 8000 万文字で $- 100 万文字あたり $-
40000 万文字で $- 100 万文字あたり $-
2,00000 万文字で $- 100 万文字あたり $-
接続されたコンテナー - Standard 音声テキスト変換 標準 2,000 時間で $- $- / 時間
10,000 時間で $- $- / 時間
50,000 時間で $- $- / 時間
カスタム 2,000 時間で $- $- / 時間
10,000 時間で $- $- / 時間
50,000 時間で $- $- / 時間
テキスト読み上げ ニューラル1 8000 万文字で $- 100 万文字あたり $-
40000 万文字で $- 100 万文字あたり $-
2,00000 万文字で $- 100 万文字あたり $-
切断されたコンテナー 音声テキスト変換 標準 サインアップしてアクセスを取得する
詳しく見る
テキスト読み上げ ニューラル1 サインアップしてアクセスを取得する
詳しく見る
1 リアルタイム合成のみ。これには長いオーディオ作成は含まれません。

これらの機能は非推奨とされ、既存のお客様のみが使用できます。 詳細を確認し、新機能に移行する方法を確認してください

インスタンス カテゴリ 機能 料金
Free - Web/コンテナー
1 個の同時要求
テキスト読み上げ 標準 1 か月あたり 5 million 文字まで無料
カスタム 1 か月あたり 5 million 文字まで無料
エンドポイント ホスティング: 1 か月あたり 1 モデルまで無料
Standard - Web/コンテナー
基本モデルに対する 100 の同時要求
カスタム モデルに対する 20 の同時要求
テキスト読み上げ 標準 1,000,000 文字あたり $-
カスタム 1,000,000 文字あたり $-
エンドポイント ホスティング: 1 モデル、1 時間あたり $-

Azure の価格および購入オプション

Microsoft と直接つながる

Azure の価格のチュートリアルをご覧ください。お客様のクラウド ソリューションの価格について理解したり、コストの最適化について確認したり、カスタム提案を要求したりすることができます。

営業担当者に問い合わせる

購入方法を見る

Azure の Web サイト、Microsoft の担当者、または Azure パートナーを通じて、Azure サービスをご購入ください。

お客様のオプションを調べる

その他の資料

Speech Services

Speech Services の特徴と機能についての詳細情報

料金計算ツール

Azure 製品の任意の組み合わせを使用する場合の推定の月間コストを見積もります。

ドキュメント

技術チュートリアル、ビデオ、その他の Speech Services のリソースをご確認ください。

    • Speech to TextとSpeech Translationの場合、使用量は 1 秒の増分単位で課金されます。
    • Text to Speechの場合: 使用量は文字ごとに課金されます。価格ノートの文字の定義を確認します。
    • Speech to TextとText to Speechの場合、カスタム モデルのエンドポイント ホスティングは、モデルごと、1 秒あたりで課金されます。
    • Custom Commands の場合: 課金は、Speech to Text、Text to Speech、Language Understanding の使用として追跡されます。Custom Commands では、新しい課金の測定は導入されません。
    • Speech to Textモデルのトレーニングには料金はかかりません。デプロイされたモデルごとのエンドポイント ホスティングと、テキストにCustom Speechの音声時間あたりのコストのみです。
  • Speech Servicesでは、ユーザーの音響データと言語データに基づいてベースラインとなるモデルを調整し、音声テキスト変換と音声翻訳のどちらにも使えるカスタム音声モデルを作成できます。

  • 言語モデルは、一連の単語における確率分布を表すものです。言語モデルにより、一連の単語の中から、単語系列自体の確率に基づいて音が似ている単語を選択できます。たとえば、“recognize speech” と “wreck a nice beach” の音は似ていますが、前者の仮定の発生確率の方がはるかに大きいため、言語モデルが付けるスコアは大きくなります。アプリケーションに対する音声クエリに、通常の音声ではめったに使われない製品名や専門用語などの特定の語彙が含まれると予想される場合は、言語モデルをカスタマイズすることでパフォーマンスの改善を実現できる可能性があります。たとえば、音声により MSDN を検索するアプリを作成する場合、通常の音声アプリケーションよりも “オブジェクト指向” や “名前空間”、“Dot Net” などの用語が使われる可能性は高いと考えられます。言語モデルのカスタマイズにより、システムにこうした状況を学習させることができます。

  • 音響モデルとは、音声の短い断片を各言語のいくつかの音素、つまり音声単位に分類する分類器です。分類後、これらの音声をつなぎ合わせて語句にすることができます。たとえば、“speech” という単語は “s p iy ch” という 4 つの音素で構成されています。こうした分類は、1 秒あたり 100 回程度行われます。音響モデルをカスタマイズすることでシステムを学習し、特殊な環境における音声をより良く認識させることができます。たとえば、倉庫や工場の作業者用に設計したアプリがある場合、音響モデルをカスタマイズして、こうした環境で発生する騒音の中で音声をより正確に認識することができます。

  • Speech サービスにはさまざまなテキスト読み上げ (TTS) 音声フォントが用意されていますが、カスタム ニューラル音声を使用すると、お客様のニーズやブランドに合ったお客様独自のカスタム音声を構築することができます。詳細についてはブログ記事をご覧ください

  • 同じ音声ファイルやライブ プレゼンテーションの中で、1 人の話者や複数の話者が複数の言語を話す場合があります。連続言語検出により、話し言葉の切り替えを識別し、それに合わせて正確に音声を文字起こしすることができます。この機能はプライベート プレビューで無料で提供される予定で、Speech SDK を使用してアクセスできます。詳細については、ドキュメントをご覧ください

Azure の価格の説明については、営業担当者にお問い合わせください。クラウド ソリューションの価格を把握できます。

無料のクラウド サービスと、30 日間 Azure を検証できる $200 のクレジットを利用できます。

見積に追加されました。 計算ツールで表示するには 'v' を押してください
どのようなご用件ですか?