Speech to Text

音声をテキストに変換してより自然に対話する

高度な音声認識

Speech サービスの一部である Speech to Text を使用して、さまざまなソースから音声をテキストにすばやく変換します。モデルをカスタマイズして、固有のボキャブラリ、話し方、周囲の雑音など、音声認識の一般的な障壁を克服します。誰もがリアルタイムで会話についていき、会話に参加できるようにすることで、音声をより使いやすいものにします。

画期的なイノベーション

ディープ ニューラル ネットワーク モデルを活用した最先端の音声認識精度によるメリットが得られます。

リアルタイムのエンゲージメント

会話の参加者全員が完全に参加できるように、リアルタイムで音声をテキストに書き起こします。

音声認識のカスタマイズ

話し方や分野固有の用語に合わせて音声認識をカスタマイズできます。

柔軟性の高いデプロイ

クラウド、オンプレミス、エッジのどこででも、コンテナーで Speech to Text を実行できます。

画期的な音声テクノロジを使用する

数十年にわたる画期的な研究によって強化された音声機能でアプリを強化します。Switchboard 会話音声認識タスクで、人間と同等の認識率を最初に達成した Microsoft は、音声認識で最先端の研究を推進し続けています。

音声機能の進歩について詳細を確認する

マイクを使用してご自分の音声でデモを試すには、WebRTC をサポートする別のブラウザー (最新バージョンの Microsoft Edge、Firefox、Chrome など) に変更してください。

使ってみたいですか?

カスタマイズされたモデルで音声認識を最適化

音声認識モデルをカスタマイズして、音声認識の一般的な障壁を克服します。ユーザーの話し方やアクセント、固有のボキャブラリ (地名、製品、業界固有の表現など) に合わせて言語モデルをカスタマイズしします。Office 365 データを使用してカスタム モデルを自動的に生成し、組織固有の用語に対して音声認識精度を最適化します。

Custom Speech の使用を開始する

例文

ベースライン

Custom Speech

使ってみたいですか?

会話から分析情報を取得

マルチユーザーの会話をリアルタイムで書き起こすことで、参加者がディスカッションに集中できるようにします。誰がいつ何を言ったのかを特定し、以降のステップですばやくフォローアップできます。マルチマイク デバイスのエクスペリエンスを最適化します。書き起こされたテキストの分析を有効にすると、会話から詳細な分析情報を抽出できます。

会話の文字起こし機能の詳細を確認する

クラウドからエッジまで、どこにでも配置

データ セキュリティと低待機時間が最も重要であるシナリオでは、コンテナーを使用してクラウドまたはオンプレミスで Speech to Text を実行します。

コンテナーの Speech の詳細を確認する

エンタープライズのためのセキュリティ

  • Microsoft では、サイバーセキュリティの研究と開発に年間 10 億米国ドルを超える投資を行っています。

  • Microsoft には、データ セキュリティとプライバシーを専門とする 3,500 人を超えるセキュリティ エキスパートがいます。

  • Azure は、他のクラウド プロバイダーを上回るコンプライアンス認定を受けています。包括的なリストをご確認ください。

柔軟な価格で必要な機能を利用し、制御し、カスタマイズする

初期コストは不要で、料金は使用した分だけ発生します。Speech to Text では、価格は書き起こされた音声の時間に基づく従量課金制です。

Speech to Text の価格を確認する

3 つの手順で Speech to Text の使用を開始

無料の Azure アカウントにサインアップすることで、すぐにアクセスできるようになり、200 米国ドルのクレジットを取得できます。
Azure portal にサインインし、Speech を追加します。
クイックスタートドキュメントを参照して、Speech to Text を埋め込む方法を確認しましょう。

Speech to Text の開発者向けリソース

ドキュメントとチュートリアル

Speech to Text を使ってみましょう。

コース

Speech to Text の使用方法を説明する Pluralsight コースを受講しましょう。

ユース ケース

会話やコールセンターの文字起こしなど、Speech to Text のシナリオの詳細をご覧ください。

Speech to Text に関してよく寄せられる質問

  • Speech to Text でサポートされている言語の一覧については、こちらのドキュメントをご覧ください。
  • Speech SDK や REST API を使用して、マイクからの音声のキャプチャ、ストリームからの読み取り、ストレージからの音声ファイルへのアクセスを簡単行うことができます。Speech SDK では、音声認識用として、WAV/PCM 16 ビット、16 kHz/8 kHz、単一チャネル オーディオがサポートされています。音声テキスト変換 REST エンドポイントバッチ文字起こしサービスを使用したオーディオ形式もサポートされています。
  • リージョン別の提供状況を確認してください。

Speech to Text を使ってみる