Speech to Text

音声をすばやくテキストに変換して自然な応答を実現。

Cognitive Services の音声テキスト変換では、会話の文字起こし音声文字起こしカスタム音声文字起こしなどのさまざまな文字起こしシナリオをサポートするためにアプリに埋め込むことができる一連の機能が提供されます。

会話の文字起こし

直接会合の文字起こしを可能にします。会話の文字起こしでは、リアルタイムに音声をキャプチャすることで、会合の参加者全員が十分にディスカッションに参加し、誰がいつ何を言ったかを特定し、次のステップですばやくフォローアップできるようにします。

会話の文字起こしを使うと、次のことができます。

  • 会議室にいる全員の音声をキャプチャする。
  • 業界屈指のセキュリティとコンプライアンス認定を使って、データを保護できるようにする。
  • Speech Devices SDK と組み合わせることで、マイクとビデオ カメラを使用した会合や会議のセットアップをサポートする。

アクションからご覧ください

このデモをロード中にエラーが発生しました。しばらくお待ちいただいた後、再度お試しください。

話者 トランスクリプト

このデモはお使いのブラウザーに対応していません。快適に使用するには、別のブラウザーを使用してください。

使ってみたいですか?

音声文字起こし

オーディオをテキストに変換します。この API を呼び出すと、リアルタイム ストリーミング音声ソース (マイクなど) や録音されたオーディオ ファイルから音声が認識されます。要求に応じて、サーバーに音声が送信されると同時に部分的な認識結果が返されます。

この API を使うことで、音声によってトリガーされるスマート アプリを構築できます。デモを試して実際の動作をご確認ください。ターゲット言語を選択してから、マイクをクリックして朗読を開始します。または、サンプル音声フレーズのいずれかをクリックしてください。*

アクションからご覧ください

マイクを使用してご自分の音声でデモを試すには、WebRTC をサポートする別のブラウザー (最新バージョンの Microsoft Edge、Firefox、Chrome など) に変更してください。

使ってみたいですか?

Custom Speech Service: カスタム モデルを使った音声文字起こし

話し方、ボキャブラリ、背景ノイズといった音声認識の障壁を克服可能です。Microsoft の音声認識技術は、複数の API を連携させてテキスト出力を生成します。これらの API は、お客様がそのニーズと利用可能なデータに合わせてカスタマイズできます。

アクションからご覧ください

例文

ベースライン

Custom Speech

ユーザーの発話形式に合わせて調整されたカスタム言語モデルの作成

変化に富んだボキャブラリや発話形式が、解釈の妨げにならないようにする必要があります。業界的な表現や技術用語、地理的な用語、マーケット用語、さらには話者のスタイルにも合わせて、アプリの音声認識の言語モデルを調整し、カスタマイズしましょう。

カスタム音響モデルを使ってユーザーの環境に適応

アプリの音声認識をあらゆる環境で確実に機能させましょう。カスタム音響モデルを使用すれば、バックグラウンド ノイズを加味し、想定されるユーザーの環境に適合させることができます。

Microsoft の信頼性の高い音声モデルを使う

Microsoft に既にある最先端のモデルを基盤にカスタマイズした独自の音声認識モデルを構築することで、強力でパーソナル化された音声認識を実現できます。

使ってみたいですか?

音声認識シナリオの考察

コール センター

Speech ServicesWith Speech Services, it is easy to transcribe every call. Index the transcription for full-text search or apply Text Analytics to detect sentiment, language and key phrases for insights. If your call center recordings involve specialized terminology, such as product names or IT jargon, create a custom language model to teach Speech Services the vocabulary. A custom acoustic model helps Speech Services understand speakers even with background noise or poor phone connections. For more information, read how batch transcription works with Speech Services.
  1. 概要
  2. フロー

Speech Services

概要

Speech Service を使用すると、すべての通話を簡単に文字起こしすることができます。全文検索のために文字起こしにインデックスを付けたり、分析情報を得るために Text Analytics を適用してセンチメント、言語、キー フレーズを検出したりします。コール センターの録音に専門用語 (製品名や IT 用語など) が含まれることが多い場合は、カスタム言語モデルを作成して Speech Service にそのボキャブラリを学習させます。カスタム音響モデルを使用すると、背景ノイズがある場合や、電話の接続品質が良くない場合でも、話者の発言内容を解釈しやすくなります。

詳細については、Speech Services を使用したバッチ文字起こしのしくみをご確認ください。

フロー

  1. 1 対象分野に適合したモデルを採用してそのモデルをデプロイする
  2. 2 BLOB コンテナーに録音をアップロードする
  3. 3 文字起こしをバッチ処理する POST 要求を作成する
  4. 4 Speech Services で文字起こしジョブをスケジュール設定する
  5. 5 Stereo ファイルは 2 つのチャンネルに分割される
  6. 6 Mono ファイルでは、話者を識別するためにダイアライゼーションが行われる
  7. 7 文字起こし ID を使用して文字起こしをダウンロードする

Cognitive Services APIs を詳しく見る

Computer Vision

画像から意思決定に役立つ情報を抽出

Face

写真に含まれる顔の検出、識別、分析、グループ化、タグ付け

Ink Recognizer プレビュー

手書きの文字、図形、インク ドキュメントのレイアウトなどのデジタル インク コンテンツを認識できる AI サービス

Video Indexer

動画の分析情報を解明

Custom Vision

貴社の最先端のコンピューター ビジョン モデルを、独自の用途向けに簡単にカスタマイズできます

Form Recognizer プレビュー

フォームを解釈し、ドキュメントを抽出できる AI サービス

Text Analytics

センチメントとトピックを簡単に評価して、ユーザーが求めるものを理解

Translator Text

シンプルな REST API 呼び出しで機械翻訳を簡単に実行

QnA Maker

情報から会話形式のナビゲーションしやすい回答を抽出

Language Understanding

ユーザーが入力したコマンドをアプリが理解できるようにします。

Immersive Reader プレビュー

あらゆる年齢や能力のユーザーがテキストを読み理解できるようにサポート

Speech Services

音声テキスト変換、テキスト読み上げ、音声翻訳のための統合Speech Services

Speaker Recognition プレビュー

音声を使用して個々の話者を識別および検証

Content Moderator

画像、テキスト、ビデオを自動モデレート

Anomaly Detector プレビュー

異常検出機能をアプリに簡単に追加します。

Personalizer プレビュー

パーソナライズされたユーザー エクスペリエンスを提供する AI サービス

アンビエント デバイスを構築したり、カスタム ウェイク ワードを作成したりするには、Speech Devices SDK を使用します。

詳細情報