Speech to Text

音声をすばやくテキストに変換して自然な応答を実現。

Cognitive Services の音声テキスト変換では、会話の文字起こし音声文字起こしカスタム音声文字起こしなどのさまざまな文字起こしシナリオをサポートするためにアプリに埋め込むことができる一連の機能が提供されます。

会話の文字起こし

直接会合の文字起こしを可能にします。会話の文字起こしでは、リアルタイムに音声をキャプチャすることで、会合の参加者全員が十分にディスカッションに参加し、誰がいつ何を言ったかを特定し、次のステップですばやくフォローアップできるようにします。

会話の文字起こしを使うと、次のことができます。

  • 会議室にいる全員の音声をキャプチャする。
  • 業界屈指のセキュリティとコンプライアンス認定を使って、データを保護できるようにする。
  • Speech Devices SDK と組み合わせることで、マイクとビデオ カメラを使用した会合や会議のセットアップをサポートする。

アクションからご覧ください

このデモをロード中にエラーが発生しました。しばらくお待ちいただいた後、再度お試しください。

話者 トランスクリプト

このデモはお使いのブラウザーに対応していません。快適に使用するには、別のブラウザーを使用してください。

使ってみたいですか?

音声文字起こし

オーディオをテキストに変換します。この API を呼び出すと、リアルタイム ストリーミング音声ソース (マイクなど) や録音されたオーディオ ファイルから音声が認識されます。要求に応じて、サーバーに音声が送信されると同時に部分的な認識結果が返されます。

この API を使うことで、音声によってトリガーされるスマート アプリを構築できます。デモを試して実際の動作をご確認ください。ターゲット言語を選択してから、マイクをクリックして朗読を開始します。または、サンプル音声フレーズのいずれかをクリックしてください。*

アクションからご覧ください

マイクを使用してご自分の音声でデモを試すには、WebRTC をサポートする別のブラウザー (最新バージョンの Microsoft Edge、Firefox、Chrome など) に変更してください。

使ってみたいですか?

Custom Speech Service: カスタム モデルを使った音声文字起こし

話し方、ボキャブラリ、背景ノイズといった音声認識の障壁を克服可能です。Microsoft の音声認識技術は、複数の API を連携させてテキスト出力を生成します。これらの API は、お客様がそのニーズと利用可能なデータに合わせてカスタマイズできます。

アクションからご覧ください

例文

ベースライン

Custom Speech

ユーザーの発話形式に合わせて調整されたカスタム言語モデルの作成

変化に富んだボキャブラリや発話形式が、解釈の妨げにならないようにする必要があります。業界的な表現や技術用語、地理的な用語、マーケット用語、さらには話者のスタイルにも合わせて、アプリの音声認識の言語モデルを調整し、カスタマイズしましょう。

カスタム音響モデルを使ってユーザーの環境に適応

アプリの音声認識をあらゆる環境で確実に機能させましょう。カスタム音響モデルを使用すれば、バックグラウンド ノイズを加味し、想定されるユーザーの環境に適合させることができます。

Microsoft の信頼性の高い音声モデルを使う

Microsoft に既にある最先端のモデルを基盤にカスタマイズした独自の音声認識モデルを構築することで、強力でパーソナル化された音声認識を実現できます。

使ってみたいですか?

音声認識シナリオの考察

コール センター

Speech servicesWith Speech Services, it’s easy to transcribe every call. Index the transcription for full-text search, or apply Text Analytics to detect sentiment, language and key phrases for insights. If your call centre recordings involve specialist terminology, such as product names or IT jargon, create a custom language model to teach Speech Services the vocabulary. A custom acoustic model helps Speech Services understand speakers even with background noise or poor phone connections. For more information, read how batch transcription works with Speech Services.
  1. 概要
  2. フロー

Speech Services

概要

Speech Service を使用すると、すべての通話を簡単に文字起こしすることができます。全文検索のために文字起こしにインデックスを付けたり、分析情報を得るために Text Analytics を適用してセンチメント、言語、キー フレーズを検出したりします。コール センターの録音に専門用語 (製品名や IT 用語など) が含まれることが多い場合は、カスタム言語モデルを作成して Speech Service にそのボキャブラリを学習させます。カスタム音響モデルを使用すると、背景ノイズがある場合や、電話の接続品質が良くない場合でも、話者の発言内容を解釈しやすくなります。

詳細については、Speech Services を使用したバッチ文字起こしのしくみをご確認ください。

フロー

  1. 1 対象分野に適合したモデルを採用してそのモデルをデプロイする
  2. 2 BLOB コンテナーに録音をアップロードする
  3. 3 文字起こしをバッチ処理する POST 要求を作成する
  4. 4 Speech Services で文字起こしジョブをスケジュール設定する
  5. 5 Stereo ファイルは 2 つのチャンネルに分割される
  6. 6 Mono ファイルでは、話者を識別するためにダイアライゼーションが行われる
  7. 7 文字起こし ID を使用して文字起こしをダウンロードする

Cognitive Services APIs を詳しく見る

Computer Vision

Distill actionable information from images

Face

Detect, identify, analyze, organize, and tag faces in photos

Ink Recognizer プレビュー

An AI service that recognizes digital ink content, such as handwriting, shapes, and ink document layout

Video Indexer

Unlock video insights

Custom Vision

Easily customize your own state-of-the-art computer vision models for your unique use case

Form Recognizer プレビュー

The AI-powered document extraction service that understands your forms

Text Analytics

Easily evaluate sentiment and topics to understand what users want

Translator Text

Easily conduct machine translation with a simple REST API call

QnA Maker

Distill information into conversational, easy-to-navigate answers

Language Understanding

Teach your apps to understand commands from your users

Immersive Reader プレビュー

Empower users of all ages and abilities to read and comprehend text

Speech Services

Unified speech services for speech-to-text, text-to-speech and speech translation

Speaker Recognition プレビュー

Use speech to identify and verify individual speakers

Content Moderator

Automated image, text, and video moderation

Anomaly Detector プレビュー

Easily add anomaly detection capabilities to your apps.

Personalizer プレビュー

An AI service that delivers a personalized user experience

アンビエント デバイスを構築したり、カスタム ウェイク ワードを作成したりするには、Speech Devices SDK を使用します。

詳細情報