ナビゲーションをスキップする

Speech to Text

音声をすばやくテキストに変換して自然な応答を実現。Speech to Text API は、音声サービスの一部です。

音声文字起こし

オーディオをテキストに変換します。この API を呼び出すと、リアルタイム ストリーミング音声ソース (マイクなど) や録音されたオーディオ ファイルから音声が認識されます。要求に応じて、サーバーに音声が送信されると同時に部分的な認識結果が返されます。

この API を使うことで、音声によってトリガーされるスマート アプリを構築できます。デモを試して実際の動作をご確認ください。ターゲット言語を選択してから、マイクをクリックして朗読を開始します。または、サンプル音声フレーズのいずれかをクリックしてください。*

アクションからご覧ください

マイクを使用してご自分の音声でデモを試すには、WebRTC をサポートする別のブラウザー (最新バージョンの Microsoft Edge、Firefox、Chrome など) に変更してください。

使ってみたいですか?

Custom Speech Service: カスタム モデルを使った音声文字起こし

話し方、ボキャブラリ、背景ノイズといった音声認識の障壁を克服可能です。Microsoft の音声認識技術は、複数の API を連携させてテキスト出力を生成します。これらの API は、お客様がそのニーズと利用可能なデータに合わせてカスタマイズできます。

アクションからご覧ください

例文

ベースライン

Custom Speech

ユーザーの発話形式に合わせて調整されたカスタム言語モデルの作成

変化に富んだボキャブラリや発話形式が、解釈の妨げにならないようにする必要があります。業界的な表現や技術用語、地理的な用語、マーケット用語、さらには話者のスタイルにも合わせて、アプリの音声認識の言語モデルを調整し、カスタマイズしましょう。

カスタム音響モデルを使ってユーザーの環境に適応

アプリの音声認識をあらゆる環境で確実に機能させましょう。カスタム音響モデルを使用すれば、バックグラウンド ノイズを加味し、想定されるユーザーの環境に適合させることができます。

Microsoft の信頼性の高い音声モデルを使う

Microsoft に既にある最先端のモデルを基盤にカスタマイズした独自の音声認識モデルを構築することで、強力でパーソナル化された音声認識を実現できます。

使ってみたいですか?

音声認識シナリオの考察

インテリジェント キオスク

音声認識サービスと Language Understanding を組み合わせると、アプリとユーザーの自然な対話が可能になります。ユーザーの質問は、音声テキスト変換を使ってキャプチャします。次に、Language Understanding を使って意図を解析して、適切な応答を組み立てます。その後、テキスト読み上げを使って、テキストから音声による応答を合成します。銀行、旅行、エンターテイメントなど、さまざまなシナリオ向けに、会話型のインターフェイスを作成することができます。

商用チャットボット

Ticari sohbet botuAzure Bot Hizmeti ve Language Understanding hizmeti birlikte kullanıldığında, geliştiricilerin bankacılık, seyahat ve eğlence gibi çeşitli senaryolara yönelik konuşma tabanlı arabirimler oluşturmasına imkan tanır. Örneğin, bir otelin danışma görevlisi bot kullanarak geleneksel e-posta ve telefon görüşmesi etkileşimleri yerine müşteriyi Azure Active Directory aracılığıyla doğrulayabilir ve Bilişsel Hizmetler’i kullanarak metin ve ses aracılığıyla müşterinin isteklerini bağlamsal olarak daha iyi işleyebilir. Sesli komut desteği için Konuşma tanıma hizmeti eklenebilir.1237456
  1. 概要
  2. フロー

Azure Bot Service と Language Understanding サービスを組み合わせることで、開発者は銀行、旅行、エンターテイメントなどのさまざまなシナリオに合わせた会話型のインターフェイスを作成できます。たとえば、ホテルのコンシェルジュは、ボットを使用して Azure Active Directory で顧客を認証し、Cognitive Services でテキストや音声を使用して顧客の要求を文脈から処理することで、従来の電子メールや電話でのやりとりを強化できます。音声認識サービスを追加すると、音声コマンドに対応できるようになります。

  1. 1 ユーザーがお客様のモバイル アプリを使用します
  2. 2 Azure AD B2C を使用して、ユーザーが認証します
  3. 3 カスタム Application Bot を使用して、ユーザーが情報を要求します
  4. 4 Cognitive Services が自然言語の要求を処理します
  5. 5 自然な会話を使用して質問を改善できるユーザーが応答をレビューします
  6. 6 ユーザーが結果に満足すれば、Application Bot がユーザーの予約を更新します
  7. 7 Application Insights が、ランタイム テレメトリを収集して、ボットのパフォーマンスと使用方法により開発をサポートします

Cognitive Services APIs を詳しく見る

Computer Vision

画像から意思決定に役立つ情報を抽出

Face

写真に含まれる顔の検出、識別、分析、グループ化、タグ付け

Video Indexer

動画の洞察を解放

Content Moderator

画像、テキスト、ビデオを自動モデレート

Custom Vision プレビュー

貴社の最先端のコンピューター ビジョン モデルを、独自の用途向けに簡単にカスタマイズできます

Text Analytics

センチメントとトピックを簡単に評価して、ユーザーが求めるものを理解

Translator Text

シンプルな REST API 呼び出しで機械翻訳を簡単に実行

Bing Spell Check

アプリでのスペル ミスを検出して修正

Content Moderator

画像、テキスト、ビデオを自動モデレート

Language Understanding

ユーザーが入力したコマンドをアプリが理解できるようにします。

Speech Services

音声テキスト変換、テキスト読み上げ、音声翻訳のための統合Speech Services

Speaker Recognition プレビュー

音声を使用して個々の話者を識別および検証

QnA Maker

情報から会話形式のナビゲーションしやすい回答を抽出

アンビエント デバイスを構築したり、カスタム ウェイク ワードを作成したりするには、Speech Devices SDK を使用します。

詳細情報