Speech Services

統合Speech Servicesで音声をテキストに変換し、音声翻訳と音声合成を実行

Speech to Text - 発話された音声をテキストに変換して直感的な対話を実現

音声コマンド、会話の文字起こし、コール センターのログ分析などで使うリアルタイム音声テキスト変換機能をアプリケーションに簡単に追加しましょう。

音声認識モデルをカスタマイズすることで、ユーザーの発話形式、表現、独特のボキャブラリに合わせて調整したり、バックグラウンド ノイズ、アクセント、音声パターンに適応したりすることができます。

Speech to Text

Text to Speech – 自然な音声をアプリに取り入れる

Text to Speech サービスを利用すると、ユーザーに対して自然に話し掛けるスマート アプリやスマート サービスを構築できます。ほぼリアルタイムでテキストを音声に変換したり、カスタマイズして読み上げ速度、音の高さ、音量などを変更したりすることができます。

カスタム音声モデルを使って、世界に 1 つしかない、それとわかるブランドの音声をアプリケーションに取り入れましょう。トレーニング データを録音してアップロードするだけで、録音内容に合わせてチューニングされた独自の音声フォントが自動的に作成されます。

Text to Speech

Speech Translation

サポート対象の任意の言語でリアルタイム音声翻訳機能をアプリに実装することにより、テキスト翻訳または音声翻訳を利用することができます。音声翻訳モデルには、音声認識とニューラル機械翻訳 (NMT) の最先端テクノロジが利用されています。実世界における人の話し方を理解し、きわめて高い品質の翻訳を生成するように最適化されています。

Speech Translation

Speech Services に基づくビジネス シナリオ

すべての通話の文字起こしを容易に行い、コール センター シナリオ用に強化されたバッチ文字起こしとカスタム音声サービスによって、結果を最適化します。全文検索のために通話記録にインデックスを付けたり、分析情報を得るためにテキスト分析を適用してセンチメント、言語、キー フレーズを検出したりします。

Business Speech Services
"We are impressed with the initial transcription accuracy of Custom Speech and Speaker Recognition. We are now working to optimise for a live environment which would be breakthrough for British Telecom Sport versus the current manual process."

Kevin Blyth, British Telecom Research and Innovation

Cognitive Services APIs を詳しく見る

Computer Vision

Distill actionable information from images


Detect, identify, analyze, organize, and tag faces in photos

Ink Recognizer プレビュー

An AI service that recognizes digital ink content, such as handwriting, shapes, and ink document layout

Video Indexer

Unlock video insights

Custom Vision

Easily customize your own state-of-the-art computer vision models for your unique use case

Form Recognizer プレビュー

The AI-powered document extraction service that understands your forms

Text Analytics

Easily evaluate sentiment and topics to understand what users want

Translator Text

Easily conduct machine translation with a simple REST API call

Bing Spell Check

Detect and correct spelling mistakes in your app

QnA Maker

Distill information into conversational, easy-to-navigate answers

Language Understanding

Teach your apps to understand commands from your users

Speech Services

Unified speech services for speech-to-text, text-to-speech and speech translation

Speaker Recognition プレビュー

Use speech to identify and verify individual speakers

Content Moderator

Automated image, text, and video moderation

Anomaly Detector プレビュー

Easily add anomaly detection capabilities to your apps.

Personalizer プレビュー

An AI service that delivers a personalized user experience