ナビゲーションをスキップする

音声サービス

統合音声サービスで音声をテキストに変換し、音声翻訳と音声合成を実行

Speech to Text - 発話された音声をテキストに変換して直感的な対話を実現

音声コマンド、リアルタイム文字起こし、コール センターのログ分析などで使うリアルタイム音声変換機能をアプリケーションに簡単に追加しましょう。

音声認識モデルをカスタマイズすることで、ユーザーの発話形式、表現、独特のボキャブラリに合わせて調整したり、実際のシナリオに応じて特定のバックグラウンド ノイズ、アクセント、音声パターンに適応したりすることができます。

詳細はこちら
Speech to Text

Text to Speech – 自然な音声をアプリに取り入れる

Text to Speech サービスを利用すると、ユーザーに対して自然に話し掛けるスマート アプリやスマート サービスを構築できます。ほぼリアルタイムでテキストを音声に変換したり、カスタマイズして読み上げ速度、音の高さ、音量などを変更したりすることができます。

カスタム音声モデルを使って、世界に 1 つしかない、それとわかるブランドの音声をアプリケーションに取り入れましょう。トレーニング データを録音してアップロードするだけで、録音内容に合わせてチューニングされた独自の音声フォントが自動的に作成されます。

詳細はこちら
テキストから音声へ

音声翻訳

サポート対象の任意の言語でリアルタイム音声翻訳機能をアプリに実装することにより、テキスト翻訳または音声翻訳を利用することができます。音声翻訳モデルには、音声認識とニューラル機械翻訳 (NMT) の最先端テクノロジが利用されています。実世界における人の話し方を理解し、きわめて高い品質の翻訳を生成するように最適化されています。

詳細はこちら
音声翻訳
"We are impressed with the initial transcription accuracy of Custom Speech and Speaker Recognition. We are now working to optimise for a live environment which would be breakthrough for British Telecom Sport versus the current manual process."

Kevin Blyth, British Telecom Research and Innovation

Cognitive Services APIs を詳しく見る

Computer Vision

画像から意思決定に役立つ情報を抽出

Face

写真に含まれる顔の検出、識別、分析、グループ化、タグ付け

Video Indexer プレビュー

動画の洞察を解放

Content Moderator

画像、テキスト、ビデオを自動モデレート

Custom Vision プレビュー

貴社の最先端のコンピューター ビジョン モデルを、独自の用途向けに簡単にカスタマイズできます

Text Analytics

センチメントとトピックを簡単に評価して、ユーザーが求めるものを理解

Translator Text

シンプルな REST API 呼び出しで機械翻訳を簡単に実行

Bing Spell Check

アプリでのスペル ミスを検出して修正

Content Moderator

画像、テキスト、ビデオを自動モデレート

Language Understanding

ユーザーが入力したコマンドをアプリケーションが理解できるようにします。

Bing Speech

音声をテキストへ、またそのテキストを再び音声に変換し、ユーザーの意図を理解

Speaker Recognition プレビュー

音声を使用して個々の話者を識別および検証

Translator Speech

シンプルな REST API 呼び出しでリアルタイムの音声翻訳を簡単に実行

Custom Speech プレビュー

話し方、背景ノイズ、ボキャブラリといった音声認識の障壁を打開

音声サービス プレビュー

音声テキスト変換、テキスト読み上げ、音声翻訳のための統合音声サービス

QnA Maker

情報から会話形式のナビゲーションしやすい回答を抽出

Custom Decision プレビュー

クラウドべースの文脈に応じた意思決定 API。学習により精度が高まります

アプリをパワーアップさせる準備はできていますか?