ナビゲーションをスキップする

Speech to Text

音声をテキストに正確に文字起こしする Speech サービス機能

会話音声を実用的なものにする

85 を超える言語とバリエーションで、音声をすばやく正確にテキストに書き起こします。モデルをカスタマイズして、専門分野固有の用語の精度を高めます。文字起こしされたテキストの検索や分析を有効にしたり、アクションを促進したりして、お好みのプログラミング言語で音声からより多くの価値を引き出すことができます。

高品質な文字起こし

最新の音声認識を使用して、音声からテキストへの正確な文字起こしを行います。

カスタマイズ可能なモデル

基本ボキャブラリに特定の単語を追加するか、独自の音声変換モデルを構築します。

柔軟性の高いデプロイ

クラウド、コンテナーを使用したエッジで、どこでも Speech to Text を実行できます。

実稼働可能

Microsoft 製品全体にわたり音声認識を強化するテクノロジと同一の堅牢なテクノロジにアクセスできます。

この JavaScript SDK に基づいて作成されたデモ アプリで Speech to Text をお試しください

マイクを使用してご自分の音声でデモを試すには、WebRTC をサポートする別のブラウザー (最新バージョンの Microsoft Edge、Firefox、Chrome など) に変更してください。

お客様の音声データは保存されません

さまざまなソースの音声を正確に文字起こしする

マイク音声ファイルBLOB ストレージなどのさまざまなソースから音声をテキストに変換します。話者ダイアライゼーションを使用して、誰が何をいつ話したかを判断します。自動書式と句読点を使用して、読みやすい音声テキストを取得します。

ニーズに合わせて音声モデルをカスタマイズする

音声モデルを調整して、組織や業界固有の用語を理解します。背景ノイズ、アクセント、独特のボキャブラリなどの音声認識の障壁を克服します。音声データと音声テキストをアップロードしてモデルをカスタマイズします。Office 365 データを使用してカスタム モデルを自動的に生成し、組織の音声認識精度を最適化します。

任意の場所にデプロイ

データがある場所ならどこでも Speech to Text を実行できます。コンテナーを使用して、堅牢なクラウド機能とオンプレミス用に最適化された音声アプリケーションを構築します。

包括的なプライバシーとセキュリティ

  • Azure Cognitive Services の一部である Speech サービスは、SOC、FedRAMP、PCI DSS、HIPAA、HITECH、ISO により認定を受けています。
  • お客様のデータはお客様が管理します。音声入力や文字起こしデータは、音声処理中に記録されることはありません。
  • カスタム音声データとモデルは、いつでも表示や削除することができます。お客様のデータは、ストレージに格納されている間、暗号化されます。
  • Azure インフラストラクチャを基盤とする Speech サービスは、エンタープライズ レベルのセキュリティ、可用性、コンプライアンス、管理性を提供します。

柔軟な価格設定で必要な制御を実現

Speech to Text は、文字起こしする音声の時間数に基づく従量課金制で、初期費用はかかりません。

ドキュメントおよびリソース

始める

ドキュメントを参照する

Microsoft Learn のコースで音声サービスを作成

コード サンプルを確認する

サンプル コードを確認する

カスタマイズのリソースを見る

Speech Studio を使用して、音声テキスト変換ソリューションをカスタマイズします。コードは不要です。

Speech to Text を信頼する企業

KPMG は通話の文字起こしを合理化

KPMG は Speech to Text を使用して、数千時間の通話を文字起こししてカタログを作成することにより、クライアントのコンプライアンスに関するコストを 80% も削減しています。

KPMG

Motorola は音声を使用して緊急対応要員のアクセスを支援

Motorola Solutions は、音声を使用した仮想アシスタントによって、警察官や他の緊急対応要員が重要な情報により迅速にアクセスできるよう支援しています。

Motorola Solutions

Universal Electronics は音声対応のスマート ホーム エクスペリエンスを提供

Universal Electronics は、家庭にある日常的なデバイス全体で動作する音声対応のナビゲーションおよび制御機能を提供し、真にユニークな顧客エクスペリエンスを提供できるよう、企業を支援しています。

Universal Electronics

Hochtief は音声を使用して建設の欠陥を文書化

Hochtief は、音声対応の仮想アシスタントを使用して、プロジェクト マネージャーがプロジェクト現場で建設の欠陥を特定し、文書化するのを支援しています。

Cheetah Mobile

NTT データは会議の分析情報で意思決定を加速

NTT データは、リアルタイムでの会議の文字起こしにより、音声データから分析情報を取得しています。また Custom Speech を使用して、組織固有の用語を理解できるよう音声認識モデルをカスタマイズすることができます。

NTTDATA

Insight は会話型の銀行業務エクスペリエンスを強化

Insight Enterprises は会話型 AI を搭載した銀行業務ソリューションで、銀行の各支店でのデジタルのスピードと利便性の向上を支援しています。Speech to Text は、顧客が話した内容をデータに変換して処理、分析します。それにより顧客は、タイムリーで適切な回答を得ることができます。

Insight Enterprise, Inc.

Speech to Text に関してよく寄せられる質問

  • これは、音声をテキストに正確かつ迅速に文字起こしする、Speech サービス内の機能です。
  • Cognitive Services は、AI をアプリケーションに追加するために使用できる、カスタマイズ可能な事前構築済み AI モデルのコレクションです。Speech、Decision、Language、Vision など、さまざまなドメインがあります。Speech to Text は、Speech サービス内の 1 つの機能です。Speech 関連のその他の機能には、Text to SpeechSpeech TranslationSpeaker Recognition が含まれます。Decision サービスの 1 つの例は、Personalizer です。これを使用すると、パーソナライズされた関連エクスペリエンスを提供できます。Language サービスの例には、Language Understanding、自然言語処理用の Text Analytics、FAQ エクスペリエンス用の QnA Maker、言語翻訳用の Translator が含まれます。

Speech の使用を開始する