メイン コンテンツにスキップ
提供中

Azure Speech 用 Ingestion Client の導入

公開日: 6月 28, 2021

Speech は、音声の文字起こし、自然な音声の生成、話者の認識、音声翻訳の処理など、音声に関連するさまざまなタスクを処理できるスケーラブルなソリューションの構築を実現できる Azure Cognitive Service です。

本日は、Ingestion Client をご紹介します。これは、お客様専用の Azure Storage コンテナーを監視して、ストレージに格納された音声ファイルが自動的に文字起こしされるようにする Azure のソリューションです。

このツールは、簡単な設定で、開発者の手を煩わせることなく、本格的でスケーラブル、かつ安全な文字起こしパイプラインを構築できるよう作成されました。Ingestion Client には、スケーリング (数十万ファイルまで)、エラー管理、再試行ロジックなどのさまざまな最適化の観点から、文字起こしのリクエストを最大化するためのベスト プラクティスが取り入れられています。セットアップは ARM デプロイを通じて実行されます。 この ARM テンプレートによってデプロイされるソリューションのアーキテクチャについては、次の図をご覧ください。

 

グラフィカル ユーザー インターフェイス、図、アプリケーション

自動的に生成された説明

ユーザーが専用の Azure Storage コンテナーに音声ファイルをアップロードすると、タイマーによりトリガーされる Azure Functions によりこのファイルが選択され、Speech-to-text REST API v3.0 または Speech SDK (ユーザーのお好みで選択) を使用して、文字起こし要求が作成されます。文字起こしが正常に完了すると、このソリューションにより音声ファイルの取得元のコンテナーに文字起こしが書き込まれます。 さらに、ユーザーは文字起こしに分析を適用したり、レポートを作成したり、再編集したりすることができます。これらはすべて、ARM テンプレートを通じて追加のリソースをデプロイした場合に可能です。

ツールの詳細やインストール時の注意点については、こちらのガイドをご覧ください。また、コードはこちらの Github リポジトリからダウンロードできます。

  • Speech to Text
  • Azure AI Speech
  • Operating System
  • SDK and Tools