Omitir navegación
YA DISPONIBLE

Presentación de Ingestion Client para el servicio de voz de Azure

Fecha de publicación: 28 junio, 2021

El servicio de voz de Azure Cognitive Services permite crear soluciones escalables que pueden controlar una gran variedad de tareas relacionadas con la voz, como la transcripción de audio, la producción de voces que suenen naturales, el reconocimiento del hablante y la traducción de voz.

Hoy presentamos Ingestion Client, una solución de Azure que supervisa su contenedor de Azure Storage dedicado para que los archivos de audio que lleguen a ese almacenamiento se transcriban automáticamente.

Hemos creado esta herramienta para ayudarlo a configurar una canalización de transcripción completa, escalable y segura de forma sencilla y sin ningún trabajo de desarrollo. Ingestion Client incorpora procedimientos recomendados para maximizar las solicitudes de transcripción en términos de escalabilidad (a cientos de miles de archivos), administración de errores, lógica de reintentos y otras optimizaciones. La configuración se lleva a cabo a través de la implementación con ARM. La arquitectura de la solución que implementa esta plantilla de ARM se describe en la siguiente ilustración.

 

Interfaz gráfica de usuario, diagrama, aplicación

Descripción generada automáticamente

Cuando un usuario carga un archivo de audio en el contenedor de Azure Storage dedicado, Azure Functions, desencadenado por un temporizador, selecciona el archivo y crea una solicitud de transcripción mediante la API REST Speech to Text v3.0 o el SDK del servicio de voz (a elección del usuario). Cuando la transcripción se completa correctamente, la solución la escribe en los contenedores de los que se obtuvo el archivo de audio. Además, los usuarios tienen la opción de aplicar análisis a la transcripción, generar informes o cambiar la redacción, todo ello con recursos adicionales que se implementan con la plantilla de ARM.

Explore nuestra guía para obtener más información sobre la herramienta y las notas de instalación. Puede descargar el código de este repositorio de GitHub .

  • Speech to Text
  • Servicios de voz
  • Operating System
  • SDK and Tools