Passer la navigation
DISPONIBLE IMMÉDIATEMENT

Présentation du client d’ingestion pour Azure Speech

Date de publication : 28 juin, 2021

Speech est un service cognitif Azure qui vous permet de créer des solutions scalables capables de gérer diverses tâches liées à la parole, comme transcrire l’audio, produire des voix naturelles, reconnaître qui parle et gérer la traduction vocale.

Aujourd’hui, nous présentons le client d’ingestion, une solution Azure qui surveillera votre conteneur Stockage Azure dédié, afin que les fichiers audio qui arrivent dans ce stockage soient automatiquement transcrits.

Nous avons créé cet outil pour vous aider à configurer un pipeline de transcription complet, scalable et sécurisé via une configuration simple et sans aucun effort de développement. Le client d’ingestion intègre les meilleures pratiques pour optimiser les demandes de transcription en termes de mise à l’échelle (jusqu’à des centaines de milliers de fichiers), de gestion des erreurs, de logique de nouvelle tentative et d’autres optimisations. La configuration est effectuée via le déploiement ARM. L’architecture de la solution que ce modèle ARM déploie est décrite dans la figure ci-dessous.

 

Interface graphique utilisateur, diagramme, application

Description générée automatiquement

Lorsqu’un utilisateur charge un fichier audio sur le conteneur Stockage Azure dédié, le minuteur déclenchant Azure Functions sélectionne ce fichier et crée une demande de transcription à l’aide de l’API REST de synthèse vocale v3.0 ou du SDK Speech (selon le choix de l’utilisateur). Une fois la transcription correctement effectuée, la solution écrit la transcription dans les conteneurs à partir desquels le fichier audio a été obtenu. En outre, les utilisateurs peuvent choisir d’appliquer des analytiques sur la transcription, de produire des rapports ou de flouter du texte, qui résultent tous de ressources supplémentaires déployées via le modèle ARM.

Explorez notre guide pour plus d’informations sur l’outil et les notes d’installation et téléchargez le code à partir de ce dépôt GitHub.

  • Reconnaissance vocale
  • Services Speech
  • Operating System
  • SDK and Tools