Ignorar Navegação
JÁ DISPONÍVEL

Apresentamos o Cliente de Ingestão para a Voz do Azure

Data de publicação: 28 junho, 2021

A Voz é um serviço dos Serviços Cognitivos do Azure através do qual pode criar soluções dimensionáveis capazes de lidar com várias tarefas relacionadas com voz, como transcrever áudio, produzir vozes com som natural, reconhecer o orador e processar traduções de voz.

Estamos a apresentar hoje o Cliente de Ingestão, uma solução do Azure que vai monitorizar o seu contentor dedicado do Armazenamento do Azure, para que os ficheiros de áudio guardados nesse armazenamento sejam automaticamente transcritos.

Criámos esta ferramenta para ajudar a configurar um pipeline de transcrição completo, seguro e dimensionável através de definições simples e sem envolver qualquer esforço em termos de desenvolvimento. O Cliente de Ingestão incorpora melhores práticas para maximizar os pedidos de transcrição em termos de dimensionamento (para centenas de milhares de ficheiros), gestão de erros, lógica de repetição e várias outras otimizações. Esta configuração é levada a cabo através da implementação do ARM. A arquitetura da solução que este modelo do ARM implementa está descrita na imagem abaixo.

 

Interface gráfica, diagrama, aplicação

Descrição gerada automaticamente

Quando um utilizador carrega um ficheiro de áudio para o contentor dedicado do Armazenamento do Azure, as Funções do Azure acionadas por temporizador selecionam esse ficheiro e criam um pedido de transcrição com a API REST Voz em Texto v3.0 ou o SDK de Voz (escolha do utilizador). Após a conclusão bem-sucedida da transcrição, a solução escreve-a para o contentor a partir do qual o ficheiro de áudio foi obtido. Além disso, os utilizadores podem optar por aplicar análises na transcrição, produzir ou redigir relatórios, que são todos o resultado da implementação de recursos adicionais através do modelo do ARM.

Explore o nosso guia para obter mais informações sobre a ferramenta e as notas de instalação e transfira o código a partir deste repositório do GitHub.

  • Speech to Text
  • Serviços de Voz
  • Operating System
  • SDK and Tools