Conversão de Voz em Texto

Converta áudio em texto com facilidade para assegurar uma capacidade de resposta natural.

A conversão de voz em texto dos Serviços Cognitivos oferece uma gama de capacidades que pode incorporar nas suas aplicações para o suporte de vários cenários de transcrição, incluindo transcrição de conversas, transcrição de voz e transcrição de voz personalizada.

Transcrição de conversas

Ative a transcrição de reuniões presencial. A transcrição de conversas capta voz em tempo real para que todos possam participar de forma igual na discussão, identificar quem disse o quê e quando e com acompanhamento rápido nos passos seguintes.

Utilize a transcrição de conversas para:

  • Captar voz proveniente de toda a sala de reuniões.
  • Contribuir para a segurança dos dados com certificados de conformidade e segurança líder do setor.
  • Suportar configurações de reunião e conferência que requerem o uso de microfones e câmaras de vídeo, através do emparelhamento com o SDK de Dispositivos de Voz.

Veja-o em ação

Ocorreu um erro ao carregar esta demonstração. Aguarde e tente novamente

Orador Transcrição

Esta demonstração é incompatível com o seu browser. Para uma melhor experiência, utilize outro browser.

Quer criá-lo?

Transcrição de voz

Converta áudio falado em texto. Chame a API para reconhecer áudio proveniente do microfone, de outras origens de áudio de transmissão em fluxo em tempo real ou de um ficheiro de áudio gravado. Enquanto o áudio é enviado para o servidor, são-lhe devolvidos resultados de reconhecimento parcial, caso assim o solicite.

Pode utilizar a API para criar aplicações inteligentes acionadas por voz. Experimente a demonstração para ver como funciona. Selecione o idioma de destino, clique no microfone e comece a falar. Ou clique apenas numa das expressões de voz de exemplo.*

Veja-o em ação

Para experimentar a demonstração com a sua voz através de um microfone, altere para um browser diferente com suporte WebRTC, por exemplo, uma versão recente do Microsoft Edge, do Firefox ou do Chrome.

Quer criá-lo?

Serviço de voz personalizada: Transcrição de Voz com o Modelo Personalizado

Ultrapasse barreiras de reconhecimento de voz, como o estilo de fala, o vocabulário e o barulho de fundo. As nossas tecnologias de reconhecimento de voz combinam várias APIs para produzir a saída de texto. Os clientes podem personalizar as APIs às respetivas necessidades e aos dados disponíveis.

Veja-o em ação

Frases de Exemplo

Linha de base

Voz Personalizada

Crie modelos de idioma personalizados adaptados aos estilos de discurso dos utilizadores

Não permita que as variações de vocabulário e os estilos de discurso impeçam a compreensão. Personalize o modelo de idioma do reconhecimento de voz da sua aplicação ao adaptá-lo às expressões do seu setor, aos termos técnicos, geográficos ou de mercado e até ao estilo do orador.

Adaptação ao ambiente do utilizador com modelos acústicos personalizados

Certifique-se de que o reconhecimento de voz da sua aplicação funciona em todos os ambientes. Com os modelos acústicos personalizados, pode filtrar o barulho de fundo e corresponder aos ambientes esperados dos seus utilizadores.

Utilize modelos de voz robustos da Microsoft

Utilize reconhecimento de voz poderoso e personalizado ao criar os seus próprios modelos de reconhecimento de voz personalizados com base nos modelos de última geração existentes da Microsoft.

Quer criá-lo?

Explore um cenário de voz

Centro de atendimento

Serviços de VozCom os Serviços de Voz, é fácil transcrever todas as chamadas. Indexe a transcrição para pesquisa em texto completo ou aplique a Análise de Texto para detetar o sentimento, o idioma e expressões-chave. Se as suas gravações de centro de atendimento telefónico envolverem terminologia especializada (por exemplo, nomes de produtos ou gíria informática), crie um modelo de linguagem personalizado para ensinar aos Serviços de Voz esse vocabulário. Um modelo acústico personalizado ajuda os Serviços de Voz a compreender os oradores mesmo com ruído de fundo ou ligações telefónicas fracas. Para mais informações, leia sobre como funciona a transcrição em lote com os Serviços de Voz.
  1. Descrição geral
  2. Fluxo

Serviços de Voz

Descrição geral

Com os Serviços de Voz, é fácil transcrever todas as chamadas. Indexe a transcrição para pesquisa em texto completo ou aplique a Análise de Texto para detetar o sentimento, o idioma e expressões-chave. Se as suas gravações de centro de atendimento telefónico envolverem terminologia especializada (por exemplo, nomes de produtos ou gíria informática), crie um modelo de linguagem personalizado para ensinar aos Serviços de Voz esse vocabulário. Um modelo acústico personalizado ajuda os Serviços de Voz a compreender os oradores mesmo com ruído de fundo ou ligações telefónicas fracas.

Para mais informações, leia sobre como funciona a transcrição em lote com os Serviços de Voz.

Fluxo

  1. 1 Adaptar um modelo para o seu domínio e implementar esse modelo
  2. 2 Carregar os seus registos para um contentor de blobs
  3. 3 Criar um pedido POST para a transcrição em lote
  4. 4 Os Serviços de Voz agendam a tarefa de transcrição
  5. 5 Os ficheiros estéreos são divididos em dois canais
  6. 6 Os ficheiros mono são submetidos a diarização para ser feita a distinção entre os oradores
  7. 7 Descarregar a transcrição utilizando o ID de transcrição

Explore as APIs Serviços Cognitivos

Imagem Digitalizada

Separe informações acionáveis de imagens

Face

Detete, identifique, analise, organize e assinale rostos em fotos

Reconhecedor de Tinta Digital PRÉ-VISUALIZAÇÃO

Um serviço de IA que reconhece conteúdo de tinta digital, como escrita manual, formas e esquemas de documentos com tinta

Indexador de Vídeo

Desbloqueie informações de vídeo

Visão Personalizada

Personalize facilmente os seus modelos de imagem digitalizada de ponta para o seu cenário de utilização específico

Reconhecedor de Formato PRÉ-VISUALIZAÇÃO

O serviço de extração de documentos com suporte da IA que compreende os seus formulários

Análise de Texto

Avalie sentimentos e tópicos facilmente, de modo a compreender o que os utilizadores querem

Texto do Tradutor

Realize facilmente traduções automática com uma simples chamada à API REST

QnA Maker

Converta informações em respostas de conversação fáceis de navegar

Language Understanding

Ensine as suas aplicações a compreender comandos dados pelos utilizadores

Leitura Avançada PRÉ-VISUALIZAÇÃO

Capacitar os utilizadores de todas as idades e níveis de capacidade para os ajudar a ler e compreender textos

Serviços de Voz

Serviços de voz unificados para conversão de voz para texto, texto para voz e tradução de voz

Reconhecimento de Orador PRÉ-VISUALIZAÇÃO

Utilize a voz para identificar e verificar oradores individuais

Content Moderator

Moderação automática de imagens, texto e vídeo

Detetor de Anomalias PRÉ-VISUALIZAÇÃO

Adicione facilmente capacidades de deteção de anomalias às suas aplicações.

Personalizador PRÉ-VISUALIZAÇÃO

Um serviço de IA que proporciona uma experiência de utilizador personalizada

Utilize o SDK de Dispositivos de Voz para criar um dispositivo de ambiente e criar uma palavra personalizada para iniciar a interação

Saber mais