Ignorar Navegação

Conversão de Voz em Texto

Converta áudio em texto com facilidade para assegurar uma capacidade de resposta natural. A API de Conversão de Voz em Texto faz parte dos serviços de Voz.

Transcrição de voz

Converta áudio falado em texto. Chame a API para reconhecer áudio proveniente do microfone, de outras origens de áudio de transmissão em fluxo em tempo real ou de um ficheiro de áudio gravado. Enquanto o áudio é enviado para o servidor, são-lhe devolvidos resultados de reconhecimento parcial, caso assim o solicite.

Pode utilizar a API para criar aplicações inteligentes acionadas por voz. Experimente a demonstração para ver como funciona. Selecione o idioma de destino, clique no microfone e comece a falar. Ou clique apenas numa das expressões de voz de exemplo.*

Veja-o em ação

Para experimentar a demonstração com a sua voz através de um microfone, altere para um browser diferente com suporte WebRTC, por exemplo, uma versão recente do Microsoft Edge, do Firefox ou do Chrome.

Quer criá-lo?

Serviço de voz personalizada: Transcrição de Voz com o Modelo Personalizado

Ultrapasse barreiras de reconhecimento de voz, como o estilo de fala, o vocabulário e o barulho de fundo. As nossas tecnologias de reconhecimento de voz combinam várias APIs para produzir a saída de texto. Os clientes podem personalizar as APIs às respetivas necessidades e aos dados disponíveis.

Veja-o em ação

Frases de Exemplo

Linha de base

Voz Personalizada

Crie modelos de idioma personalizados adaptados aos estilos de discurso dos utilizadores

Não permita que as variações de vocabulário e os estilos de discurso impeçam a compreensão. Personalize o modelo de idioma do reconhecimento de voz da sua aplicação ao adaptá-lo às expressões do seu setor, aos termos técnicos, geográficos ou de mercado e até ao estilo do orador.

Adaptação ao ambiente do utilizador com modelos acústicos personalizados

Certifique-se de que o reconhecimento de voz da sua aplicação funciona em todos os ambientes. Com os modelos acústicos personalizados, pode filtrar o barulho de fundo e corresponder aos ambientes esperados dos seus utilizadores.

Utilize modelos de voz robustos da Microsoft

Utilize reconhecimento de voz poderoso e personalizado ao criar os seus próprios modelos de reconhecimento de voz personalizados com base nos modelos de última geração existentes da Microsoft.

Quer criá-lo?

Explore um cenário de voz

Quiosque inteligente

Os serviços de voz combinados com o Language Understanding permite a interação natural entre as aplicações e os utilizadores. Utilize a Conversão de Voz em Texto para capturar a pergunta de um utilizador, o Language Understanding para analisar a intenção e formular a resposta adequada e a Conversão de Texto em Voz para sintetizar o texto numa resposta de voz. Crie interfaces de conversação para diferentes cenários como banca, viagens e entretenimento.

Commerce Chatbot

Chatbot de comércioJuntos, o Serviço de Bot do Azure e o serviço de Reconhecimento Vocal permitem que os desenvolvedores criem interfaces de conversação para vários cenários, como bancos, viagens e entretenimento. Por exemplo, o concierge de um hotel pode usar um bot para aprimorar as interações tradicionais de email e chamada telefônica ao validar um cliente por meio do Azure Active Directory e usar os Serviços Cognitivos para melhor processar as solicitações dos clientes de forma contextual usando texto e voz. O serviço de reconhecimento de fala pode ser adicionado para dar suporte a comandos de voz.1237456
  1. Descrição geral
  2. Flow

Descrição geral

Juntos, o Azure Bot Service e o serviço de Compreensão de Idiomas permitem aos programadores criar interfaces conversacionais para vários cenários como banca, turismo e entretenimento. Por exemplo, o funcionário de um hotel pode utilizar um bot para melhorar as interações tradicionais por e-mail e telefone ao validar um cliente através do Azure Active Directory e com os Serviços Cognitivos para processar melhor contextualmente os pedidos dos clientes com texto e voz. O serviço de reconhecimento de Voz pode ser adicionado para suportar os comandos de voz.

Flow

  1. 1 O cliente utiliza a sua aplicação móvel
  2. 2 Com o Azure AD B2C, o utilizador autentica-se
  3. 3 Com o Application Bot personalizado, o utilizador solicita informações
  4. 4 Os Serviços Cognitivos ajudam a processar o pedido de linguagem natural
  5. 5 A resposta é revista pelo cliente que pode ajustar a questão com conversa natural
  6. 6 Quando o utilizador estiver satisfeito com os resultados, o Application Bot atualiza a reserva do cliente
  7. 7 O Application Insights recolhe telemetria do runtime para apoiar o desenvolvimento com o desempenho e utilização do Bot

Explore as APIs Serviços Cognitivos

Imagem Digitalizada

Separar informações acionáveis de imagens

Face

Detete, identifique, analise, organize e assinale rostos em fotos

Indexador de Vídeo

Desbloqueie informações de vídeo

Content Moderator

Moderação automática de imagens, texto e vídeo

Visão Personalizada PRÉ-VISUALIZAÇÃO

Personalize facilmente os seus modelos de imagem digitalizada de ponta para o seu cenário de utilização específico

Análise de Texto

Avalie sentimentos e tópicos facilmente, de modo a compreender o que os utilizadores querem

Texto do Tradutor

Realize facilmente traduções automática com uma simples chamada à API REST

Verificação de Ortografia do Bing

Detete e corrija erros ortográficos na aplicação

Content Moderator

Moderação automática de imagens, texto e vídeo

Language Understanding

Ensine as suas aplicações a compreender comandos dados pelos utilizadores

Serviços de Voz

Serviços de voz unificados para conversão de voz para texto, texto para voz e tradução de voz

Reconhecimento de Orador PRÉ-VISUALIZAÇÃO

Utilize a voz para identificar e verificar oradores individuais

QnA Maker

Converta informações em respostas de conversação fáceis de navegar

Utilize o SDK de Dispositivos de Voz para criar um dispositivo de ambiente e criar uma palavra personalizada para iniciar a interação

Saber mais