Ignorar navegação

Conversão de Fala em Texto

Converta rapidamente um áudio em texto para uma capacidade de resposta natural. A API de Conversão de Fala em Texto faz parte dos serviços de Fala.

Transcrição de fala

Converta áudio falado em texto. Chame a API para reconhecer o áudio proveniente do microfone, de outras fontes de áudio de streaming em tempo real ou de um arquivo de áudio gravado. Conforme o áudio é enviado ao servidor, os resultados do reconhecimento parcial são retornados, se solicitados.

Use a API para criar aplicativos inteligentes acionados por voz. Experimente a demonstração para ver como ela funciona. Selecione seu idioma de destino e, em seguida, clique no microfone e comece a falar. Ou apenas clique em uma das frases de fala de exemplo.*

Veja-a em ação

Para experimentar a demonstração com sua própria voz usando um microfone, mude para um navegador diferente com suporte a WebRTC, por exemplo, uma versão recente do Microsoft Edge, Firefox ou Chrome.

Deseja criar isso?

Serviço de fala personalizado: transcrição de fala com um modelo personalizado

Supere as barreiras do reconhecimento de fala, como estilo de fala, vocabulário e ruído de fundo. Nossas tecnologias de reconhecimento de fala combinam várias APIs para produzir a saída de texto. Os clientes podem personalizar as APIs de acordo com suas necessidades e os dados disponíveis.

Veja-a em ação

Frases de exemplo

Linha de base

Fala Personalizada

Crie modelos de idioma personalizados adaptados aos estilos de fala dos usuários

Não deixe que conjuntos de vocabulário e estilos de fala variados impeçam a compreensão. Personalize o modelo de idioma do reconhecimento de fala de seu aplicativo adaptando-o às expressões do setor, aos termos técnicos, geográficos ou de mercado e até ao estilo do palestrante.

Adapte-se ao ambiente do usuário com modelos acústicos personalizados

Verifique se o reconhecimento de fala de seu aplicativo pode funcionar em todos os ambientes. Com modelos acústicos personalizados, você pode levar em conta o ruído de fundo e ajustar-se aos ambientes esperados dos usuários.

Use os modelos de fala robustos da Microsoft

Possibilite um reconhecimento de fala avançado e personalizado criando seus próprios modelos de reconhecimento de fala personalizados, além dos modelos de última geração existentes da Microsoft.

Deseja criar isso?

Explore um cenário de fala

Quiosque inteligente

Os serviços de fala combinados com o Reconhecimento Vocal permitem que aplicativos e usuários interajam naturalmente. Use a Conversão de Fala em Texto para capturar a pergunta de um usuário, o Reconhecimento Vocal para analisar a intenção e formular uma resposta apropriada e a Conversão de Texto em Fala para sintetizar o texto em uma resposta falada. Crie interfaces conversacionais para vários cenários, como serviços bancários, viagens e entretenimento.

Chatbot de comércio

Commerce chatbotTogether, the Azure Bot Service and Language Understanding service enable developers to create conversational interfaces for various scenarios like banking, travel, and entertainment. For example, a hotel’s concierge can use a bot to enhance traditional e-mail and phone call interactions by validating a customer via Azure Active Directory and using Cognitive Services to better contextually process customer requests using text and voice. The Speech recognition service can be added to support voice commands.1237456
  1. Visão geral
  2. Fluxo

Juntos, o Serviço de Bot do Azure e o serviço de Reconhecimento Vocal permitem que os desenvolvedores criem interfaces de conversação para vários cenários, como bancos, viagens e entretenimento. Por exemplo, o concierge de um hotel pode usar um bot para aprimorar as interações tradicionais de email e chamada telefônica ao validar um cliente por meio do Azure Active Directory e usar os Serviços Cognitivos para melhor processar as solicitações dos clientes de forma contextual usando texto e voz. O serviço de reconhecimento de fala pode ser adicionado para dar suporte a comandos de voz.

  1. 1 O cliente usa seu aplicativo móvel
  2. 2 Usando o Azure AD B2C, o usuário autentica
  3. 3 Usando o Bot de Aplicativo personalizado, o usuário solicita as informações
  4. 4 Os Serviços Cognitivos ajudam a processar a solicitação de linguagem natural
  5. 5 A resposta é revisada pelo cliente, que pode refinar a pergunta usando uma conversa natural
  6. 6 Assim que o usuário ficar satisfeito com os resultados, o Bot de Aplicativo atualiza a reserva do cliente
  7. 7 O Application Insights reúne a telemetria do tempo de execução para ajudar o desenvolvimento com o desempenho e uso do Bot

Explore a API de Serviços Cognitivos

Visual Computacional

Extraia informações acionáveis de imagens

Face

Detectar, identificar, analisar, organizar e marcar rostos em fotos

Video Indexer VISUALIZAÇÃO

Obtenha insights para vídeos

Content Moderator

Moderação automática de vídeo, texto e imagem

Visão Personalizada VISUALIZAÇÃO

Personalize facilmente seus próprios modelos visuais de computação modernos de acordo com o seu caso de uso exclusivo

Análises de texto

Avalie sentimentos e tópicos com facilidade para entender o que os usuários querem

Tradução de Texto

Faça traduções automáticas com uma simples chamada à API REST

Verificação Ortográfica do Bing

Detectar e corrigir erros de ortografia em seu aplicativo

Content Moderator

Moderação automática de vídeo, texto e imagem

Reconhecimento Vocal

Ensine seus aplicativos a entenderem comandos dos usuários

Fala do Bing

Converta fala em texto e vice-versa para entender a intenção do usuário

Reconhecimento do Locutor VISUALIZAÇÃO

Use a fala para identificar e verificar locutores individuais

Tradução de Fala

Realize traduções de falas em tempo real com uma simples chamada à API REST

Fala Personalizada VISUALIZAÇÃO

Supere as barreiras para o reconhecimento de fala como estilo de fala, ruído de fundo e vocabulário

Serviços de Fala VISUALIZAÇÃO

Serviços de fala unificados para conversão de fala em texto, conversão de texto em fala e tradução de fala

QnA Maker

Transforme informações em respostas com formato de conversação e de fácil navegação

Use o SDK de Dispositivos de Fala para criar um dispositivo ambiente e uma palavra de ativação personalizada

Saiba mais