Conversão de Fala em Texto

Converta rapidamente um áudio em texto para uma capacidade de resposta natural.

A Conversão de Fala em Texto dos Serviços Cognitivos oferece uma variedade de funcionalidades que podem ser inseridas em seus aplicativos para dar suporte a vários cenários de transcrição, incluindo transcrição de conversas, transcrição de fala e transcrição de fala personalizada.

Transcrição de conversas

Habilite a transcrição de reunião presencial. A transcrição de conversas captura a fala em tempo real, de modo que todos os participantes da reunião poderão se envolver totalmente na discussão, identificar quem disse o quê e quando, além de acompanhar rapidamente as próximas etapas.

Use a transcrição de conversas para:

  • Capturar a fala de toda a sala de reunião.
  • Ajudar a proteger os dados com certificações de segurança e de conformidade líderes do setor.
  • Dar suporte às configurações de reunião e de conferência que usam microfones e câmeras de vídeo, por meio do emparelhamento com o SDK de Dispositivos de Fala.

Conheça o recurso

Ocorreu um erro ao carregar essa demonstração, espere e tente novamente

Palestrante Transcrição

Esta demonstração é incompatível com seu navegador. Para obter a melhor experiência, use um navegador diferente.

Want to build this?

Transcrição de fala

Converta áudio falado em texto. Chame a API para reconhecer o áudio proveniente do microfone, de outras fontes de áudio de streaming em tempo real ou de um arquivo de áudio gravado. Conforme o áudio é enviado ao servidor, os resultados do reconhecimento parcial são retornados, se solicitados.

Use a API para criar aplicativos inteligentes acionados por voz. Experimente a demonstração para ver como ela funciona. Selecione seu idioma de destino e, em seguida, clique no microfone e comece a falar. Ou apenas clique em uma das frases de fala de exemplo.*

Conheça o recurso

Para experimentar a demonstração com sua própria voz usando um microfone, mude para um navegador diferente com suporte a WebRTC, por exemplo, uma versão recente do Microsoft Edge, Firefox ou Chrome.

Want to build this?

Serviço de fala personalizado: Transcrição de Fala com Modelo Personalizado

Supere as barreiras do reconhecimento de fala, como estilo de fala, vocabulário e ruído de fundo. Nossas tecnologias de reconhecimento de fala combinam várias APIs para produzir a saída de texto. Os clientes podem personalizar as APIs de acordo com suas necessidades e os dados disponíveis.

Conheça o recurso

Frases de exemplo

Linha de base

Fala Personalizada

Crie modelos de idioma personalizados adaptados aos estilos de fala dos usuários

Não deixe que conjuntos de vocabulário e estilos de fala variados impeçam a compreensão. Personalize o modelo de idioma do reconhecimento de fala de seu aplicativo adaptando-o às expressões do setor, aos termos técnicos, geográficos ou de mercado e até ao estilo do palestrante.

Adapte-se ao ambiente do usuário com modelos acústicos personalizados

Verifique se o reconhecimento de fala de seu aplicativo pode funcionar em todos os ambientes. Com modelos acústicos personalizados, você pode levar em conta o ruído de fundo e ajustar-se aos ambientes esperados dos usuários.

Use os modelos de fala robustos da Microsoft

Possibilite um reconhecimento de fala avançado e personalizado criando seus próprios modelos de reconhecimento de fala personalizados, além dos modelos de última geração existentes da Microsoft.

Want to build this?

Explore um cenário de fala

Call center

Servicios de vozCon Speech Services, es fácil transcribir cada llamada. Indexe la transcripción para realizar búsquedas de texto completo o aplique Text Analytics para detectar opiniones, idiomas y frases clave para las conclusiones. Si las grabaciones del centro de llamadas contienen terminología especializada (como nombres de producto o jerga de TI), cree un modelo de lenguaje personalizado para enseñar el vocabulario a Speech Services. Un modelo acústico personalizado ayuda a Speech Services a entender a los hablantes incluso con ruido de fondo o con conexiones telefónicas de mala calidad. Para más información, consulte cómo funciona la transcripción por lotes con Speech Services.
  1. Visão geral
  2. Fluxo

Serviços de Fala

Visão geral

Com os Serviços de Fala, é fácil transcrever todas as chamadas. Indexe a transcrição para pesquisa de texto completo ou aplique a Análise de Texto para detectar o sentimento, a linguagem e as principais frases para obter insights. Se as gravações do call center envolvem terminologia especializada, como nomes de produto ou jargões de TI, crie um modelo de linguagem personalizado para ensinar esse vocabulário aos Serviços de Fala. Um modelo acústico personalizado ajuda os Serviços de Fala a compreender os alto-falantes, mesmo com ruído em segundo plano ou conexões telefônicas deficientes.

Para mais informações, leia como a transcrição em lote funciona com os Serviços de Fala.

Fluxo

  1. 1 Adapte um modelo para o seu domínio e implemente-o
  2. 2 Carregue suas gravações para um contêiner de blob
  3. 3 Crie uma solicitação de POST para transcrição em lote
  4. 4 Os Serviços de Fala agendam o trabalho de transcrição
  5. 5 Arquivos estéreo são divididos em dois canais
  6. 6 Arquivos mono passam por diarização para distinguir entre alto-falantes
  7. 7 Baixe a transcrição usando a ID de transcrição

Explore a API de Serviços Cognitivos

Visual Computacional

Extraia informações acionáveis de imagens

Face

Detectar, identificar, analisar, organizar e marcar rostos em fotos

Reconhecimento de Tinta Digital VISUALIZAÇÃO

Um serviço de IA que reconhece conteúdo de tinta digital, como manuscrito, formas e layout de documento de tinta

Video Indexer

Obtenha insights para vídeos

Visão Personalizada

Personalize facilmente seus próprios modelos visuais de computação modernos de acordo com o seu caso de uso exclusivo

Reconhecimento de Formulários VISUALIZAÇÃO

O serviço de extração de documento com o poder da IA e que entende seus formulários

Análises de texto

Avalie sentimentos e tópicos com facilidade para entender o que os usuários querem

Tradução de Texto

Faça traduções automáticas com uma simples chamada à API REST

QnA Maker

Transforme informações em respostas com formato de conversação e de fácil navegação

Reconhecimento Vocal

Ensine seus aplicativos a entenderem comandos dos usuários

Leitura Avançada VISUALIZAÇÃO

Incentive usuários de todas as idades e níveis de capacidade a ler e compreender textos

Serviços de Fala

Serviços de fala unificados para conversão de fala em texto, conversão de texto em fala e tradução de fala

Reconhecimento do Locutor VISUALIZAÇÃO

Use a fala para identificar e verificar locutores individuais

Content Moderator

Moderação automática de vídeo, texto e imagem

Detector de Anomalias VISUALIZAÇÃO

Adicione funcionalidades de detecção de anomalias facilmente aos seus aplicativos.

Personalizador VISUALIZAÇÃO

Um serviço de IA que oferece uma experiência do usuário personalizada

Use o SDK de Dispositivos de Fala para criar um dispositivo ambiente e uma palavra de ativação personalizada

Saiba mais