Omitir navegación

Conversión de voz en texto

Convierta audio en texto al instante para responder con naturalidad. Speech to Text API forma parte de los servicios de voz.

Transcripción de voz

Convierta audio con voz en texto. Llame a la API para reconocer el audio que proceda del micrófono, de otros orígenes de audio de streaming en tiempo real o de un archivo de audio grabado. Conforme se envía audio al servidor, se pueden devolver resultados parciales del reconocimiento si se solicita.

Puede usar la API para crear aplicaciones inteligentes activadas por voz. Vea la demostración para saber cómo funciona. Seleccione el idioma de destino, haga clic en el micrófono y empiece a hablar. O simplemente haga clic en una de las frases orales de ejemplo*.

Véala en acción

Para probar la demostración con su propia voz a través de un micrófono, cambie a un explorador distinto con compatibilidad para WebRTC, por ejemplo una versión reciente de Microsoft Edge, Firefox o Chrome.

¿Desea crear esto?

Custom Speech Service: transcripción de voz con un modelo personalizado

Elimine las barreras del reconocimiento de voz, como el estilo de habla, el vocabulario y el ruido de fondo. Nuestras tecnologías de reconocimiento de voz combinan varias API para producir la salida de texto. Los clientes pueden personalizar las API conforme a sus necesidades y los datos disponibles.

Véala en acción

Oraciones de ejemplo

Línea de base

Custom Speech

Cree modelos de idioma personalizados adaptados a los estilos de habla de los usuarios

No deje que diferentes vocabularios y estilos de habla bloqueen el entendimiento. Personalice el modelo de idioma del reconocimiento de voz de su aplicación adaptándolo a las expresiones de su campo, a términos técnicos, geográficos o de mercado e, incluso, al estilo del hablante.

Adapte su solución al entorno de los usuarios con modelos acústicos personalizados

Asegúrese de que el reconocimiento de voz de una aplicación funcione en todos los entornos. Con modelos acústicos personalizados, puede tener en cuenta el ruido de fondo y adaptar la solución a los entornos de los usuarios.

Use modelos de voz de gran calidad de Microsoft

Habilite reconocimiento de voz personalizado y muy eficaz creando sus propios modelos de reconocimiento de voz personalizados a partir de los modelos vanguardistas de Microsoft.

¿Desea crear esto?

Explore un escenario de voz

Quiosco multimedia inteligente

La combinación de los servicios de voz y Language Understanding permite que las aplicaciones y los usuarios interactúen con naturalidad. Utilice conversión de voz en texto para capturar una pregunta del usuario, Language Understanding para analizar la intención y formular una respuesta apropiada y conversión de texto en voz para sintetizar el texto en una respuesta hablada. Cree interfaces de conversación para diversos escenarios tales como banca, viajes y entretenimiento.

Bot de chat para operaciones comerciales

Commerce chatbotTogether, the Azure Bot Service and Language Understanding service enable developers to create conversational interfaces for various scenarios like banking, travel, and entertainment. For example, a hotel’s concierge can use a bot to enhance traditional e-mail and phone call interactions by validating a customer via Azure Active Directory and using Cognitive Services to better contextually process customer requests using text and voice. The Speech recognition service can be added to support voice commands.1237456
  1. Información general
  2. Flujo

De forma conjunta, Azure Bot Service y el servicio Language Understanding permiten a los desarrolladores crear interfaces de conversación para distintos escenarios, como banca, viajes y entretenimiento. Por ejemplo, un recepcionista de hotel puede usar un bot para mejorar las interacciones tradicionales de correo electrónico y llamadas telefónicas mediante la validación de un cliente a través de Azure Active Directory y el uso de Cognitive Services para mejorar el procesamiento contextual de las solicitudes de los clientes mediante texto y voz. Se puede agregar el servicio de reconocimiento de voz para admitir los comandos de voz.

  1. 1 El cliente usa su aplicación móvil.
  2. 2 El usuario se autentica con Azure AD B2C.
  3. 3 El usuario solicita información con un bot de aplicación personalizado.
  4. 4 Cognitive Services ayuda a procesar las solicitudes de lenguaje natural.
  5. 5 El cliente revisa la respuesta, quien además puede matizar la pregunta mediante una conversación natural.
  6. 6 Una vez que el usuario está satisfecho con el resultado, el bot de aplicación actualiza la reserva del cliente.
  7. 7 Application Insights recopila telemetría de tiempo de ejecución para facilitar el desarrollo con el uso y el rendimiento del bot.

Vea las API de Cognitive Services

Computer Vision

Condense información de aplicación práctica a partir de imágenes

Face

Detecte, identifique, analice, organice y etiquete caras en las fotos

Video Indexer

Obtenga conocimiento de sus vídeos

Content Moderator

Moderación automatizada de imágenes, texto y vídeo

Custom Vision VERSIÓN PRELIMINAR

Personalice fácilmente los novedosos modelos de visión artificial para adaptarlos a su caso particular

Análisis de texto

Evaluar fácilmente las opiniones y temas para comprender lo que los usuarios quieren

Translator Text

Realice fácilmente una traducción automática con una llamada a la API de REST sencilla

Bing Spell Check

Detecte y corrija errores ortográficos en las aplicaciones

Content Moderator

Moderación automatizada de imágenes, texto y vídeo

Language Understanding

Enseñe a las aplicaciones a entender los comandos de sus usuarios

Servicios de voz

Servicios de voz unificados para la conversión de voz en texto y de texto en voz, y para la traducción de voz.

Speaker Recognition VERSIÓN PRELIMINAR

Use la voz para la identificación y verificación de hablantes individuales

QnA Maker

Convierta la información en respuestas de conversación de fácil navegación

Use el SDK de dispositivos de voz para compilar un dispositivo de ambiente y crear una palabra de reactivación personalizada

Más información