Tipos de servicios de Speech API

Artículo
06/02/2023

Puede usar el servicio Voz de Azure Cognitive Services para realizar transformaciones de idioma hablado, como conversión de voz en texto y texto a voz, traducción de voz y reconocimiento del hablante.

Nota

Use Azure Cognitive Service para lenguaje si desea recopilar información sobre términos o frases, o bien obtener un análisis contextual detallado del lenguaje hablado o escrito.

Servicios

La conversión de voz en texto puede convertir flujos de audio en texto en tiempo real o por lotes.
Texto a voz permite a las aplicaciones convertir texto a una voz similar a la humana.
La traducción de voz ofrece una traducción de voz a voz y voz a texto en varios idiomas y en tiempo real.

Cómo elegir un servicio de voz

Este diagrama de flujo puede ayudarle a elegir el servicio de voz que se adapte a sus necesidades:

Diagrama que muestra cómo elegir un servicio de voz.

En el lado izquierdo del diagrama se muestran los procesos de audio a audio o audio a texto.

La conversión de voz en texto se utiliza para convertir una fuente de voz de audio a texto.
La conversión de voz a voz se usa para traducir una voz a otro idioma.

En el lado derecho del diagrama se muestran los procesos de texto a audio.

El texto a voz se utiliza para generar audio de voz a partir de una fuente de texto.

Casos de uso comunes

En la tabla siguiente se recomiendan los servicios para algunos casos de uso comunes.

Caso de uso	Qué servicio usar
Proporcionar subtítulos para vídeos grabados o en directo	Voz a texto
Transcribir una llamada de teléfono o una reunión	Voz a texto
Implementar un dictado automatizado de notas	Voz a texto
Determinar la entrada de usuario prevista para su posterior procesamiento	Voz a texto
Generar respuestas de voz a la entrada del usuario	Texto a voz
Crear menús de voz para sistemas telefónicos	Texto a voz
Leer en voz alta mensajes de texto o de correo electrónico cuando se usa el manos libres	Texto a voz
Difundir avisos en ubicaciones públicas, como estaciones ferroviarias o aeropuertos	Texto a voz
Producir subtítulos (CC) en tiempo real para un discurso o para la traducción simultánea bidireccional de una conversación hablada	Voz a texto

Colaboradores

Microsoft mantiene este artículo. Originalmente lo escribieron los siguientes colaboradores.

Creadores de entidad de seguridad:

Kruti Mehta | Ingeniero sénior de Fast-Track de Azure
Oscar Shimabukuro | Arquitecto de soluciones en la nube sénior

Otros colaboradores:

Mick Alberts | Escritor técnico
Ashish Chahuan | Arquitecto sénior de soluciones en la nube
Brandon Cowen | Arquitecto de soluciones en la nube sénior
Manjit Singh | Ingeniero de software
Christina Skarpathiotaki | Arquitecto de soluciones en la nube sénior
Nathan Widdup | Ingeniero sénior de Fast-Track de Azure

Para ver los perfiles no públicos de LinkedIn, inicie sesión en LinkedIn.

Tipos de servicios de Speech API

Servicios

Cómo elegir un servicio de voz

Casos de uso comunes

Colaboradores

Pasos siguientes

Comentarios

Comentarios

Recursos adicionales

Tipos de servicios de Speech API

Servicios

Cómo elegir un servicio de voz

Casos de uso comunes

Colaboradores

Pasos siguientes

Recursos relacionados

Comentarios

Comentarios

Recursos adicionales