Tipos de servicios de Speech API
Puede usar el servicio Voz de Azure Cognitive Services para realizar transformaciones de idioma hablado, como conversión de voz en texto y texto a voz, traducción de voz y reconocimiento del hablante.
Nota
Use Azure Cognitive Service para lenguaje si desea recopilar información sobre términos o frases, o bien obtener un análisis contextual detallado del lenguaje hablado o escrito.
Servicios
- La conversión de voz en texto puede convertir flujos de audio en texto en tiempo real o por lotes.
- Texto a voz permite a las aplicaciones convertir texto a una voz similar a la humana.
- La traducción de voz ofrece una traducción de voz a voz y voz a texto en varios idiomas y en tiempo real.
Cómo elegir un servicio de voz
Este diagrama de flujo puede ayudarle a elegir el servicio de voz que se adapte a sus necesidades:
En el lado izquierdo del diagrama se muestran los procesos de audio a audio o audio a texto.
- La conversión de voz en texto se utiliza para convertir una fuente de voz de audio a texto.
- La conversión de voz a voz se usa para traducir una voz a otro idioma.
En el lado derecho del diagrama se muestran los procesos de texto a audio.
- El texto a voz se utiliza para generar audio de voz a partir de una fuente de texto.
Casos de uso comunes
En la tabla siguiente se recomiendan los servicios para algunos casos de uso comunes.
Caso de uso | Qué servicio usar |
---|---|
Proporcionar subtítulos para vídeos grabados o en directo | Voz a texto |
Transcribir una llamada de teléfono o una reunión | Voz a texto |
Implementar un dictado automatizado de notas | Voz a texto |
Determinar la entrada de usuario prevista para su posterior procesamiento | Voz a texto |
Generar respuestas de voz a la entrada del usuario | Texto a voz |
Crear menús de voz para sistemas telefónicos | Texto a voz |
Leer en voz alta mensajes de texto o de correo electrónico cuando se usa el manos libres | Texto a voz |
Difundir avisos en ubicaciones públicas, como estaciones ferroviarias o aeropuertos | Texto a voz |
Producir subtítulos (CC) en tiempo real para un discurso o para la traducción simultánea bidireccional de una conversación hablada | Voz a texto |
Colaboradores
Microsoft mantiene este artículo. Originalmente lo escribieron los siguientes colaboradores.
Creadores de entidad de seguridad:
- Kruti Mehta | Ingeniero sénior de Fast-Track de Azure
- Oscar Shimabukuro | Arquitecto de soluciones en la nube sénior
Otros colaboradores:
- Mick Alberts | Escritor técnico
- Ashish Chahuan | Arquitecto sénior de soluciones en la nube
- Brandon Cowen | Arquitecto de soluciones en la nube sénior
- Manjit Singh | Ingeniero de software
- Christina Skarpathiotaki | Arquitecto de soluciones en la nube sénior
- Nathan Widdup | Ingeniero sénior de Fast-Track de Azure
Para ver los perfiles no públicos de LinkedIn, inicie sesión en LinkedIn.
Pasos siguientes
- ¿Qué es Speech Service?
- Entrada de blog de Speech API
- Ruta de aprendizaje: Aprovisionamiento y administración de Azure Cognitive Services
- Ruta de aprendizaje: procesamiento y traducción de voz con Azure Cognitive Speech Services
Recursos relacionados
Comentarios
https://aka.ms/ContentUserFeedback.
Próximamente: A lo largo de 2024 iremos eliminando gradualmente GitHub Issues como mecanismo de comentarios sobre el contenido y lo sustituiremos por un nuevo sistema de comentarios. Para más información, vea:Enviar y ver comentarios de