AI + Machine Learning, Announcements, Speech to text

Microsoft ofrece una versión preliminar de la conversión de texto a voz de red neuronal

By Xuedong Huang Technical Fellow, Cloud and AI

Microsoft ofrece una versión preliminar de la conversión de texto a voz de red neuronal • 1 min read

Posted on December 13, 2018
1 min read

Aplicando lo más reciente en innovación de aprendizaje profundo, el servicio Voz (parte de Azure Cognitive Services), ahora ofrece una funcionalidad de conversión de texto a voz impulsada por la red neuronal. Acceda a la versión preliminar disponible hoy.

La conversión de texto a voz neuronal hace que las voces de sus aplicaciones apenas se puedan distinguir de las voces humanas. Utilícela para hacer que las conversaciones con los bots de chat y los asistentes virtuales sean más naturales y atractivas, para convertir textos digitales, como libros electrónicos, en audiolibros, para mejorar los sistemas de navegación de los automóviles con experiencias de voz natural, etc.

Esta versión incluye mejoras significativas desde que revelamos la conversión de texto a voz neuronal en Ignite a principios de este año.

Calidad de voz mejorada

Las voces suenan más sólidas y naturales en una gama más amplia de escenarios de usuario, lo que se logra utilizando lo siguiente:

Una gran entrenamiento supervisado con aprendizaje transferido a través de diversos oradores
Más características de entrenamiento previo sin supervisión
Diseño de modelo neuronal robusto agregado

Rendimiento acelerado en tiempo de ejecución

El rendimiento en tiempo de ejecución del motor de la conversión de texto a voz neuronal es casi instantáneo gracias a una extensa optimización de código con aceleradores de hardware, aplicando modelos de inferencia en paralelo y simplificaciones de modelo teniendo en cuenta el equilibrio entre la calidad de sonido y el rendimiento. El factor de tiempo real se ha mejorado desde la versión anterior a menos de 0,05X, lo que significa que un segundo de audio se puede generar en menos de cincuenta milisegundos. La producción del primer byte de audio ahora va 6 veces más rápido que antes.

Mayor disponibilidad de servicios

La conversión de texto a voz neuronal se ha expandido a tres centros de datos en Estados Unidos, Europa y Asia. Sea cual sea el lugar del mundo en el que se encuentre, puede integrar voces neuronales con una sobrecarga de latencia reducida.

Con estas actualizaciones, la funcionalidad de texto a voz neuronal del servicio Voz ofrece la experiencia de voz con el sonido más natural para sus usuarios en comparación con los enfoques de sistemas tradicionales e híbridos.

Puede utilizar esta funcionalidad a partir de hoy con dos voces neuronales preconstruidas en inglés: conozca a Jessa y Guy. Escuche cómo suenan.

Hay descuentos disponibles durante la versión preliminar. Visite la página de precios del servicio Voz para más detalles.

Si desea acceder a esta funcionalidad en chino o alemán, envíe su solicitud.

Microsoft ofrece una versión preliminar de la conversión de texto a voz de red neuronal

Calidad de voz mejorada

Rendimiento acelerado en tiempo de ejecución

Mayor disponibilidad de servicios

Explore

Related posts

Accelerate your productivity with the Whisper model in Azure AI now generally available

3 Microsoft Azure AI product features that accelerate language learning

3 ways Azure Speech transforms game development with AI

Azure AI: creación de aplicaciones de inteligencia artificial críticas con la nueva funcionalidad de Cognitive Services

Join the conversation

Destacadas

IA y Machine Learning

Análisis

Compute

Contenedores

Bases de datos

DevOps

Herramientas para desarrolladores

Híbrido y multinube

Identidad

Integración

Internet de las cosas

Administración y Gobernanza

Multimedia

Migración

Realidad mixta

Movilidad

Redes

Seguridad

Almacenamiento

Web

Windows Virtual Desktop

Casos de uso

Desarrollo de aplicaciones

Inteligencia artificial

Migración y modernización en la nube

Datos y análisis

Nube e infraestructura híbridas

Internet de las cosas

Seguridad y gobernanza

Tipo de organización

Recursos

Calidad de voz mejorada

Rendimiento acelerado en tiempo de ejecución

Mayor disponibilidad de servicios

Explore

Related posts

Join the conversation