Omitir navegación

Microsoft ofrece una versión preliminar de la conversión de texto a voz de red neuronal

Publicado el 13 diciembre, 2018

Technical Fellow, Cloud and AI

Aplicando lo más reciente en innovación de aprendizaje profundo, el servicio Voz (parte de Azure Cognitive Services), ahora ofrece una funcionalidad de conversión de texto a voz impulsada por la red neuronal. Acceda a la versión preliminar disponible hoy.

La conversión de texto a voz neuronal hace que las voces de sus aplicaciones apenas se puedan distinguir de las voces humanas. Utilícela para hacer que las conversaciones con los bots de chat y los asistentes virtuales sean más naturales y atractivas, para convertir textos digitales, como libros electrónicos, en audiolibros, para mejorar los sistemas de navegación de los automóviles con experiencias de voz natural, etc.

Esta versión incluye mejoras significativas desde que revelamos la conversión de texto a voz neuronal en Ignite a principios de este año.

Calidad de voz mejorada

Las voces suenan más sólidas y naturales en una gama más amplia de escenarios de usuario, lo que se logra utilizando lo siguiente:

  • Una gran entrenamiento supervisado con aprendizaje transferido a través de diversos oradores
  • Más características de entrenamiento previo sin supervisión
  • Diseño de modelo neuronal robusto agregado 

Rendimiento acelerado en tiempo de ejecución

El rendimiento en tiempo de ejecución del motor de la conversión de texto a voz neuronal es casi instantáneo gracias a una extensa optimización de código con aceleradores de hardware, aplicando modelos de inferencia en paralelo y simplificaciones de modelo teniendo en cuenta el equilibrio entre la calidad de sonido y el rendimiento. El factor de tiempo real se ha mejorado desde la versión anterior a menos de 0,05X, lo que significa que un segundo de audio se puede generar en menos de cincuenta milisegundos. La producción del primer byte de audio ahora va 6 veces más rápido que antes.

Mayor disponibilidad de servicios

La conversión de texto a voz neuronal se ha expandido a tres centros de datos en Estados Unidos, Europa y Asia. Sea cual sea el lugar del mundo en el que se encuentre, puede integrar voces neuronales con una sobrecarga de latencia reducida.

 

Con estas actualizaciones, la funcionalidad de texto a voz neuronal del servicio Voz ofrece la experiencia de voz con el sonido más natural para sus usuarios en comparación con los enfoques de sistemas tradicionales e híbridos.

Puede utilizar esta funcionalidad a partir de hoy con dos voces neuronales preconstruidas en inglés: conozca a Jessa y Guy. Escuche cómo suenan.

Hay descuentos disponibles durante la versión preliminar. Visite la página de precios del servicio Voz para más detalles.

Si desea acceder a esta funcionalidad en chino o alemán, envíe su solicitud.