Microsoft annonce la préversion de la synthèse vocale basée sur des réseaux neuronaux

Publié le 13 décembre, 2018

Technical Fellow, Cloud and AI

En appliquant les dernières innovations dans le domaine du Deep Learning, Speech Service, qui fait partie d’Azure Cognitive Services, offre à présent des fonctionnalités de synthèse vocale alimentées par des réseaux neuronaux. Accédez à la préversion disponible dès aujourd’hui.

La synthèse vocale basée sur des réseaux neuronaux rend les voix de vos applications presque impossibles à distinguer des voix humaines. Utilisez-la pour rendre les conversations avec les chatbots et les assistants virtuels plus naturelles et plus attrayantes, pour convertir des textes numériques tels que des livres électroniques en livres audio et pour mettre à niveau les systèmes de navigation embarqués avec des expériences vocales naturelles, etc.

Cette version inclut des améliorations significatives depuis que nous avons annoncé la synthèse vocale basée sur des réseaux neuronaux lors de la conférence Ignite plus tôt cette année.

Qualité vocale améliorée

Les voix sont plus robustes et naturelles dans une plus grande variété de scénarios utilisateur, grâce aux éléments suivants :

  • Une formation étendue et supervisée avec apprentissage par transfert entre différents intervenants
  • Plus de fonctionnalités de pré-apprentissage non supervisé
  • Ajout d’une solide conception de modèle de réseaux neuronaux 

Performances d’exécution accélérées

Les performances d’exécution du moteur de synthèse vocale basée sur des réseaux neuronaux sont quasi instantanées grâce à une optimisation poussée du code avec des accélérateurs matériels, à l’application de modèles d’inférence parallèle et à des simplifications de modèles tenant compte de l’équilibre entre qualité et performances. Le facteur temps réel est passé à moins de 0,05X depuis la version précédente, ce qui signifie qu’une seconde d’audio peut être générée en moins de 50 millisecondes. La production du premier octet d’audio est à présent 6 fois plus rapide qu’auparavant.

Disponibilité accrue du service

La synthèse vocale basée sur des réseaux neuronaux s’est depuis étendue à trois centres de données situés aux États-Unis, en Europe et en Asie. Où que vous soyez dans le monde, vous pouvez intégrer des voix neuronales avec une surcharge et une latence réduites.

 

Avec ces mises à jour, la fonctionnalité de synthèse vocale basée sur des réseaux neuronaux de Speech Services offre aux utilisateurs une expérience vocale des plus naturelles, en comparaison avec les approches système traditionnelles et hybrides.

Vous pouvez utiliser cette fonctionnalité à partir d’aujourd'hui avec deux voix neuronales prédéfinies en anglais : Jessa et Guy. Écoutez leur voix.

Des remises sont disponibles durant la durée de la préversion. Pour plus d’informations, visitez la page de tarification de Speech Services.

Si vous souhaitez accéder à cette fonctionnalité en chinois ou en allemand, veuillez soumettre votre demande.