Vorschau von Microsoft zur Sprachsynthese mithilfe neuronaler Netzwerke

Veröffentlicht am 13 Dezember, 2018

Technical Fellow, Cloud and AI

Durch die neuesten Innovationen beim Deep Learning bietet Speech Service als Teil von Azure Cognitive Services jetzt auch Funktionen zur Sprachsynthese mithilfe neuronaler Netzwerke an. Nutzen Sie die ab heute verfügbare Vorschauversion.

Die neuronale Sprachsynthese sorgt dafür, dass die Sprache Ihrer Apps sich kaum von der menschlichen Sprache unterscheidet. Gestalten Sie damit Konversationen mit Chatbots und virtuellen Helfern noch natürlicher und einladender, wandeln Sie digitale Texte wie E-Books in Audiobooks um, und verpassen Sie Ihrem Navigationssystem im Auto ein Upgrade mit natürlicher Sprache u.v.m.

Dieses Release enthält erhebliche Verbesserungen seit der ersten Bekanntgabe von neuronaler Sprachsynthese auf der Ignite in diesem Jahr.

Verbesserte Stimmenqualität

Die Stimmen klingen jetzt stabiler und natürlicher in noch mehr verschiedenen Benutzerszenarien. Dies wurde durch Folgendes erreicht:

  • Ein umfassendes überwachtes Training mit Lernvorgängen mit unterschiedlichen Sprechern
  • Mehr Features aus nicht überwachten Vorabtrainings
  • Stabileres neuronales Modelldesign 

Beschleunigte Runtimeleistung

Die Runtimeleistung der Engine für die neuronale Sprachsynthese arbeitet nahezu in Echtzeit. Dies wurde über umfassende Codeoptimierungen und Hardwarebeschleunigungen, das Anwenden paralleler Inferenzmodelle und eine Modellvereinfachung mit besserer Balance zwischen Klangqualität und Leistung erreicht. Der Echtzeitfaktor wurde seit der letzten Version auf weniger als das 0,05-Fache verringert. Das bedeutet, dass 1 Sekunde Audiomaterial in weniger als 50 Millisekunden generiert werden kann. Die Erzeugung des ersten Audiobytes läuft nun 6-mal schneller ab als bisher.

Höhere Dienstverfügbarkeit

Die neuronale Sprachsynthese wurde bisher auf drei Rechenzentren in den USA, Europa und Asien ausgedehnt. Egal wo in der Welt Sie sich befinden – Sie können neuronale Stimmen mit geringerer Latenz integrieren.

 

Durch diese Updates bietet die neuronale Sprachsynthese des Speech-Diensts die natürlichsten Stimmen für Ihre Benutzer im Vergleich zu herkömmlichen Systemen und Hybridansätzen.

Sie können diese Funktion ab heute mit vorkonfigurierten neuronalen Stimmen auf Englisch nutzen – lernen Sie Jessa und Guy kennen. Hören Sie sich an, wie sie klingen.

Während der Vorschau werden Rabatte angeboten. Weitere Details finden Sie auf der Preisseite zum Speech-Dienst.

Wenn Sie diese Funktion auf Chinesisch oder Deutsch verwenden möchten, erstellen Sie bitte eine Anfrage.