Navigation überspringen

Text-to-Speech

A Speech service feature that converts text to lifelike speech

Gestalten Sie Ihre Apps mit natürlichen Stimmen

Erstellen Sie Apps und Dienste, die auf natürliche Weise sprechen, und wählen Sie aus mehr als 270 Stimmen und mehr als 119 Sprachen und Varianten. Heben Sie Ihre Marke mit einem angepassten, realistischen Sprachgenerator hervor und greifen Sie auf Stimmen mit unterschiedlichen Sprechstilen und emotionalen Tönen zu, passend für Ihren Anwendungsfall–von Textlesern bis hin zu Kundensupport-Chatbots.

Natürliche synthetisierte Sprache

Erzeugen Sie mit der Sprachsynthese flüssige, natürlich klingende Text-to-Speech, die die Intonation und Emotionen menschlicher Stimmen nachbildet.

Anpassbare Text-Talker-Stimmen

Erstellen Sie einen einzigartigen KI-Sprachgenerator, der zu Ihrer Markenidentität passt.

Präzise Steuerelemente für Text-zu-Sprache-Audio

Nehmen Sie eine Feinabstimmung für Ihre Anwendungsfälle vor, indem Sie Geschwindigkeit, Tonhöhe, Aussprache und Sprechpausen an das jeweilige Szenario anpassen.

Flexible Bereitstellung

Ob in der Cloud, lokal oder containerbasiert am Edge – die Sprachsynthese lässt sich praktisch überall ausführen.

Verschiedene Stimmen für jedes Szenario

Binden Sie globale Benutzergruppen ein, indem Sie mehr als 330 neuronale Stimmen in 129 Sprachen und Varianten verwenden. Erwecken Sie Ihre Szenarien wie Textleser und sprachaktivierte Assistenten mit ausdrucksstarken und menschenähnlichen Stimmen zum Leben. Die neuronale Sprachsynthese unterstützt mehrere Sprechstile, einschließlich Nachrichtensendungen, Kundendienst, Schreie, Flüstern, und Emotionen wie fröhlich und traurig.

Testen Sie die Sprachsynthese in dieser Demo-App, die auf unserem JavaScript SDK basiert

Hinweis: Ihre Daten werden nicht gespeichert.

Informationen zum Erstellen von

Hinweis: Ihre Daten werden nicht gespeichert.

Informationen zum Erstellen von

Sprachausgabe nach Maß

Optimieren Sie synthetisierte Sprachaudiodaten an Ihr Szenario. Definieren Sie Lexikone und Steuern Sie Sprachparameter wie Aussprache, Tonhöhe, Geschwindigkeit, Pause und Intonation mit Speech Synthesis Markup Language (SSML) oder mit dem Audioinhaltserstellungstool.

Bereitstellungen von Text-to-Speech von der Cloud bis zum Edge

Führen Sie Text-zu-Sprache überall dort aus, wo sich Ihre Daten befinden. Erstellen Sie mit Containern lebensechte Sprachsynthesen in Anwendungen, die für robuste Cloudfunktionen und lokale Verfügbarkeit von Edge optimiert sind.

Eine benutzerdefinierte Stimme für Ihre Marke

Heben Sie sich mit einer einzigartigen Custom Voice von anderen Marken ab. Entwickeln Sie äußerst realistische Stimmen für natürlichere Unterhaltungsschnittstellen mit der Funktion „Benutzerdefinierte neuronale Stimme“, beginnend mit 30 Minuten Audio. Hier sind einige Beispiele von Unternehmen, die KI-Sprachgenerierung bereits heute tun:

Swisscom verbessert den Nutzungskomfort für Kunden dank mehrsprachigem Sprach-Assistenten

Swisscom erstellte mithilfe des Speech-Diensts einen benutzerdefinierten Sprach-Assistenten für Text-zu-Sprache mit Stimmpersonas für Englisch, Französisch, Deutsch und Italienisch, die kein anderes Unternehmen verwendet.

Erfolgsstory lesen

AT&T begeistert Kunden mit immersiven Umgebungen

AT&T zeigt sein 5G-Netzwerk mit einem immersiven Erlebnis, das Kunden ermöglicht, direkt mit Bugs Bunny zu sprechen.*

*LOONEY TUNES und alle zugehörigen Zeichen und Elemente © & ™ Warner Bros. Entertainment Inc. (s21)

Video ansehen

Progressive vernetzt seine Kunden direkt mit Flo

Dank des Features „Benutzerdefinierte neuronale Stimme“ konnte Progressive eine natürliche, virtuelle Version der fiktiven Kundendienstmitarbeiterin Flo erstellen, die Kunden kostenlosen Fahrzeugversicherungen bis hin zu allgemeinen Versicherungsfragen zum gesamten Produktportfolio berät.

Erfolgsstory lesen

App-Innovationen mit cloudbasierten KI-Diensten fördern

Lernen Sie fünf wichtige Möglichkeiten kennen, wie Ihre Organisation mit KI beginnen kann, um schnell einen Mehrwert zu erzielen.

Umfassende Datenschutz- und Sicherheitsfunktionen

  • Der Speech-Dienst ist Teil von Azure Cognitive Services und SOC-, FedRAMP-, PCI DSS-, HIPAA-, HITECH- und ISO-zertifiziert.
  • Sie behalten die Kontrolle über Ihre Daten. Ihre Textdaten werden während der Datenverarbeitung oder der Audiosprachgenerierung nicht gespeichert.
  • Sie können Ihre benutzerdefinierten Stimmdaten und Sprachsynthesemodelle jederzeit aufrufen und löschen. Ihre Daten werden im Speicher verschlüsselt.
  • Der Speech-Dienst basiert auf der Azure-Infrastruktur und überzeugt durch Sicherheit, Verfügbarkeit, Compliance und Verwaltbarkeit auf Unternehmensniveau.

Flexible Preise für die gewünschte Leistung und Kontrolle

Sie zahlen nur für Ressourcen, die Sie wirklich nutzen – ohne jegliche Vorabkosten. Text-to-Speech wird nutzungsbasiert abgerechnet. Als Grundlage dient die Anzahl der in Audiodaten konvertierten Zeichen.

Richtlinien für die verantwortungsbewusste Entwicklung synthetischer Stimmen

Weitere Informationen zum verantwortungsbewussten Einsatz

Synthetische Stimmen müssen für den Hörer vertrauenswürdig klingen. Informieren Sie sich über die Prinzipien zum Entwickeln synthetisierter Stimmen, die Vertrauen in Ihr Unternehmen und in Ihre Dienstleistungen schaffen.

Einholen einer Einwilligung von Sprechern

Erklären Sie Sprechern die neuronale Text-to-Speech-Funktion, und informieren Sie sich über empfohlene Einsatzzwecke.

Sorgen Sie für Transparenz

Transparenz ist eine wichtige Grundlage beim verantwortungsbewussten Einsatz von Computersprachgeneratoren und synthetischer Stimmen. Für Benutzer muss offensichtlich sein, dass sie eine synthetische Stimme hören. Außerdem muss der Sprecher über die Verwendung seiner Stimme informiert werden. Weitere Informationen finden Sie in unseren Entwurfsrichtlinien für die Offenlegung.

Dokumentation und Ressourcen

Codebeispiele erkunden

Den Beispielcode ansehen

Anpassungsressourcen

Passen Sie Ihre Speech-Lösung mit Speech Studio an. Dafür müssen Sie nicht programmieren können.

Sprachsynthese in der Praxis

Die BBS revolutioniert die Verbreitung von Inhalten

Mithilfe von Azure Cognitive Services und Azure Bot Service hat die BBC einen angepassten digitalen End-to-End-Sprachassistenten entwickelt, der die Markenidentität repräsentiert und eine Kommunikationsbeziehung mit der breiten Zielgruppe ermöglicht.

BBC

Swisscom verbessert den Nutzungskomfort für Kunden dank mehrsprachigem Sprach-Assistenten

Swisscom erstellte mithilfe des Diensts „Speech“ einen benutzerdefinierten Sprach-Assistenten mit Stimmpersonas für Englisch, Französisch, Deutsch und Italienisch, die kein anderes Unternehmen verwendet.

Swisscom

Motorola macht wichtige Daten für Rettungskräfte zugänglich

Dank Motorola-Lösungen können Polizeibeamte und Rettungskräfte schnell auf wichtige Informationen zugreifen, indem sie den sprachgesteuerten virtuellen Assistenten nutzen.

Motorola Solutions

Universal Electronics ermöglicht vernetzte Smart Homes

Universal Electronics unterstützt Hersteller bei der Bereitstellung sprachgesteuerter Navigations- und Steuerungsfunktionen für Smart-Home-Geräte.

Universal Electronics

Cheetah Mobile baut die internationale Übersetzung aus

Cheetah Mobile ist ein Unternehmen, dessen Apps von Benutzern in über 200 Ländern und Regionen weltweit verwendet werden. Das Unternehmen setzt jetzt die Sprachsynthese ein, um sein Übersetzungsgerät und die Übersetzungs-App auf den internationalen Markt zu bringen.

Cheetah Mobile

Bereit, wenn Sie es sind – lassen Sie uns Ihr kostenloses Azure-Konto einrichten.

Können wir Ihnen helfen?