Text-to-Speech

Text in lebensechte Sprache verwandeln und Oberflächen natürlicher gestalten

Sprechen wie ein Mensch – nicht wie ein Roboter

Nutzen Sie Text-to-Speech – eine Komponente des Speech-Diensts – zum Erstellen von Apps und Diensten, die natürliche Sprache ausgeben. Erwecken Sie Ihre Lösungen mit Dutzenden Stimmen in vielen verschiedenen Sprachen zum Leben. Kreieren Sie lebensechte Stimmen mit der neuronalen Text-to-Speech-Funktion, die auf bahnbrechenden Erkenntnissen aus der Sprachsynthesetechnologie basiert. Passen Sie Modelle an, um für Ihre Lösung und Marke eine Stimme mit Wiedererkennungswert zu erzeugen.

Lebensechte Sprache

Erzeugen Sie eine flüssige, natürlich klingende Sprache, die die Betonungsmuster und Intonation menschlicher Stimmen nachbildet.

Globale Reichweite

Erreichen Sie weltweite Zielgruppen mit mehr als 80 Stimmen und 45 Sprachen und Sprachvarianten.

Individuelle Anpassung

Entwerfen Sie für Ihre Apps einzigartige Stimmen, die Ihre Marke wiedererkennen lassen – zunächst reichen wenige Minuten an Trainingsdaten aus.

Optimiertes Audioerlebnis

Nehmen Sie eine Feinabstimmung vor, indem Sie die Geschwindigkeit, Lautstärke und Aussprache der Sprachausgabe einfach an das jeweilige Szenario anpassen.

Natürlich klingende Sprache erzeugen

Geben Sie Ihren Apps eine neue Stimme mit natürlicher, menschlicher Intonation und einer klaren Artikulation. Text-to-Speech nutzt Deep Neural Networks und verleiht Computerstimmen Ausdruck, sodass sie sich fast nicht mehr von natürlichen menschlichen Stimmen unterscheiden lassen.

Englisch (USA): Jessa

Satz Stimmbeispiel
The third type, a logarithm of the unsigned fold change, is undoubtedly the most tractable.
As the name suggests, the original submarines came from Yugoslavia.
This is easy enough if you have an unfinished attic directly above the bathroom.

Englisch (USA): Guy

Satz Stimmbeispiel
Susan Candiotti reports they've given up their trip.
Carol knows my lifestyle.
The seagrass fiber is tough, durable, and smooth.

Chinesisch (CN): Xiaoxiao

Satz Stimmbeispiel
您好,欢迎致电客服中心。我是华北地区的客服人员,工号0165。请问有什么可以帮您?
想和你表白,试了一万种方式,找了一千次时机,但都放弃了,最终只能原地踏步。
负责人Michael透露,新推出的紧凑型SUV搭载了智能的音响系统,可以语音控制volume大小。不过,车身的整体造型还是个secret。

Deutsch (DE): Katja

Satz Stimmbeispiel
Bestimmte Berufsgruppen sind nur noch schwer zu rekrutieren.
Sein Gedicht steckt voller Übertreibungen, die für den Schriftsteller allerdings typisch sind.
Er organisiert eine Unterstützung der schwächeren durch die stärksten Bundesländer.

Italienisch (IT): Elsa

Satz Stimmbeispiel
Tenete conto di un fattore importante.
Alcuni prodotti in gran parte sono di buona qualità.
Crisi? Vietato rilassarsi, siamo ancora in emergenza.

Möchten Sie dies erstellen?

Ein weltweites Publikum in Echtzeit erreichen

Konvertieren Sie Text in Echtzeit in Sprache, um flüssige Unterhaltungsszenarien zu ermöglichen. Binden Sie weltweite Zielgruppen mit mehr als 80 Stimmen und 45 Sprachen und Sprachvarianten ein.

Sprache Beispieltext Stimmbeispiel
English (US) An airport spokesman said more than 110 planes were damaged by hail.
Chinese (CN) 广告收入的比例高达90%以上
Japanese (JP) 皆様のご協力のたまものと
German (DE) Der Anstieg der Verbraucherpreise in der Eurozone verlangsamt sich weiter.
Spanish (ES) El alcalde de Santiago convoca a los medios para inaugurar dos semáforos.
Turkish (ES) Tren durduğu sırada vagonun ortasında bir patlama meydana geldi.

Möchten Sie dies erstellen?

Kreieren Sie eine unverwechselbare Markenstimme

Entwerfen Sie eine einzigartige Stimme, ohne eine einzige Codezeile zu schreiben – wenige Minuten an Trainingsaudiodaten reichen aus, um zu beginnen. Definieren Sie eine individuelle, wirklichkeitsnahe, menschliche Stimme mithilfe von Deep Neural Network-Modellen und der Funktion „Benutzerdefinierte neuronale Stimme“. Diese kann für Echtzeitszenarien und für die Synthetisierung langer Audioinhalte verwendet werden.

Sprache

Qualität

Beispieltext Stimmbeispiel

Möchten Sie Ihr eigenes Stimmmodell erstellen?

Maßgeschneiderte Audioausgabe für jede Situation

Optimieren Sie die Ausgabe von Text als Sprache in Echtzeit, indem Sie Parameter wie die Geschwindigkeit, Aussprache, Tonhöhe, Lautstärke, Intonation und Pausen anpassen. Bei neuronalen Stimmen können Sie den Redestil anpassen, um Stimmungen wie Freude oder Mitgefühl auszudrücken, oder um bestimmte Situationen wie Unterhaltungen in einem informellen Umgangston oder gesprochene Nachrichten in einem formellen Ton wiederzugeben.

Mehr über die Stimmoptimierung erfahren

Bereitstellungen von der Cloud bis zum Edge

Führen Sie Text-to-Speech in der Cloud oder lokal mit Containern aus, wenn Datensicherheit und niedrige Latenz von zentraler Bedeutung sind. Sprachcontainer unterstützen jetzt sowohl standardmäßige als auch benutzerdefinierte Stimmen.

Weitere Informationen zu Speech in Containern

Sicherheit auf Unternehmensniveau

  • Microsoft investiert im Bereich Cybersicherheit jährlich mehr als USD 1 billion in Forschung und Entwicklung.

  • Wir beschäftigen über 3.500 Sicherheitsexperten, die ausschließlich den Schutz Ihrer Daten und Ihrer Privatsphäre im Blick haben.

  • Azure verfügt über mehr Zertifizierungen als jeder andere Cloudanbieter. Sehen Sie sich die vollständige Liste an.

Leistung, Steuerung und Anpassungsmöglichkeiten nach Bedarf mit flexibler Preisgestaltung

Sie zahlen nur für Ressourcen, die Sie wirklich nutzen – ohne jegliche Vorabkosten. Text to Speech wird nutzungsbasiert abgerechnet. Als Grundlage dient die Anzahl der in Audiodaten konvertierten Zeichen.

Richtlinien für den verantwortlichen Umgang mit neuronalen Stimmen

Erfahren Sie mehr über den verantwortungsvollen Einsatz synthetischer Stimmen

Synthetische Stimmen müssen für den Hörer vertrauenswürdig klingen. Informieren Sie sich über die Prinzipien zum Erzeugen synthetischer Stimmen, die Vertrauen in Ihr Unternehmen und in Ihre Dienstleistungen schaffen.

Richtlinien für den verantwortungsbewussten Einsatz lesen

Einholen einer Einwilligung von Sprechern

Unterstützen Sie Sprecher dabei, zu verstehen, wie die neuronale Sprachsynthese funktioniert und wie diese nach Abschluss der Audioaufnahme verwendet werden kann.

Offenlegungsrichtlinien für Sprecher lesen

Sorgen Sie für Transparenz

Stellen Sie sicher, dass es Benutzern bewusst ist, wenn sie eine synthetische Stimme hören. Außerdem muss der Sprecher über die Verwendung seiner Stimme informiert werden.

Richtlinien für die Offenlegung lesen Mehr über unsere verantwortliche Einstellung erfahren

Kontakt aufnehmen

Die Funktion „Benutzerdefinierte neuronale Stimme“ befindet sich in der geschlossenen Vorschauphase. Hier erfahren Sie mehr über das Gating-Verfahren und wie Sie Zugang erhalten.

In nur drei Schritten mit Text-to-Speech loslegen

Wenn Sie sich für ein kostenloses Azure-Konto registrieren, erhalten Sie sofortigen Zugriff und ein Guthaben von $200.
Melden Sie sich beim Azure-Portal an, und fügen Sie Speech hinzu.
Erfahren Sie in den Schnellstarts und der Dokumentation, wie Sie Text-to-Speech einbetten.

Entwicklerressourcen für Text-to-Speech

Dokumentation und Tutorial

Erste Schritte mit Text-to-Speech

Kurse

Nehmen Sie an einem Pluralsight-Kurs teil, in dem Text-to-Speech ausführlich beschrieben wird.

Am Kurs teilnehmen

Häufig gestellte Fragen zu Text-to-Speech

  • Zur Erstellung von Standardstimmen werden Techniken für die statistische parametrische Sprachsynthese und die Verkettungssynthese verwendet. Diese Stimmen sind sehr gut zu verstehen und klingen natürlich. Sie können verwendet werden, um Apps in über 45 Sprachen mit einer Vielzahl von Stimmoptionen sprechen zu lassen.

    Für neuronale Stimmen werden Deep Neural Networks eingesetzt, um die Beschränkungen zu überwinden, die herkömmliche Text-to-Speech-Systeme beim Abgleich der Betonungs- und Intonationsmuster in gesprochener Sprache aufweisen, und um Spracheinheiten in eine Computerstimme zu synthetisieren. Bei einem standardmäßigen Text-to-Speech-System wird der Satzrhythmus in getrennte Schritte für die linguistische Analyse und die akustische Vorhersage untergliedert, die von unabhängigen Modellen gesteuert werden. Das kann zu einer gedämpften Stimmensynthese führen. Mit unseren neuronalen Funktionen werden die Vorhersage des Satzrhythmus und die Stimmensynthese gleichzeitig ausgeführt, sodass eine flüssigere und natürlicher klingende Sprache entsteht.
  • Eine vollständige Liste finden Sie in der Dokumentation.
  • Informieren Sie sich über die regionale Verfügbarkeit.

Erste Schritte mit Speech