Vereinheitlichter Sprachdienst für Spracherkennung, Sprachsynthese und Sprachübersetzung
Die vereinheitlichten Sprachdienste bieten eine große Bandbreite von Funktionen zur Spracherkennung und -generierung, einschließlich Sprachtranskription, Text-zu-Sprache und Sprachübersetzung. Der Sprachdienst bietet eine große Bandbreite von Funktionen zur Spracherkennung und -generierung, einschließlich Sprachtranskription, Text-zu-Sprache, Sprachübersetzung und Sprecher*innenerkennung.
Preisoptionen entdecken
Sie können die Preisoptionen mit Filtern anpassen.
Preise sind nur Schätzungen und nicht als tatsächliche Preisangebote vorgesehen. Die tatsächlichen Preise können je nach Art des mit Microsoft eingegangenen Vertrags, dem Kaufdatum und dem Wechselkurs variieren. Die Preise werden auf der Grundlage des US-Dollars berechnet und anhand der Thomson Reuters-Benchmarkkurse umgerechnet, die am ersten Tag eines jeden Kalendermonats aktualisiert werden. Melden Sie sich beim Azure-Preisrechner an, um die Preise basierend auf Ihrem aktuellen Programm/Angebot mit Microsoft anzuzeigen. Wenden Sie sich an einen Azure-Vertriebsspezialisten, um weitere Informationen zu den Preisen zu erhalten oder ein Preisangebot anzufordern. Weitere Informationen zu Azure-Preisen siehe häufig gestellte Fragen.
US-amerikanische Regierungsbehörden sind für den Erwerb von Azure Government-Diensten von einem Lizenzlösungsanbieter qualifiziert, ohne dass vorab eine finanzielle Verpflichtung eingegangen werden muss. Alternativ kann Azure Government auch direkt über ein Onlineabonnement mit nutzungsbasierter Bezahlung bezogen werden.
Wichtig: Der Preis in R$ dient lediglich als Referenz; hierbei handelt es sich um eine internationale Transaktion; der Endpreis unterliegt Wechselkursen und der Berücksichtigung von IOF-Steuern. eNF wird nicht ausgegeben.
US-amerikanische Regierungsbehörden sind für den Erwerb von Azure Government-Diensten von einem Lizenzlösungsanbieter qualifiziert, ohne dass vorab eine finanzielle Verpflichtung eingegangen werden muss. Alternativ kann Azure Government auch direkt über ein Onlineabonnement mit nutzungsbasierter Bezahlung bezogen werden.
Wichtig: Der Preis in R$ dient lediglich als Referenz; hierbei handelt es sich um eine internationale Transaktion; der Endpreis unterliegt Wechselkursen und der Berücksichtigung von IOF-Steuern. eNF wird nicht ausgegeben.
Free (F0)
Kategorie | Merkmale | Preis |
---|---|---|
Spracherkennung (Abrechnung pro Sekunde) |
Standard | 5 Audiostunden kostenlos pro Monat |
Benutzerdefiniert |
5 Audiostunden kostenlos pro Monat Endpunkthosting: 1 kostenloses Modell pro Monat1 |
|
Unterhaltungstranskription (Mehrkanalaudio) VORSCHAU | 5 Audiostunden kostenlos pro Monat | |
Sprachsynthese (Abrechnung pro Zeichen) |
Neuronal | 0.5 million kostenlose Zeichen pro Monat |
Sprachübersetzung (Abrechnung pro Sekunde) |
Standard | 5 Audiostunden kostenlos pro Monat |
Sprecher*innenerkennung (Abrechnung pro Transaktion) |
Sprecher*innenüberprüfung2 | 10,000 kostenlose Transaktionen pro Monat |
Sprecher*innenidentifizierung2 | 10,000 kostenlose Transaktionen pro Monat | |
Voiceprofilspeicher | 10,000 kostenlose Transaktionen pro Monat |
Im Voraus bezahlen: Bezahlen Sie nur für das, was Sie verwenden.
Kategorie | Merkmale | Preis |
---|---|---|
Spracherkennung (Abrechnung pro Sekunde) |
Standard | $- pro Audiostunde |
Benutzerdefiniert |
$- pro Audiostunde Endpunkthosting: $- pro Modell und Stunde |
|
Erweiterte Add-On-Features:
|
$- pro Audiostunde pro Feature | |
Unterhaltungstranskription (Mehrkanalaudio) VORSCHAU | $- pro Audiostunde1 | |
Sprachsynthese (Abrechnung pro Zeichen) |
Neuronal |
Echtzeit- und Batchsynthese: $- pro 1 Million
Zeichen Erstellung langer Audioinhalte: $- pro 1 Million Zeichen |
Erstellung benutzerdefinierter neuronaler2 |
Schulung: $- pro Computestunde, bis zu $- pro Schulung Echtzeit- und Batchsynthese: $- pro 1 Million Zeichen Endpunkthosting: $- pro Modell und Stunde Erstellung langer Audioinhalte: $- pro 1 Million Zeichen |
|
Sprachübersetzung (Abrechnung pro Sekunde) |
Standard | $- pro Audiostunde |
Sprecher*innenerkennung (Abrechnung pro Transaktion) |
Sprecher*innenüberprüfung3 | $- pro 1,000 Transaktionen |
Sprecher*innenidentifizierung3 | $- pro 1,000 Transaktionen | |
Voiceprofilspeicher | $- pro 1,000 Sprachprofilen (10,000 kostenlose Stimmprofile pro Monat) |
Mindestabnahmen
Instanz | Kategorie | Merkmale | Preis (pro Monat) | Überschreitung |
---|---|---|---|---|
Azure – Standard | Spracherkennung | Standard | $- für 2,000 Stunden | $- pro Stunde |
$- für 10,000 Stunden | $- pro Stunde | |||
$- für 50,000 Stunden | $- pro Stunde | |||
Benutzerdefiniert | $- für 2,000 Stunden | $- pro Stunde | ||
$- für 10,000 Stunden | $- pro Stunde | |||
$- für 50,000 Stunden | $- pro Stunde | |||
Verbundener Container – Standard | Text-to-Speech | Neuronal1 | $- für 80 Million(en) Zeichen | $- pro 1 Million(en) Zeichen |
$- für 400 Million(en) Zeichen | $- pro 1 Million(en) Zeichen | |||
$- für 2,000 Million(en) Zeichen | $- pro 1 Million(en) Zeichen | |||
Getrennter Container | Spracherkennung | Standard |
Registrieren Sie sich, um Zugriff zu erhalten.
Weitere Informationen |
|
Benutzerdefiniert |
Registrieren Sie sich, um Zugriff zu erhalten.
Weitere Informationen |
|||
Text-to-Speech | Neuronal1 |
Registrieren Sie sich, um Zugriff zu erhalten.
Weitere Informationen |
Diese Funktionen sind veraltet und können nur von vorhandenen Kunden verwendet werden. Überprüfen Sie die Details, und erfahren Sie, wie Sie sie zu neuen Features migrieren.
Instanz | Kategorie | Merkmale | Preis |
---|---|---|---|
Kostenlos - Web/Container 1 gleichzeitige Anforderung |
Text-to-Speech | Standard | 5 million kostenlose Zeichen pro Monat |
Benutzerdefiniert |
5 million kostenlose Zeichen pro Monat Endpunkthosting: 1 kostenloses Modell pro Monat |
||
Standard – Web/Container 100 gleichzeitige Anforderungen für das Basismodell 20 gleichzeitige Anforderungen für das benutzerdefinierte Modell |
Text-to-Speech | Standard | $- pro 1 Million Zeichen |
Benutzerdefiniert |
$- pro 1 Million Zeichen Endpunkthosting: $- pro Modell und Stunde |
Azure-Preise und -Kaufoptionen

Direkten Kontakt aufnehmen
Erhalten Sie eine Übersicht über die Azure-Preise. Informieren Sie sich über die Preise für Ihre Cloudlösung und die Möglichkeiten zur Kostenoptimierung, und fordern Sie ein individuelles Angebot an.
Sprechen Sie mit einem VertriebsspezialistenKaufoptionen
Erwerben Sie Azure-Dienste über die Azure-Website, einen Microsoft-Vertreter oder einen Azure-Partner.
Optionen kennenlernenZusätzliche Ressourcen
Sprachdienste
Hier erhalten Sie weitere Informationen zu den Features und Funktionen von Sprachdienste.
Preisrechner
Kalkulieren Sie Ihre erwarteten monatlichen Kosten für eine beliebige Kombination von Azure-Produkten.
Dokumentation
Hier finden Sie technische Tutorials, Videos und weitere Ressourcen zu Sprachdienste.
Häufig gestellte Fragen
-
- Für Spracherkennung und Sprachübersetzung wird die Nutzung in Inkrementen von einer Sekunde abgerechnet.
- Für Sprachsynthese: Die Nutzung wird pro Zeichen abgerechnet. Überprüfen Sie die Definition eines Zeichens im Preishinweis.
- Für Spracherkennung und Sprachsynthese wird das Endpunkthosting für benutzerdefinierte Modelle pro Sekunde und Modell abgerechnet.
- Für benutzerdefinierte Befehle: Für die Abrechnung wird die Nutzung von Spracherkennung, Sprachsynthese und Language Understanding nachverfolgt. Durch benutzerdefinierte Befehle werden keine neuen Verbrauchseinheiten für die Abrechnung eingeführt.
- Für das Trainieren von Spracherkennungsmodellen fallen keine Gebühren an. Die einzigen Kosten sind das Hosten von Endpunkten pro Modell nach der Bereitstellung, und dann die Kosten pro Audiostunde von Custom Speech in Text.
-
Der Sprachdienst ermöglicht die Anpassung von Grundmodellen auf Grundlage eigener Audio- und Sprachdaten, wodurch benutzerdefinierte Sprachmodelle geschaffen werden, die sowohl für die Spracherkennung als auch für die Sprachübersetzung verwendet werden können.
-
Das Sprachmodell ist eine Wahrscheinlichkeitsverteilung über eine Sequenz von Wörtern. Mithilfe des Sprachmodells kann das System aus verschiedenen ähnlich klingenden Wortsequenzen die richtige Sequenz auswählen, basierend auf der Wahrscheinlichkeit der Wortsequenzen selbst. Die englischen Sequenzen „recognize speech“ und „wreck a nice beach“ z.B. klingen ähnlich, das Auftreten der ersten Sequenz ist jedoch weitaus wahrscheinlicher und erhält daher im Sprachmodell einen höheren Rang. Wenn Sie erwarten, dass Ihre Anwendung Sprachabfragen mit einem ganz bestimmten Vokabular verarbeiten muss, beispielsweise mit Produktnamen oder Fachtermini, die im allgemeinen Sprachgebrauch selten vorkommen, können Sie durch Anpassung des Sprachmodells wahrscheinlich eine bessere Leistung erzielen. Ein Beispiel: Sie entwickeln eine App zum Durchsuchen von MSDN per Spracheingabe. Dabei ist es sehr wahrscheinlich, dass Begriffe wie „objektorientiert“, „Namespace“ oder „Dotnet“ häufiger vorkommen als in anderen Spracherkennungsanwendungen. Indem Sie das Sprachmodell anpassen, können Sie dem System ermöglichen, dies zu lernen.
-
Das Akustikmodell ist eine Klassifizierung, die kurze Fragmente einer Audioeingabe basierend auf der Sprache einem von mehreren Phonemen (Klangeinheiten) zuordnet. Diese Phoneme können dann zu Wörtern zusammengefügt werden. Das englische Wort „Speech“ z.B. besteht aus den vier englischen Phonemen „s“, „p“, „iy“ und „ch“. Diese Klassifizierungen erfolgen mit einer Frequenz von ca. 100 pro Sekunde. Durch Anpassen des Akustikmodells kann das System lernen, um Spracheingaben in atypischen Umgebungen besser zu erkennen. Wenn Ihre App z.B. von Arbeitern in einer Lagerhalle oder Fabrik mit hohem Lärmpegel verwendet werden soll, kann ein angepasstes Akustikmodell Spracheingaben in diesen Umgebungen besser erkennen.
-
Der Spracherkennungsdienst bietet eine Vielzahl von TTS-Voicefonts (Text-to-Speech, Sprachsynthese). Sie können aber auch mithilfe der benutzerdefinierten neuronalen Stimme Ihre eigene benutzerdefinierte Stimme erstellen, die zu Ihren Anforderungen und Ihrer Marke passt. Weitere Informationen finden Sie im Blog.
-
Es gibt Szenarien, in denen ein oder mehrere Sprecher in derselben Audiodatei oder bei derselben Livepräsentation mehrere unterschiedliche Sprachen sprechen. Mit der fortlaufenden Spracherkennung können Sie einen Wechsel der gesprochenen Sprache erkennen und die Sprache dementsprechend korrekt transkribieren. Dieses Feature ist in der privaten Vorschau kostenlos und kann über das Speech SDK aufgerufen werden. Weitere Informationen finden Sie in der Dokumentation.
Sprechen Sie für eine detaillierte Erläuterung der Azure-Preise mit einem Vertriebsspezialisten. Lernen Sie, die Berechnung der Preise für Ihre Cloudlösung zu verstehen.
Sichern Sie sich kostenlose Cloud-Dienste und ein Guthaben in Höhe von $200, mit dem Sie Azure 30 Tage lang erkunden können.