Startseite
Azure-Preise
Azure KI Speech – Preise

Azure KI Speech – Preise

Vereinheitlichter Sprachdienst für Spracherkennung, Sprachsynthese und Sprachübersetzung

Die vereinheitlichten Sprachdienste bieten eine große Bandbreite von Funktionen zur Spracherkennung und -generierung, einschließlich Sprachtranskription, Text-zu-Sprache und Sprachübersetzung. Der Sprachdienst bietet eine große Bandbreite von Funktionen zur Spracherkennung und -generierung, einschließlich Sprachtranskription, Text-zu-Sprache, Sprachübersetzung und Sprecher*innenerkennung.

Preisoptionen entdecken

Sie können die Preisoptionen mit Filtern anpassen.

Preise sind nur Schätzungen und nicht als tatsächliche Preisangebote vorgesehen. Die tatsächlichen Preise können je nach Art des mit Microsoft eingegangenen Vertrags, dem Kaufdatum und dem Wechselkurs variieren. Die Preise werden auf der Grundlage des US-Dollars berechnet und anhand der Londoner Schlusskassakurse umgerechnet, die an den beiden Geschäftstagen vor dem letzten Geschäftstag des vorangegangenen Monatsendes erfasst werden. Wenn die beiden Geschäftstage vor dem Monatsende auf einen Bankfeiertag in wichtigen Märkten fallen, ist der Tag der Kursfeststellung in der Regel der Tag, der den beiden Geschäftstagen unmittelbar vorausgeht. Dieser Kurs gilt für alle Transaktionen im kommenden Monat. Melden Sie sich beim Azure-Preisrechner an, um die Preise basierend auf Ihrem aktuellen Programm/Angebot mit Microsoft anzuzeigen. Wenden Sie sich an einen Azure-Vertriebsspezialisten, um weitere Informationen zu den Preisen zu erhalten oder ein Preisangebot anzufordern. Siehe häufig gestellte Fragen zu Azure-Preisen.

Region:

Währung:

US-amerikanische Regierungsbehörden sind für den Erwerb von Azure Government-Diensten von einem Lizenzlösungsanbieter qualifiziert, ohne dass vorab eine finanzielle Verpflichtung eingegangen werden muss. Alternativ kann Azure Government auch direkt über ein Onlineabonnement mit nutzungsbasierter Bezahlung bezogen werden.

Weitere Informationen

Wichtig: Der Preis in R$ dient lediglich als Referenz; hierbei handelt es sich um eine internationale Transaktion; der Endpreis unterliegt Wechselkursen und der Berücksichtigung von IOF-Steuern. eNF wird nicht ausgegeben.

Weitere Informationen

Free (F0)

Lesen Sie die Dokumentation für Informationen zu Kontingenten, Grenzwerten und Anweisungen zum Erhöhen gleichzeitiger Anforderungen.

¹Nicht verwendete Modelle werden nach 7 Tagen automatisch außer Betrieb genommen.

²Sprecher*innenerkennung ist ein Feature mit eingeschränktem Zugriff, für das Sie Zugriff beantragen müssen.

³Die kostenlosen Audiostunden für die Spracherkennung werden von Standard und Custom gemeinsam genutzt. Batch wird nicht unterstützt.
Kategorie	Merkmale	Preis
Spracherkennung (Abrechnung pro Sekunde)	Standard	5 Audiostunden kostenlos pro Monat³
	Benutzerdefiniert	5 Audiostunden kostenlos pro Monat³ Endpunkthosting: 1 kostenloses Modell pro Monat¹
	Unterhaltungstranskription (Mehrkanalaudio) ^VORSCHAU	5 Audiostunden kostenlos pro Monat
Sprachsynthese (Abrechnung pro Zeichen)	Neuronal	0.5 million kostenlose Zeichen pro Monat
Sprachübersetzung (Abrechnung pro Sekunde)	Standard	5 Audiostunden kostenlos pro Monat
Sprecher*innenerkennung (Abrechnung pro Transaktion)	Sprecher*innenüberprüfung²	10,000 kostenlose Transaktionen pro Monat
	Sprecher*innenidentifizierung²	10,000 kostenlose Transaktionen pro Monat
	Voiceprofilspeicher	10,000 kostenlose Transaktionen pro Monat

Im Voraus bezahlen: Bezahlen Sie nur für das, was Sie verwenden.

Lesen Sie die Dokumentation für Informationen zu Kontingenten, Grenzwerten und Anweisungen zum Erhöhen gleichzeitiger Anforderungen.

Die Spracherkennungsstunden werden als die Stunden der an den Dienst gesendeten Audiodaten gemessen, die in zweiten Schritten abgerechnet werden.

¹ Dies gibt den Preis für die öffentliche Vorschauversion an. Die Preise für allgemeine Verfügbarkeit werden mit der allgemeinen Verfügbarkeit bekanntgegeben.

² Benutzerdefinierte neuronale Stimme (CNV) ist eine Funktion mit eingeschränktem Zugriff mit Pro- und Lite-Versionen. Mit CNV Lite (public preview) können Kunden ihre eigene Stimme aufzeichnen und ein Modell für Demonstration/Auswertung erstellen, bevor Für den Zugriff auf Pro bewerben. Sehen Sie sich an, wo CNV verfügbar ist.

³ Sprecher*innenerkennung ist ein Feature mit eingeschränktem Zugriff, für das Sie Zugriff beantragen müssen.

⁴ Um diese neuen Preise nutzen zu können, müssen Sie die neue Vorschauversion der Spracherkennungs-REST-API V3.2 verwenden. Weitere Informationen zur Verwendung der neuen v3.2-Vorschau-API finden Sie unter Erstellen einer Batchtranskription – Spracherkennungsdienst – Azure KI Services | Microsoft Learn.

⁵ Erweiterte Add-On-Features sind im Batchpreis für alle Batch-API-Versionen enthalten.

⁶ Training für Custom Speech wird angewendet, wenn ein Basismodell angepasst wird, das am oder nach dem 1. Oktober 2023 veröffentlicht wurde.

⁷ Dieser Preis umfasst 1 Audioeingabe und -ausgabe, bis zu 2 Textübersetzungssprache mit standard- oder benutzerdefinierten Spracherkennung und Standardübersetzung. Informationen zu benutzerdefinierten Übersetzungssprachen oder mehr als 3 Übersetzungssprachen finden Sie auf der Azure KI Textübersetzung Übersetzungspreisseite.

⁸ Dies spiegelt die Preise für die öffentliche Vorschau wider. Der Preis für die allgemeine Verfügbarkeit wird später bei der allgemeinen Verfügbarkeit bekannt gegeben. Personal Voice ist ein Feature mit eingeschränktem Zugriff, das auf bestimmte vorab genehmigte Anwendungsfälle (ausschließlich) beschränkt ist, und bei dem man Zugriff beantragen muss. Weitere Informationen zum Dienst im Dokument.

⁹ Benutzerdefinierter Avatar ist ein Feature für eingeschränkten Zugriff, bei dem man Zugriff beantragen muss
Kategorie	Merkmale	Preis
Spracherkennung (Abrechnung pro Sekunde)		Echtzeit	Batch v3.2-API oder höher⁴
	Standard	$- pro Stunde	$- pro Stunde
	Benutzerdefiniert	$- pro Stunde Endpunkthosting: $- pro Modell und Stunde	$- pro Stunde Endpunkthosting: n/v
	Training für Custom Speech⁶	$- pro Computestunde
	Erweiterte Add-On-Features: Kontinuierliche Sprachidentifikation Diarisierung Aussprachebewertung (Prosodie, Grammatik, Vokabular, Thema)	$- pro Stunde pro Feature	Kontinuierliche Sprachidentifikation und Diarisierung enthalten⁵
	Unterhaltungstranskription (Mehrkanalaudio) ^VORSCHAU	$- pro Stunde¹	N/V
Sprachsynthese (Abrechnung pro Zeichen)	Neuronal	Echtzeit- und Batchsynthese: $- pro 1 Million Zeichen
	Neuronale HD	Echtzeit- und Batchsynthese: $- pro 1 Million Zeichen
	Erstellung benutzerdefinierter neuronaler²	Schulung: $- pro Computestunde, bis zu $- pro Schulung Echtzeit- und Batchsynthese: $- pro 1 Million Zeichen Endpunkthosting: $- pro Modell und Stunde
	Personal Voice⁸	Spracherstellung: kostenlos Sprachprofilspeicher: $- pro 1.000 Sprachprofile pro Monat Synthese: $- pro 1 Mio. Zeichen
Text-to-Speech-Avatar (Abrechnung pro Sekunde)	Avatar	Echtzeit- und Batchsynthese: $- pro Minute
Text-to-Speech-Avatar (Abrechnung pro Sekunde)	Benutzerdefinierter Avatar⁹	Echtzeitsynthese: $- pro Minute Batchsynthese: $- pro Minute Endpunkthosting: $- pro Modell pro Stunde
Sprachübersetzung (Abrechnung pro Sekunde)	Standard	$- pro Audiostunde⁷
Sprecher*innenerkennung (Abrechnung pro Transaktion)	Sprecher*innenüberprüfung³	$- pro 1,000 Transaktionen
	Sprecher*innenidentifizierung³	$- pro 1,000 Transaktionen
	Voiceprofilspeicher	$- pro 1,000 Sprachprofilen (10,000 kostenlose Stimmprofile pro Monat)

Mindestabnahmen – Azure – Standard

Kategorie	Merkmale	Preis (pro Monat)	Überschreitung
Spracherkennung	Standard	$- für 2,000 Stunden	$- pro Stunde
		$- für 10,000 Stunden	$- pro Stunde
		$- für 50,000 Stunden	$- pro Stunde
	Benutzerdefiniert	$- für 2,000 Stunden	$- pro Stunde
		$- für 10,000 Stunden	$- pro Stunde
		$- für 50,000 Stunden	$- pro Stunde
	Erweiterte Add-On-Features:² Kontinuierliche Sprachidentifikation Diarisierung Aussprachebewertung (Prosodie, Grammatik, Vokabular, Thema)	$- für 2,000 Stunden	$- pro Stunde
		$- für 10,000 Stunden	$- pro Stunde
		$- für 50,000 Stunden	$- pro Stunde
Text-to-Speech	Neuronal¹	$- für 80 Million(en) Zeichen	$- pro 1 Million(en) Zeichen
		$- für 400 Million(en) Zeichen	$- pro 1 Million(en) Zeichen
		$- für 2,000 Million(en) Zeichen	$- pro 1 Million(en) Zeichen

¹Nur Echtzeitsynthese, dies schließt keine lange Audioerstellung ein.

²Nur Spracherkennung in Echtzeit, kontinuierliche Sprachidentifikation und Add-On-Features für die Diarisierung, die in Batch-Spracherkennung enthalten sind.

Mindestabnahmen – Verbundener Container

Kategorie	Merkmale	Preis (pro Monat)	Überschreitung
Spracherkennung²	Standard	$- für 2,000 Stunden	$- pro Stunde
		$- für 10,000 Stunden	$- pro Stunde
		$- für 50,000 Stunden	$- pro Stunde
	Benutzerdefiniert	$- für 2,000 Stunden	$- pro Stunde
		$- für 10,000 Stunden	$- pro Stunde
		$- für 50,000 Stunden	$- pro Stunde
	Erweiterte Add-On-Features:² Sprachidentifikation Diarisierung	$- für 2,000 Stunden	$- pro Stunde
		$- für 10,000 Stunden	$- pro Stunde
		$- für 50,000 Stunden	$- pro Stunde
Text-to-Speech	Neuronal¹	$- für 80 Million(en) Zeichen	$- pro 1 Million(en) Zeichen
		$- für 400 Million(en) Zeichen	$- pro 1 Million(en) Zeichen
		$- für 2,000 Million(en) Zeichen	$- pro 1 Million(en) Zeichen

¹Nur Echtzeitsynthese, dies schließt keine lange Audioerstellung ein.

²Die Preise gelten für Echtzeit- und Batch-Anwendungsfälle. Es gibt keine separaten Batchpreise für Container.

Informationen zu Tarifen mit Mindestabnahmen finden Sie in der Dokumentation.

Mindestabnahmen – Getrennter Container

Registrieren Sie sich, um auf Sprache in getrennten Containern zuzugreifen, oder sehen Sie sich weitere Informationen an

Kategorie	Merkmale	Preis (pro Jahr)	Maximale Nutzung (pro Jahr)	Voraussichtliche Nutzung (pro Monat)
Spracherkennung²	Standard	$- $- Registrieren Sie sich, um Zugriff zu erhalten. Weitere Informationen	120.000 Stunden 600.000 Stunden	10.000 Stunden 50.000 Stunden
	Benutzerdefiniert	$- $- Registrieren Sie sich, um Zugriff zu erhalten. Weitere Informationen	120.000 Stunden 600.000 Stunden	10.000 Stunden 50.000 Stunden
	Erweiterte Add-On-Features: Sprachidentifikation Diarisierung	$- $-	120.000 Stunden 600.000 Stunden	10.000 Stunden 50.000 Stunden
Text-to-Speech	Neuronal¹	$- $- Registrieren Sie sich, um Zugriff zu erhalten. Weitere Informationen	4,8 Mrd. Zeichen 24 Mrd. Zeichen	400 Mio. Zeichen 2.000 Mio. Zeichen

¹Nur Echtzeitsynthese, dies schließt keine lange Audioerstellung ein.

²Die Preise gelten für Echtzeit- und Batch-Anwendungsfälle. Es gibt keine separaten Batchpreise für Container.

Diese Funktionen sind veraltet und können nur von vorhandenen Kunden verwendet werden. Überprüfen Sie die Details, und erfahren Sie, wie Sie sie zu neuen Features migrieren.

Instanz	Kategorie	Merkmale	Preis
Kostenlos - Web/Container 1 gleichzeitige Anforderung	Text-to-Speech	Standard	5 million kostenlose Zeichen pro Monat
Kostenlos - Web/Container 1 gleichzeitige Anforderung	Text-to-Speech	Benutzerdefiniert	5 million kostenlose Zeichen pro Monat Endpunkthosting: 1 kostenloses Modell pro Monat
Standard – Web/Container 100 gleichzeitige Anforderungen für das Basismodell 20 gleichzeitige Anforderungen für das benutzerdefinierte Modell	Text-to-Speech	Standard	$- pro 1 Million Zeichen
	Text-to-Speech	Benutzerdefiniert	$- pro 1 Million Zeichen Endpunkthosting: $- pro Modell und Stunde

Azure-Preise und -Kaufoptionen

Direkten Kontakt aufnehmen

Erhalten Sie eine Übersicht über die Azure-Preise. Informieren Sie sich über die Preise für Ihre Cloudlösung und die Möglichkeiten zur Kostenoptimierung, und fordern Sie ein individuelles Angebot an.

Sprechen Sie mit einem Vertriebsspezialisten

Kaufoptionen

Erwerben Sie Azure-Dienste über die Azure-Website, einen Microsoft-Vertreter oder einen Azure-Partner.

Optionen kennenlernen

Zusätzliche Ressourcen

Azure KI Speech

Hier erhalten Sie weitere Informationen zu den Features und Funktionen von Azure KI Speech.

Preisrechner

Kalkulieren Sie Ihre erwarteten monatlichen Kosten für eine beliebige Kombination von Azure-Produkten.

Dokumentation

Hier finden Sie technische Tutorials, Videos und weitere Ressourcen zu Azure KI Speech.

Häufig gestellte Fragen

Häufig gestellte Fragen zur Azure-Preisgestaltung

- Für Spracherkennung und Sprachübersetzung wird die Nutzung in Inkrementen von einer Sekunde abgerechnet.
- Für Sprachsynthese: Die Nutzung wird pro Zeichen abgerechnet. Überprüfen Sie die Definition eines Zeichens im Preishinweis.
- Für benutzerdefiniertes neuronales Sprachhosting: Die Nutzung wird pro Endpunkt pro Sekunde abgerechnet. Details finden Sie im Preishinweis.
- Für persönlichen Sprachprofilspeicher: Die Nutzung wird pro Sprachprofil pro Tag abgerechnet. Details finden Sie im Preishinweis.
- Für Text-to-Speech-Avatar wird die Nutzung pro Sekunde abgerechnet.
- Für Spracherkennung und Sprachsynthese (einschließlich Avatar) wird das Endpunkthosting für benutzerdefinierte Modelle pro Sekunde und Modell abgerechnet.
Der Sprachdienst ermöglicht die Anpassung von Grundmodellen auf Grundlage eigener Audio- und Sprachdaten, wodurch benutzerdefinierte Sprachmodelle geschaffen werden, die sowohl für die Spracherkennung als auch für die Sprachübersetzung verwendet werden können.
Das Sprachmodell ist eine Wahrscheinlichkeitsverteilung über eine Sequenz von Wörtern. Mithilfe des Sprachmodells kann das System aus verschiedenen ähnlich klingenden Wortsequenzen die richtige Sequenz auswählen, basierend auf der Wahrscheinlichkeit der Wortsequenzen selbst. Die englischen Sequenzen „recognize speech“ und „wreck a nice beach“ z.B. klingen ähnlich, das Auftreten der ersten Sequenz ist jedoch weitaus wahrscheinlicher und erhält daher im Sprachmodell einen höheren Rang. Wenn Sie erwarten, dass Ihre Anwendung Sprachabfragen mit einem ganz bestimmten Vokabular verarbeiten muss, beispielsweise mit Produktnamen oder Fachtermini, die im allgemeinen Sprachgebrauch selten vorkommen, können Sie durch Anpassung des Sprachmodells wahrscheinlich eine bessere Leistung erzielen. Ein Beispiel: Sie entwickeln eine App zum Durchsuchen von MSDN per Spracheingabe. Dabei ist es sehr wahrscheinlich, dass Begriffe wie „objektorientiert“, „Namespace“ oder „Dotnet“ häufiger vorkommen als in anderen Spracherkennungsanwendungen. Indem Sie das Sprachmodell anpassen, können Sie dem System ermöglichen, dies zu lernen.
Das Akustikmodell ist eine Klassifizierung, die kurze Fragmente einer Audioeingabe basierend auf der Sprache einem von mehreren Phonemen (Klangeinheiten) zuordnet. Diese Phoneme können dann zu Wörtern zusammengefügt werden. Das englische Wort „Speech“ z.B. besteht aus den vier englischen Phonemen „s“, „p“, „iy“ und „ch“. Diese Klassifizierungen erfolgen mit einer Frequenz von ca. 100 pro Sekunde. Durch Anpassen des Akustikmodells kann das System lernen, um Spracheingaben in atypischen Umgebungen besser zu erkennen. Wenn Ihre App z.B. von Arbeitern in einer Lagerhalle oder Fabrik mit hohem Lärmpegel verwendet werden soll, kann ein angepasstes Akustikmodell Spracheingaben in diesen Umgebungen besser erkennen.
Der Spracherkennungsdienst bietet eine Vielzahl von TTS-Voicefonts (Text-to-Speech, Sprachsynthese). Sie können aber auch mithilfe der benutzerdefinierten neuronalen Stimme Ihre eigene benutzerdefinierte Stimme erstellen, die zu Ihren Anforderungen und Ihrer Marke passt. Weitere Informationen finden Sie im Blog.
Sprachidentifikation ermöglicht es Ihnen, einen Schalter in gesprochener Sprache zu identifizieren und Sprache entsprechend zu transkribieren. Dies kann in Szenarien angewendet werden, in denen die Audiosprache unbekannt ist oder wenn Sprecher mehrere Sprachen sprechen. Die Einzelsprachidentifikation ist ohne zusätzliche Kosten verfügbar. Continuous Language Identification ist ein erweitertes Add-On-Feature. Besuchen Sie die Dokumentation für weitere Informationen.
- Bewertung der Aussprache wertet die Aussprache aus und gibt Sprechern Feedback zur Genauigkeit und Sprachfluss von gesprochenem Audio. Mit der Aussprachebewertung können Sprachlerner üben, sofortiges Feedback erhalten und ihre Aussprache verbessern, sodass sie selbstbewusst sprechen und präsentieren können. Lehrkräfte können die Funktion verwenden, um die Aussprache mehrerer Sprecher in Echtzeit auszuwerten. Besuchen Sie Dokumente, um mehr zu erfahren.
- Wird wie standardmäßige Spracherkennung abgerechnet, z. B.:
  Für die Auswertung von 8 Sekunden Sprache werden Ihnen etwa $- in Rechnung gestellt

Sprechen Sie für eine detaillierte Erläuterung der Azure-Preise mit einem Vertriebsspezialisten. Lernen Sie, die Berechnung der Preise für Ihre Cloudlösung zu verstehen.

Preisangebot anfordern

Sichern Sie sich kostenlose Cloud-Dienste und ein Guthaben in Höhe von $200, mit dem Sie Azure 30 Tage lang erkunden können.

Azure kostenlos testen

Zur Schätzung hinzufügen Für die Anzeige im Rechner „v“ drücken

Vorgestellt

KI + Machine Learning

Analysen

Compute

Container

Datenbanken

DevOps

Entwicklungstools

Hybrid Cloud und Multi Cloud

Identität

Integration

Internet der Dinge

Verwaltung und Governance

Medien

Migration

Mixed Reality

Mobil

Netzwerk

Sicherheit

Speicher

Web

Windows Virtual Desktop

Anwendungsfälle

Anwendungsbereitstellung

KI

Cloudmigration und -modernisierung

Daten und Analysen

Hybrid Cloud und Infrastruktur

Internet der Dinge

Sicherheit und Governance

Organisationstyp

Ressourcen

Azure KI Speech – Preise

Vereinheitlichter Sprachdienst für Spracherkennung, Sprachsynthese und Sprachübersetzung

Preisoptionen entdecken

Free (F0)

Im Voraus bezahlen: Bezahlen Sie nur für das, was Sie verwenden.

Mindestabnahmen – Azure – Standard

Mindestabnahmen – Verbundener Container

Mindestabnahmen – Getrennter Container

Veraltet

Azure-Preise und -Kaufoptionen

Direkten Kontakt aufnehmen

Kaufoptionen

Zusätzliche Ressourcen

Azure KI Speech

Preisrechner

Dokumentation

Häufig gestellte Fragen