Navigation überspringen

Sprachdienste – Preise

Vereinheitlichter Sprachdienst für Spracherkennung, Sprachsynthese und Sprachübersetzung

Die vereinheitlichten Sprachdienste bieten eine große Bandbreite von Spracherkennungs- und -generierungsfunktionen, einschließlich Sprachtranskription, Sprachsynthese und Sprachübersetzung. Der Sprachdienst bietet eine große Bandbreite von Funktionen zur Spracherkennung und -generierung, einschließlich Sprachtranskription, Sprachsynthese, Sprachübersetzung und Sprechererkennung.

Preisoptionen entdecken

Sie können die Preisoptionen mit Filtern anpassen.

Preise sind nur Schätzungen und nicht als tatsächliche Preisangebote vorgesehen. Die tatsächlichen Preise können je nach Art des mit Microsoft eingegangenen Vertrags, dem Kaufdatum und dem Wechselkurs variieren. Die Preise werden auf der Grundlage des US-Dollars berechnet und anhand der Thomson Reuters-Benchmarkkurse umgerechnet, die am ersten Tag eines jeden Kalendermonats aktualisiert werden. Melden Sie sich beim Azure-Preisrechner an, um die Preise basierend auf Ihrem aktuellen Programm/Angebot mit Microsoft anzuzeigen. Wenden Sie sich an einen Azure-Vertriebsspezialisten, um weitere Informationen zu den Preisen zu erhalten oder ein Preisangebot anzufordern. Siehe häufig gestellte Fragen zu Azure-Preisen.

Free

Instanz Kategorie Funktionen Preis
Free - Web/Container
1 gleichzeitige Anforderung1
Spracherkennung Standard2 5 Audiostunden kostenlos pro Monat
Benutzerdefiniert 5 Audiostunden kostenlos pro Monat
Endpunkthosting: 1 kostenloses Modell pro Monat 3
Unterhaltungstranskription (Mehrkanalaudio) VORSCHAU 4 5 Audiostunden kostenlos pro Monat
Text-to-Speech Neuronal 0.5 million kostenlose Zeichen pro Monat
Sprachübersetzung Standard 5 Audiostunden kostenlos pro Monat
Sprechererkennung Sprecherüberprüfung 10,000 kostenlose Transaktionen pro Monat
Sprecheridentifizierung 10,000 kostenlose Transaktionen pro Monat
Sprachdatenspeicher 10,000 kostenlose Transaktionen pro Monat

Weitere ausführliche Informationen zu Kontingenten und Grenzwerten für alle Tarife finden Sie in der Dokumentation.

1Lesen Sie die Anweisungen, wenn Sie die Anzahl gleichzeitiger Anforderungen erhöhen möchten.

2Spracherkennung umfasst jetzt die Aussprachebewertung sowohl für die Free-Instanz (z. B. 5 Audiostunden kostenlos pro Monat) als auch für die Standard-Instanz, die den Standard-Preisen von $1 pro Audiostunde entspricht.

3Nicht verwendete Modelle werden nach 7 Tagen automatisch außer Betrieb genommen.

4Für die Unterhaltungstranskription (Mehrkanal) wird ein kreisförmiges Mikrofonarraygerät empfohlen. Weitere Informationen erhalten Sie im Microsoft Speech-Geräte-SDK.

Im Voraus bezahlen: Bezahlen Sie nur für das, was Sie verwenden.

Instanz Kategorie Funktionen Preis
Standard – Web/Container
100 gleichzeitige Anforderungen für das Basismodell
20 gleichzeitige Anforderungen für das benutzerdefinierte Modell1
Spracherkennung Standard2 $- pro Audiostunde
Benutzerdefiniert $- pro Audiostunde
Endpunkthosting: $- pro Modell und Stunde
Unterhaltungstranskription (Mehrkanalaudio) VORSCHAU $- pro Audiostunde3
Text-to-Speech Neuronal4 Echtzeitsynthese: $- pro 1 Million Zeichen4
Erstellung langer Audioinhalte: $- pro 1 Million Zeichen
Erstellung benutzerdefinierter neuronaler4, 5 Schulung: $- pro Computestunde, bis zu $- pro Schulung
Echtzeitsynthese: $- pro 1 Million Zeichen
Endpunkthosting: $- pro Modell und Stunde
Erstellung langer Audioinhalte: $- pro 1 Million Zeichen
Sprachübersetzung Standard $- pro Audiostunde
Sprechererkennung Sprecherüberprüfung $- pro 1,000 Transaktionen
Sprecheridentifizierung $- pro 1,000 Transaktionen
Sprachdatenspeicher $- pro 1,000 Sprachprofilen (10,000 kostenlose Stimmprofile pro Monat)

Weitere ausführliche Informationen zu Kontingenten und Grenzwerten für alle Tarife finden Sie in der Dokumentation.

1 Lesen Sie die Anweisungen, wenn Sie die Anzahl gleichzeitiger Anforderungen erhöhen möchten.

2 Spracherkennung umfasst jetzt die Aussprachebewertung sowohl für die Free-Instanz (z. B. 5 Audiostunden kostenlos pro Monat) als auch für die Standard-Instanz, die den Standard-Preisen von $1 pro Audiostunde entspricht.

3 Dies gibt den Preis für die öffentliche Vorschauversion an. Die Preise für allgemeine Verfügbarkeit werden mit der allgemeinen Verfügbarkeit bekanntgegeben.

4 Text-zu-Sprache wird für jedes Zeichen abgerechnet, das in Sprache konvertiert wird, einschließlich Interpunktion. Weitere Informationen.

5 Benutzerdefinierte neuronale Stimme (CNV) ist eine Funktion mit eingeschränktem Zugriff mit Pro- und Lite-Versionen. Mit CNV Lite (public preview) können Kunden ihre eigene Stimme aufzeichnen und ein Modell für Demonstration/Auswertung erstellen, bevor Für den Zugriff auf Pro bewerben. Sehen Sie sich an, wo CNV verfügbar ist.

Mindestabnahmen

Dieser Preis ist auf eingeschränkten Zugriff beschränkt. Hier anwenden.

Instanz Kategorie Funktionen Preis (pro Monat) Überschreitung
Azure – Standard Spracherkennung Standard $- für 2,000 Stunden $- pro Stunde
$- für 10,000 Stunden $- pro Stunde
$- für 50,000 Stunden $- pro Stunde
Text-to-Speech Neuronal1 $- für 80 Million(en) Zeichen $- pro 1 Million(en) Zeichen
$- für 400 Million(en) Zeichen $- pro 1 Million(en) Zeichen
$- für 2,000 Million(en) Zeichen $- pro 1 Million(en) Zeichen
Verbundener Container – Standard Spracherkennung Standard $- für 2,000 Stunden $- pro Stunde
$- für 10,000 Stunden $- pro Stunde
$- für 50,000 Stunden $- pro Stunde
Text-to-Speech Neuronal1 $- für 80 Million(en) Zeichen $- pro 1 Million(en) Zeichen
$- für 400 Million(en) Zeichen $- pro 1 Million(en) Zeichen
$- für 2,000 Million(en) Zeichen $- pro 1 Million(en) Zeichen
Getrennter Container Spracherkennung Standard Registrieren Sie sich, um Zugriff zu erhalten.
Weitere Informationen
Text-to-Speech Neuronal1 Registrieren Sie sich, um Zugriff zu erhalten.
Weitere Informationen
1 Nur Echtzeitsynthese, dies schließt keine lange Audioerstellung ein.

Diese Funktionen sind veraltet und können nur von vorhandenen Kunden verwendet werden. Überprüfen Sie die Details, und erfahren Sie, wie Sie sie zu neuen Features migrieren.

Instanz Kategorie Funktionen Preis
Free - Web/Container
1 gleichzeitige Anforderung
Text-to-Speech Standard 5 million kostenlose Zeichen pro Monat
Benutzerdefiniert 5 million kostenlose Zeichen pro Monat
Endpunkthosting: 1 kostenloses Modell pro Monat
Standard – Web/Container
100 gleichzeitige Anforderungen für das Basismodell
20 gleichzeitige Anforderungen für das benutzerdefinierte Modell
Text-to-Speech Standard $- pro 1 Million Zeichen
Benutzerdefiniert $- pro 1 Million Zeichen
Endpunkthosting: $- pro Modell und Stunde

Azure-Preise und -Kaufoptionen

Direkten Kontakt aufnehmen

Erhalten Sie eine Übersicht über die Azure-Preise. Informieren Sie sich über die Preise für Ihre Cloudlösung und die Möglichkeiten zur Kostenoptimierung, und beantragen Sie ein individuelles Angebot.

Sprechen Sie mit einem Vertriebsspezialisten

Kaufoptionen

Erwerben Sie Azure-Dienste über die Azure-Website, einen Microsoft-Vertreter oder einen Azure-Partner.

Optionen kennenlernen

Zusätzliche Ressourcen

Details zu Sprachdienste

Hier erhalten Sie weitere Informationen zu den Features und Funktionen von Sprachdienste.

Preisrechner

Kalkulieren Sie Ihre erwarteten monatlichen Kosten für eine beliebige Kombination von Azure-Produkten.

Dokumentation

Hier finden Sie technische Tutorials, Videos und weitere Ressourcen zu Sprachdienste.

    • Für die Sprachübersetzung, Spracherkennung und Spracherkennung mit benutzerdefiniertem Sprachmodell: Die Abrechnung erfolgt in Schritten von einer Sekunde.
    • Bei TSprachsynthese mittels neuronaler oder benutzerdefinierter neuronaler Stimmen: Die Nutzung wird pro Zeichen abgerechnet. Überprüfen Sie die Definition von Zeichen unter Preishinweis.
    • Für das Hosting von benutzerdefinierten Sprachmodellen: Die Abrechnung erfolgt pro Stunde; für das Hosting von benutzerdefinierten Voicefonts: Die Abrechnung erfolgt pro Tag.
    • Für benutzerdefinierte Befehle: Für die Abrechnung wird die Nutzung von Spracherkennung, Sprachsynthese und Language Understanding nachverfolgt. Durch benutzerdefinierte Befehle werden keine neuen Verbrauchseinheiten für die Abrechnung eingeführt.
    • Es fallen keine Kosten für das Trainieren von Sprachmodellen an. Sie müssen nur für die Kosten für das Hosten des Modells aufkommen, nachdem es trainiert wurde. Diese werden nach Stunden anhand der erfolgten Sprachtranskription berechnet.
  • Der Sprachdienst ermöglicht die Anpassung von Grundmodellen auf Grundlage eigener Audio- und Sprachdaten, wodurch benutzerdefinierte Sprachmodelle geschaffen werden, die sowohl für die Spracherkennung als auch für die Sprachübersetzung verwendet werden können.

  • Das Sprachmodell ist eine Wahrscheinlichkeitsverteilung über eine Sequenz von Wörtern. Mithilfe des Sprachmodells kann das System aus verschiedenen ähnlich klingenden Wortsequenzen die richtige Sequenz auswählen, basierend auf der Wahrscheinlichkeit der Wortsequenzen selbst. Die englischen Sequenzen „recognize speech“ und „wreck a nice beach“ z.B. klingen ähnlich, das Auftreten der ersten Sequenz ist jedoch weitaus wahrscheinlicher und erhält daher im Sprachmodell einen höheren Rang. Wenn Sie erwarten, dass Ihre Anwendung Sprachabfragen mit einem ganz bestimmten Vokabular verarbeiten muss, beispielsweise mit Produktnamen oder Fachtermini, die im allgemeinen Sprachgebrauch selten vorkommen, können Sie durch Anpassung des Sprachmodells wahrscheinlich eine bessere Leistung erzielen. Ein Beispiel: Sie entwickeln eine App zum Durchsuchen von MSDN per Spracheingabe. Dabei ist es sehr wahrscheinlich, dass Begriffe wie „objektorientiert“, „Namespace“ oder „Dotnet“ häufiger vorkommen als in anderen Spracherkennungsanwendungen. Indem Sie das Sprachmodell anpassen, können Sie dem System ermöglichen, dies zu lernen.

  • Das Akustikmodell ist eine Klassifizierung, die kurze Fragmente einer Audioeingabe basierend auf der Sprache einem von mehreren Phonemen (Klangeinheiten) zuordnet. Diese Phoneme können dann zu Wörtern zusammengefügt werden. Das englische Wort „Speech“ z.B. besteht aus den vier englischen Phonemen „s“, „p“, „iy“ und „ch“. Diese Klassifizierungen erfolgen mit einer Frequenz von ca. 100 pro Sekunde. Durch Anpassen des Akustikmodells kann das System lernen, um Spracheingaben in atypischen Umgebungen besser zu erkennen. Wenn Ihre App z.B. von Arbeitern in einer Lagerhalle oder Fabrik mit hohem Lärmpegel verwendet werden soll, kann ein angepasstes Akustikmodell Spracheingaben in diesen Umgebungen besser erkennen.

  • Der Spracherkennungsdienst bietet eine Vielzahl von TTS-Voicefonts (Text-to-Speech, Sprachsynthese). Sie können aber auch mithilfe der benutzerdefinierten neuronalen Stimme Ihre eigene benutzerdefinierte Stimme erstellen, die zu Ihren Anforderungen und Ihrer Marke passt. Weitere Informationen finden Sie im Blog.

  • Es gibt Szenarien, in denen ein oder mehrere Sprecher in derselben Audiodatei oder bei derselben Livepräsentation mehrere unterschiedliche Sprachen sprechen. Mit der fortlaufenden Spracherkennung können Sie einen Wechsel der gesprochenen Sprache erkennen und die Sprache dementsprechend korrekt transkribieren. Dieses Feature ist in der privaten Vorschau kostenlos und kann über das Speech SDK aufgerufen werden. Weitere Informationen finden Sie in der Dokumentation.

Sprechen Sie für eine detaillierte Erläuterung der Azure-Preise mit einem Vertriebsspezialisten. Lernen Sie, die Berechnung der Preise für Ihre Cloudlösung zu verstehen.

Sichern Sie sich kostenlose Cloud-Dienste und ein Guthaben in Höhe von $200, mit dem Sie Azure 30 Tage lang erkunden können.

Zur Schätzung hinzufügen Für die Anzeige im Rechner „v“ drücken
Können wir Ihnen helfen?