Navigation überspringen

Sprachdienste – Preise

Vereinheitlichter Sprachdienst für Spracherkennung, Sprachsynthese und Sprachübersetzung

Die vereinheitlichten Sprachdienste bieten eine große Bandbreite von Spracherkennungs- und -generierungsfunktionen, einschließlich Sprachtranskription, Sprachsynthese und Sprachübersetzung. Der Sprachdienst bietet eine große Bandbreite von Funktionen zur Spracherkennung und -generierung, einschließlich Sprachtranskription, Sprachsynthese, Sprachübersetzung und Sprechererkennung.

Preisoptionen entdecken

Sie können die Preisoptionen mit Filtern anpassen.

Instanz Kategorie Merkmale Preis
Kostenfrei - Web/Container
1 gleichzeitige Anforderung1
Spracherkennung Standard2 5 Audiostunden kostenlos pro Monat
Benutzerdefiniert 5 Audiostunden kostenlos pro Monat
Endpunkthosting: 1 kostenloses Modell pro Monat 3
Unterhaltungstranskription (Mehrkanalaudio) VORSCHAU 4 5 Audiostunden kostenlos pro Monat
Text-to-Speech Standard 5 million kostenlose Zeichen pro Monat
Neuronal 0.5 million kostenlose Zeichen pro Monat
Benutzerdefiniert 5 million kostenlose Zeichen pro Monat
Endpunkthosting: 1 kostenloses Modell pro Monat
Sprachübersetzung Standard 5 Audiostunden kostenlos pro Monat
Sprechererkennung 8 Sprecherüberprüfung 10,000 kostenlose Transaktionen pro Monat
Sprecheridentifizierung 10,000 kostenlose Transaktionen pro Monat
Sprachdatenspeicher 10,000 kostenlose Transaktionen pro Monat
Standard – Web/Container
100 gleichzeitige Anforderungen für das Basismodell
20 gleichzeitige Anforderungen für das benutzerdefinierte Modell1
Spracherkennung Standard2 $- pro Audiostunde
Benutzerdefiniert $- pro Audiostunde
Endpunkthosting: $- pro Modell und Stunde
Unterhaltungstranskription (Mehrkanalaudio) VORSCHAU 4 $- pro Audiostunde 5
Text-to-Speech Standard $- pro 1 Million Zeichen
Neuronal $- pro 1 Million Zeichen 6
Erstellung langer Audioinhalte: $- pro 1 Million Zeichen
Benutzerdefiniert $- pro 1 Million Zeichen
Endpunkthosting: $- pro Modell und Stunde 9
Erstellung benutzerdefinierter neuronaler 7 Schulung: $- pro Computestunde, bis zu $- pro Schulung
Echtzeitsynthese: $- pro 1 Million Zeichen
Endpunkthosting: $- pro Modell und Stunde
Erstellung langer Audioinhalte: $- pro 1 Million Zeichen
Sprachübersetzung Standard $- pro Audiostunde
Sprechererkennung 8 Sprecherüberprüfung $- pro 1,000 Transaktionen
Sprecheridentifizierung $- pro 1,000 Transaktionen
Sprachdatenspeicher $- pro 1,000 Sprachprofilen (10,000 kostenlose Stimmprofile pro Monat)

Weitere ausführliche Informationen zu Kontingenten und Grenzwerten für alle Tarife finden Sie in der Dokumentation.

1Lesen Sie die Anweisungen, wenn Sie die Anzahl gleichzeitiger Anforderungen erhöhen möchten.

2Spracherkennung umfasst jetzt die Aussprachebewertung sowohl für die Free-Instanz (z. B. 5 Audiostunden kostenlos pro Monat) als auch für die Standard-Instanz, die den Standard-Preisen von $1 pro Audiostunde entspricht.

3Nicht verwendete Modelle werden nach 7 Tagen automatisch außer Betrieb genommen.

4Für die Unterhaltungstranskription (Mehrkanal) wird ein kreisförmiges Mikrofonarraygerät empfohlen. Weitere Informationen erhalten Sie im Microsoft Speech-Geräte-SDK.

5Dies gibt den Preis für die öffentliche Vorschauversion an. Die Preise für allgemeine Verfügbarkeit werden mit der allgemeinen Verfügbarkeit bekanntgegeben.

6In der neuronal-Dokumentation erfahren Sie, in welchen Regionen neuronale Text-to-Speech-Funktionen verfügbar sind.

7The Custom Neural Voice capability is a limited access feature. Learn more about the limited access process. Check where Custom Neural Voice is available.

8Die Sprechererkennung ist derzeit nur in der Region „USA, Westen“ verfügbar. Wählen Sie „USA, Westen“ als Region aus, um die Preise für die Sprechererkennung anzuzeigen.

9Die benutzerdefinierte Stimme wird am 29. Februar 2024 als veraltet angezeigt werden. Wir bieten jetzt ein verbessertes Angebot im Bereich der benutzerdefinierten neuronalen Stimmen. Migrieren zur benutzerdefinierten neuronalen Stimme.

Azure-Preise und -Kaufoptionen

Direkten Kontakt aufnehmen

Erhalten Sie eine Übersicht über die Azure-Preise. Informieren Sie sich über die Preise für Ihre Cloudlösung und die Möglichkeiten zur Kostenoptimierung, und beantragen Sie ein individuelles Angebot.

Sprechen Sie mit einem Vertriebsspezialisten

Kaufoptionen

Erwerben Sie Azure-Dienste über die Azure-Website, einen Microsoft-Vertreter oder einen Azure-Partner.

Optionen kennenlernen

Zusätzliche Ressourcen

Details zu Sprachdienste

Hier erhalten Sie weitere Informationen zu den Features und Funktionen von Sprachdienste.

Preisrechner

Kalkulieren Sie Ihre erwarteten monatlichen Kosten für eine beliebige Kombination von Azure-Produkten.

Dokumentation

Hier finden Sie technische Tutorials, Videos und weitere Ressourcen zu Sprachdienste.

Häufig gestellte Fragen

    • For Speech Translation, Speech to Text, and Speech to Text with Custom Speech Model: usage is billed in one-second increments.
    • For Text to Speech with Neural or Custom Neural Voices: usage is billed per character. Check the definition of character in the pricing note.
    • For Custom Speech Model Hosting: usage is billed hourly; For Custom Voice Font Hosting: usage is billed daily.
    • For Custom Commands: billing is tracked as consumption of Speech to Text, Text to Speech, and Language Understanding. Custom Commands does not introduce new billing meters.
    • There is no charge for training Speech models. The only costs are hosting the model once trained, and then the cost per hour of speech transcription.
  • Der Sprachdienst ermöglicht die Anpassung von Grundmodellen auf Grundlage eigener Audio- und Sprachdaten, wodurch benutzerdefinierte Sprachmodelle geschaffen werden, die sowohl für die Spracherkennung als auch für die Sprachübersetzung verwendet werden können.

  • Das Sprachmodell ist eine Wahrscheinlichkeitsverteilung über eine Sequenz von Wörtern. Mithilfe des Sprachmodells kann das System aus verschiedenen ähnlich klingenden Wortsequenzen die richtige Sequenz auswählen, basierend auf der Wahrscheinlichkeit der Wortsequenzen selbst. Die englischen Sequenzen „recognize speech“ und „wreck a nice beach“ z.B. klingen ähnlich, das Auftreten der ersten Sequenz ist jedoch weitaus wahrscheinlicher und erhält daher im Sprachmodell einen höheren Rang. Wenn Sie erwarten, dass Ihre Anwendung Sprachabfragen mit einem ganz bestimmten Vokabular verarbeiten muss, beispielsweise mit Produktnamen oder Fachtermini, die im allgemeinen Sprachgebrauch selten vorkommen, können Sie durch Anpassung des Sprachmodells wahrscheinlich eine bessere Leistung erzielen. Ein Beispiel: Sie entwickeln eine App zum Durchsuchen von MSDN per Spracheingabe. Dabei ist es sehr wahrscheinlich, dass Begriffe wie „objektorientiert“, „Namespace“ oder „Dotnet“ häufiger vorkommen als in anderen Spracherkennungsanwendungen. Indem Sie das Sprachmodell anpassen, können Sie dem System ermöglichen, dies zu lernen.

  • Das Akustikmodell ist eine Klassifizierung, die kurze Fragmente einer Audioeingabe basierend auf der Sprache einem von mehreren Phonemen (Klangeinheiten) zuordnet. Diese Phoneme können dann zu Wörtern zusammengefügt werden. Das englische Wort „Speech“ z.B. besteht aus den vier englischen Phonemen „s“, „p“, „iy“ und „ch“. Diese Klassifizierungen erfolgen mit einer Frequenz von ca. 100 pro Sekunde. Durch Anpassen des Akustikmodells kann das System lernen, um Spracheingaben in atypischen Umgebungen besser zu erkennen. Wenn Ihre App z.B. von Arbeitern in einer Lagerhalle oder Fabrik mit hohem Lärmpegel verwendet werden soll, kann ein angepasstes Akustikmodell Spracheingaben in diesen Umgebungen besser erkennen.

  • Der Spracherkennungsdienst bietet eine Vielzahl von TTS-Voicefonts (Text-to-Speech, Sprachsynthese). Sie können aber auch mithilfe der benutzerdefinierten neuronalen Stimme Ihre eigene benutzerdefinierte Stimme erstellen, die zu Ihren Anforderungen und Ihrer Marke passt. Weitere Informationen finden Sie im Blog.

  • Es gibt Szenarien, in denen ein oder mehrere Sprecher in derselben Audiodatei oder bei derselben Livepräsentation mehrere unterschiedliche Sprachen sprechen. Mit der fortlaufenden Spracherkennung können Sie einen Wechsel der gesprochenen Sprache erkennen und die Sprache dementsprechend korrekt transkribieren. Dieses Feature ist in der privaten Vorschau kostenlos und kann über das Speech SDK aufgerufen werden. Weitere Informationen finden Sie in der Dokumentation.

Sprechen Sie für eine detaillierte Erläuterung der Azure-Preise mit einem Vertriebsspezialisten. Lernen Sie, die Berechnung der Preise für Ihre Cloudlösung zu verstehen.

Sichern Sie sich kostenlose Cloud-Dienste und ein Guthaben in Höhe von $200, mit dem Sie Azure 30 Tage lang erkunden können.

Zur Schätzung hinzufügen Für die Anzeige im Rechner „v“ drücken