Cognitive Services-Preise – Sprachdienste

Intelligence-APIs für Bildanalyse-, Sprach- und Suchfeatures

Die vereinheitlichten Sprachdienste bieten eine große Bandbreite von Spracherkennungs- und -generierungsfunktionen, einschließlich Sprachtranskription, Sprachsynthese und Sprachübersetzung. Der Sprachdienst bietet eine große Bandbreite von Funktionen zur Spracherkennung und -generierung, einschließlich Sprachtranskription, Sprachsynthese, Sprachübersetzung und Sprechererkennung.

Preisübersicht

Instanz Kategorie Merkmale Preis
Free - Web/Container
1 gleichzeitige Anforderung1
Spracherkennung Standard 5 Audiostunden kostenlos pro Monat
Benutzerdefiniert 5 Audiostunden kostenlos pro Monat
Endpunkthosting: 1 kostenloses Modell pro Monat 2
Unterhaltungstranskription (Mehrkanalaudio) VORSCHAU 3 5 Audiostunden kostenlos pro Monat
Text-to-Speech Standard 5 million kostenlose Zeichen pro Monat
Neuronal 0.5 million kostenlose Zeichen pro Monat
Benutzerdefiniert 5 million kostenlose Zeichen pro Monat
Endpunkthosting: 1 kostenloses Modell pro Monat
Sprachübersetzung Standard 5 Audiostunden kostenlos pro Monat
Sprechererkennung7 Sprecherüberprüfung 10,000 kostenlose Transaktionen pro Monat
Sprecheridentifizierung 10,000 kostenlose Transaktionen pro Monat
Standard - Web/Container
20 gleichzeitige Anforderung 1
Spracherkennung Standard $- pro Audiostunde
Benutzerdefiniert $- pro Audiostunde
Endpunkthosting: $- pro Modell und Stunde
Unterhaltungstranskription (Mehrkanalaudio) VORSCHAU 3 $- pro Audiostunde 4
Text-to-Speech Standard $- pro 1 Million Zeichen
Neuronal $- pro 1 Million Zeichen 5
Erstellung langer Audioinhalte: $- pro 1 Million Zeichen
Benutzerdefiniert $- pro 1 Million Zeichen
Endpunkthosting: $- pro Modell und Stunde
Erstellung benutzerdefinierter neuronaler VORSCHAU 6 Stimmen: Kontakt
Echtzeitsynthese: $- pro 1 Million Zeichen
Endpunkthosting: $- pro Modell und Stunde
Erstellung langer Audioinhalte: $- pro 1 Million Zeichen
Sprachübersetzung Standard $- pro Audiostunde
Sprechererkennung7 Sprecherüberprüfung $- pro 1,000 Transaktionen
Sprecheridentifizierung $- pro 1,000 Transaktionen

Weitere ausführliche Informationen zu Kontingenten und Grenzwerten für alle Tarife finden Sie in der Dokumentation.

1Lesen Sie die Anweisungen, wenn Sie die Anzahl gleichzeitiger Anforderungen erhöhen möchten.

2Nicht verwendete Modelle werden nach 7 Tagen automatisch außer Betrieb genommen.

3Für die Unterhaltungstranskription (Mehrkanal) wird ein kreisförmiges Mikrofonarraygerät empfohlen. Weitere Informationen erhalten Sie im Microsoft Speech-Geräte-SDK.

4Dies gibt den Preis für die öffentliche Vorschauversion an. Die Preise für allgemeine Verfügbarkeit werden mit der allgemeinen Verfügbarkeit bekanntgegeben.

5In der neuronal-Dokumentation erfahren Sie, in welchen Regionen neuronale Text-to-Speech-Funktionen verfügbar sind.

6Die Funktion „Benutzerdefinierte neuronale Stimme“ befindet sich in der geschlossenen Vorschau. Weitere Informationen zur Zulassung

7Die Sprechererkennung ist derzeit nur in der Region „USA, Westen“ verfügbar. Wählen Sie „USA, Westen“ als Region aus, um die Preise für die Sprechererkennung anzuzeigen.

Support und SLA

  • Kostenloser Support für Abrechnungs- und Abonnementverwaltung ist im Leistungsumfang inbegriffen.
  • Wir garantieren, dass Cognitive Services im Standard-Tarif eine Verfügbarkeit von mindestens 99,9 % bieten. Für die kostenlose Testversion wird keine SLA bereitgestellt. SLA lesen

Häufig gestellte Fragen (FAQ)

    • Für die Sprachübersetzung, Spracherkennung und Spracherkennung mit benutzerdefiniertem Sprachmodell: Die Abrechnung erfolgt in Schritten von einer Sekunde.
    • Für Sprachsynthese und Sprachsynthese mit benutzerdefiniertem Voicefont: Die Abrechnung erfolgt pro Zeichen.
    • Für das Hosting von benutzerdefinierten Sprachmodellen: Die Abrechnung erfolgt pro Stunde; für das Hosting von benutzerdefinierten Voicefonts: Die Abrechnung erfolgt pro Tag.
    • Für benutzerdefinierte Befehle: Für die Abrechnung wird die Nutzung von Spracherkennung, Sprachsynthese und Language Understanding nachverfolgt. Durch benutzerdefinierte Befehle werden keine neuen Verbrauchseinheiten für die Abrechnung eingeführt.
    • Es fallen keine Kosten für das Trainieren von Sprachmodellen an. Sie müssen nur für die Kosten für das Hosten des Modells aufkommen, nachdem es trainiert wurde. Diese werden nach Stunden anhand der erfolgten Sprachtranskription berechnet.
  • Der Sprachdienst ermöglicht die Anpassung von Grundmodellen auf Grundlage eigener Audio- und Sprachdaten, wodurch benutzerdefinierte Sprachmodelle geschaffen werden, die sowohl für die Spracherkennung als auch für die Sprachübersetzung verwendet werden können.

  • Das Sprachmodell ist eine Wahrscheinlichkeitsverteilung über eine Sequenz von Wörtern. Mithilfe des Sprachmodells kann das System aus verschiedenen ähnlich klingenden Wortsequenzen die richtige Sequenz auswählen, basierend auf der Wahrscheinlichkeit der Wortsequenzen selbst. Die englischen Sequenzen „recognize speech“ und „wreck a nice beach“ z.B. klingen ähnlich, das Auftreten der ersten Sequenz ist jedoch weitaus wahrscheinlicher und erhält daher im Sprachmodell einen höheren Rang. Wenn Sie erwarten, dass Ihre Anwendung Sprachabfragen mit einem ganz bestimmten Vokabular verarbeiten muss, beispielsweise mit Produktnamen oder Fachtermini, die im allgemeinen Sprachgebrauch selten vorkommen, können Sie durch Anpassung des Sprachmodells wahrscheinlich eine bessere Leistung erzielen. Ein Beispiel: Sie entwickeln eine App zum Durchsuchen von MSDN per Spracheingabe. Dabei ist es sehr wahrscheinlich, dass Begriffe wie „objektorientiert“, „Namespace“ oder „Dotnet“ häufiger vorkommen als in anderen Spracherkennungsanwendungen. Indem Sie das Sprachmodell anpassen, können Sie dem System ermöglichen, dies zu lernen.

  • Das Akustikmodell ist eine Klassifizierung, die kurze Fragmente einer Audioeingabe basierend auf der Sprache einem von mehreren Phonemen (Klangeinheiten) zuordnet. Diese Phoneme können dann zu Wörtern zusammengefügt werden. Das englische Wort „Speech“ z.B. besteht aus den vier englischen Phonemen „s“, „p“, „iy“ und „ch“. Diese Klassifizierungen erfolgen mit einer Frequenz von ca. 100 pro Sekunde. Durch Anpassen des Akustikmodells kann das System lernen, um Spracheingaben in atypischen Umgebungen besser zu erkennen. Wenn Ihre App z.B. von Arbeitern in einer Lagerhalle oder Fabrik mit hohem Lärmpegel verwendet werden soll, kann ein angepasstes Akustikmodell Spracheingaben in diesen Umgebungen besser erkennen.

  • Die Microsoft-Sprachdienste stellen in über 40 Sprachen über 70 Standardstimmen (auch bekannt als „Voicefonts“) zur Verfügung, anhand derer Sie Ihren Text in Audio umwandeln können. Im Zuge des Aufkommens virtueller Assistenten und diverser sprachfähiger Anwendungen wünschen sich viele Unternehmen jedoch eine einzigartige Stimme, die ihr Unternehmen repräsentiert und sorgfältig auf deren Markenidentität abgestimmt ist. Wenn Sie beispielsweise einen Chatbot für Ihren Kundendienst entwickeln, können Sie ihn mit einer einzigartigen Markenstimme für Ihr Unternehmen versehen, um Kundennähe zu schaffen. Ebenso kann ein Entwickler von Autonavigationssoftware die Sprachsynthese mit verschiedenen benutzerdefinierten Stimmen aktivieren, um das Benutzererlebnis vielseitiger zu gestalten.

    Mit Voice Studio, dem benutzerdefinierten Stimmenerstellungsportal, ist das ganz einfach. Anhand Ihrer eigenen Audiodaten (aufgezeichnete menschliche Stimme mit den dazugehörigen Texten) können Sie einen benutzerdefinierten Voicefont erstellen, der dann für den Microsoft-Text-to-Speech-Dienst bereitgestellt wird und mühelos in Ihre Anwendungen mit einem API-Endpunkt für den eigenen Gebrauch eingebunden werden kann.

Ressourcen

Kalkulieren Sie die monatlichen Kosten für Azure-Dienste

Lesen Sie die häufig gestellten Fragen zu den Preisen von Azure

Erfahren Sie mehr über Azure Cognitive Services

Hier finden Sie Tutorials zu technischen Themen, Videos und weitere Ressourcen

Zur Schätzung hinzufügen Für die Anzeige im Rechner „v“ drücken

Guthaben von $200 zur Weiterbildung und zur Lösungsentwicklung nutzen und von weiteren kostenlosen Produkten profitieren