Cognitive Services-Preise – Sprachdienste

Nutzen Sie Intelligence-APIs, um Funktionen für Bildanalyse, Sprache und Suche zu aktivieren.

Die vereinheitlichten Sprachdienste bieten eine große Bandbreite von Spracherkennungs- und -generierungsfunktionen, einschließlich Sprachtranskription, Sprachsynthese und Sprachübersetzung.

Preisübersicht

Der Speech-Container befindet sich in der Phase der öffentlichen Vorschau.

Instanz Kategorie Merkmale Preis
Free - Web/Container
1 gleichzeitige Anforderung1
Spracherkennung Standard 5 Audiostunden kostenlos pro Monat
Benutzerdefiniert 5 Audiostunden kostenlos pro Monat
Endpunkthosting: 1 kostenloses Modell pro Monat 2
Unterhaltungstranskription (Mehrkanalaudio) VORSCHAU 3 5 Audiostunden kostenlos pro Monat
Text-to-Speech Standard 5 Millionen kostenlose Zeichen pro Monat
Neuronal 0.5 Millionen kostenlose Zeichen pro Monat
Benutzerdefiniert 5 Millionen kostenlose Zeichen pro Monat
Endpunkthosting: 1 kostenloses Modell pro Monat
Sprachübersetzung Standard 5 Audiostunden kostenlos pro Monat
Standard - Web/Container
20 gleichzeitige Anforderung 1
Spracherkennung Standard $- pro Audiostunde
Benutzerdefiniert $- pro Audiostunde
Endpunkthosting: $- pro Modell und Stunde
Unterhaltungstranskription (Mehrkanalaudio) VORSCHAU 3 $- pro Audiostunde 4
Text-to-Speech Standard $- pro 1 Million Zeichen
Neuronal $- pro 1 Million Zeichen 5
Benutzerdefiniert $- pro 1 Million Zeichen
Endpunkthosting: $- pro Modell und Stunde
Erstellung benutzerdefinierter neuronaler VORSCHAU 6 Stimmen: Kontakt
Echtzeitsynthese: $- pro 1 Million Zeichen
Endpunkthosting: $- pro Modell und Stunde
Erstellung langer Audioinhalte: $- pro 1 Million Zeichen
Sprachübersetzung Standard $- pro Audiostunde

1Hierbei handelt es sich um die gleichzeitigen Anforderungen, die nur auf Webendpunkte angewendet werden.

2Nicht verwendete Modelle werden nach 7 Tagen automatisch außer Betrieb genommen.

3Für die Unterhaltungstranskription (Mehrkanal) wird ein kreisförmiges Mikrofonarraygerät empfohlen. Weitere Informationen erhalten Sie im Microsoft Speech-Geräte-SDK.

4Dies gibt den Preis für die öffentliche Vorschauversion an. Die Preise für allgemeine Verfügbarkeit werden mit der allgemeinen Verfügbarkeit bekanntgegeben.

5In der neuronal-Dokumentation erfahren Sie, in welchen Regionen neuronale Text-to-Speech-Funktionen verfügbar sind.

6Die Funktion „Benutzerdefinierte neuronale Stimme“ befindet sich in der geschlossenen Vorschau. Weitere Informationen zur Zulassung

Support und SLA

  • Kostenloser Support für Abrechnungs- und Abonnementverwaltung ist im Leistungsumfang inbegriffen.
  • Wir garantieren, dass Cognitive Services im Standard-Tarif eine Verfügbarkeit von mindestens 99,9 % bieten. Für die kostenlose Testversion wird keine SLA bereitgestellt. SLA lesen

Häufig gestellte Fragen (FAQ)

    • Für die Sprachübersetzung, Spracherkennung und Spracherkennung mit benutzerdefiniertem Sprachmodell: Die Abrechnung erfolgt in Schritten von einer Sekunde.
    • Für Text-to-Speech und Text-to-Speech mit benutzerdefiniertem Voicefont: Die Abrechnung erfolgt pro Zeichen.
    • Für das Hosting von benutzerdefinierten Sprachmodellen: Die Abrechnung erfolgt pro Stunde; für das Hosting von benutzerdefinierten Voicefonts: Die Abrechnung erfolgt pro Tag.
  • Der Sprachdienst ermöglicht die Anpassung von Grundmodellen auf Grundlage eigener Audio- und Sprachdaten, wodurch benutzerdefinierte Sprachmodelle geschaffen werden, die sowohl für die Spracherkennung als auch für die Sprachübersetzung verwendet werden können.

  • Das Sprachmodell ist eine Wahrscheinlichkeitsverteilung über eine Sequenz von Wörtern. Mithilfe des Sprachmodells kann das System aus verschiedenen ähnlich klingenden Wortsequenzen die richtige Sequenz auswählen, basierend auf der Wahrscheinlichkeit der Wortsequenzen selbst. Die englischen Sequenzen „recognize speech“ und „wreck a nice beach“ z.B. klingen ähnlich, das Auftreten der ersten Sequenz ist jedoch weitaus wahrscheinlicher und erhält daher im Sprachmodell einen höheren Rang. Wenn Sie erwarten, dass Ihre Anwendung Sprachabfragen mit einem ganz bestimmten Vokabular verarbeiten muss, beispielsweise mit Produktnamen oder Fachtermini, die im allgemeinen Sprachgebrauch selten vorkommen, können Sie durch Anpassung des Sprachmodells wahrscheinlich eine bessere Leistung erzielen. Ein Beispiel: Sie entwickeln eine App zum Durchsuchen von MSDN per Spracheingabe. Dabei ist es sehr wahrscheinlich, dass Begriffe wie „objektorientiert“, „Namespace“ oder „Dotnet“ häufiger vorkommen als in anderen Spracherkennungsanwendungen. Indem Sie das Sprachmodell anpassen, können Sie dem System ermöglichen, dies zu lernen.

  • Das Akustikmodell ist eine Klassifizierung, die kurze Fragmente einer Audioeingabe basierend auf der Sprache einem von mehreren Phonemen (Klangeinheiten) zuordnet. Diese Phoneme können dann zu Wörtern zusammengefügt werden. Das englische Wort „Speech“ z.B. besteht aus den vier englischen Phonemen „s“, „p“, „iy“ und „ch“. Diese Klassifizierungen erfolgen mit einer Frequenz von ca. 100 pro Sekunde. Durch Anpassen des Akustikmodells kann das System lernen, um Spracheingaben in atypischen Umgebungen besser zu erkennen. Wenn Ihre App z.B. von Arbeitern in einer Lagerhalle oder Fabrik mit hohem Lärmpegel verwendet werden soll, kann ein angepasstes Akustikmodell Spracheingaben in diesen Umgebungen besser erkennen.

  • Die Microsoft-Sprachdienste stellen in über 40 Sprachen über 70 Standardstimmen (auch bekannt als „Voicefonts“) zur Verfügung, anhand derer Sie Ihren Text in Audio umwandeln können. Im Zuge des Aufkommens virtueller Assistenten und diverser sprachfähiger Anwendungen wünschen sich viele Unternehmen jedoch eine einzigartige Stimme, die ihr Unternehmen repräsentiert und sorgfältig auf deren Markenidentität abgestimmt ist. Wenn Sie beispielsweise einen Chatbot für Ihren Kundendienst entwickeln, können Sie ihn mit einer einzigartigen Markenstimme für Ihr Unternehmen versehen, um Kundennähe zu schaffen. Ebenso kann ein Entwickler von Autonavigationssoftware die Sprachsynthese mit verschiedenen benutzerdefinierten Stimmen aktivieren, um das Benutzererlebnis vielseitiger zu gestalten.

    Mit Voice Studio, dem benutzerdefinierten Stimmenerstellungsportal, ist das ganz einfach. Anhand Ihrer eigenen Audiodaten (aufgezeichnete menschliche Stimme mit den dazugehörigen Texten) können Sie einen benutzerdefinierten Voicefont erstellen, der dann für den Microsoft-Text-to-Speech-Dienst bereitgestellt wird und mühelos in Ihre Anwendungen mit einem API-Endpunkt für den eigenen Gebrauch eingebunden werden kann.

Ressourcen

Kalkulieren Sie die monatlichen Kosten für Azure-Dienste

Lesen Sie die häufig gestellten Fragen zu den Preisen von Azure

Erfahren Sie mehr über Cognitive Services

Hier finden Sie Tutorials zu technischen Themen, Videos und weitere Ressourcen

Zur Schätzung hinzufügen Für die Anzeige im Rechner „v“ drücken

Mit einem Guthaben von $200 lernen und erstellen und von weiteren kostenlosen Produkten profitieren