Preise für den benutzerdefinierten SpracherkennungsdienstVORSCHAU der Cognitive Services

Nutzen Sie Intelligence-APIs, um Funktionen für Bildanalyse, Spracherkennung und Erfassung nützlicher Informationen zu aktivieren

Mit dem benutzerdefinierten Spracherkennungsdienst können Sie benutzerdefinierte Spracherkennungsmodelle erstellen und auf einem Spracherkennungsendpunkt bereitstellen, der genau auf Ihre Anwendung zugeschnitten ist. Mit dem benutzerdefinierten Spracherkennungsdienst können Sie das Sprachmodell des Spracherkennungsmoduls anpassen, damit das Modell die Vokabeln Ihrer Anwendung und den Sprachstil Ihrer Benutzer lernt. Sie können auch das Akustikmodell des Spracherkennungsmoduls anpassen, um der erwarteten Umgebung und Art der Benutzer der Anwendung besser zu entsprechen.

Die Modellanpassung ist kostenlos.

Preisübersicht

Bereitstellung eines benutzerdefinierten Modells 0-1 – Free
1+ - $-/Modell/Monat
Modellanpassung Free
Genauigkeitstests 0-2 Stunden – Free
2+ - $-/Stunde
Horizontales Skalieren $-/Einheit/Tag, wobei jede Einheit das Senden von bis zu fünf gleichzeitigen Anforderungen ermöglicht
Keine Ablaufverfolgung $-/Modell/Monat
Anforderungspreise 0-2 Stunden – Free
2+ - $-/Stunde

Support und SLA

  • Kostenloser Support für Abrechnungs- und Abonnementverwaltung
  • Sie benötigen technischen Support für Vorschaudienste? Besuchen Sie unsere Foren
  • Wir garantieren, dass Cognitive Services im Tarif „Standard“ eine Verfügbarkeit von mindestens 99,9 % bieten. Für den Free-Tarif wird keine SLA bereitgestellt. SLA lesen
  • Keine SLA während des Vorschauzeitraums. Weitere Informationen

FAQ

Benutzerdefinierter Spracherkennungsdienst

  • In Tarif 1 kann das System bis zu vier Audioeingaben (also vier Transkriptionen) gleichzeitig verarbeiten und dennoch in Echtzeit antworten. Wenn ein Benutzer mehr als vier Audioeingaben zur gleichen Zeit sendet, wird jede nachfolgende Eingabe abgelehnt und mit einem Fehlercode zurückgegeben, der darauf hinweist, dass zu viele gleichzeitige Erkennungsanforderungen gesendet wurden. Das Gleiche gilt für Tarif 2, in dem 12 Transkriptionen gleichzeitig verarbeitet werden können. Der Free-Tarif bietet nur eine gleichzeitige Transkription. Es wird angenommen, dass die Audioeingaben in Echtzeit hochgeladen werden. Wenn Audioeingaben schneller hochgeladen werden, wird die Anforderung aus Gründen der Parallelität weiterhin als „in Verarbeitung“ betrachtet, bis die Dauer der Audioeingabe verstrichen ist (auch wenn das Erkennungsergebnis möglicherweise früher zurückgesendet wird).

    Hinweis: Wenn ein höherer Grad an Gleichzeitigkeit erforderlich ist, wenden Sie sich an uns.

  • Das Sprachmodell ist eine Wahrscheinlichkeitsverteilung über eine Sequenz von Wörtern. Mithilfe des Sprachmodells kann das System aus verschiedenen ähnlich klingenden Wortsequenzen die richtige Sequenz auswählen, basierend auf der Wahrscheinlichkeit der Wortsequenzen selbst. Die englischen Sequenzen „recognize speech“ und „wreck a nice beach“ z.B. klingen ähnlich, das Auftreten der ersten Sequenz ist jedoch weitaus wahrscheinlicher und erhält daher im Sprachmodell einen höheren Rang. Wenn Sie erwarten, dass Ihre Anwendung Sprachabfragen mit einem ganz bestimmten Vokabular verarbeiten muss, beispielsweise mit Produktnamen oder Fachtermini, die im allgemeinen Sprachgebrauch selten vorkommen, können Sie durch Anpassung des Sprachmodells wahrscheinlich eine bessere Leistung erzielen. Ein Beispiel: Sie entwickeln eine App zum Durchsuchen von MSDN per Spracheingabe. Dabei ist es sehr wahrscheinlich, dass Begriffe wie „objektorientiert“, „Namespace“ oder „Dotnet“ häufiger vorkommen als in anderen Spracherkennungsanwendungen. Indem Sie das Sprachmodell anpassen, können Sie dem System ermöglichen, dies zu lernen.

  • Das Akustikmodell ist eine Klassifizierung, die kurze Fragmente einer Audioeingabe basierend auf der Sprache einem von mehreren Phonemen (Klangeinheiten) zuordnet. Diese Phoneme können dann zu Wörtern zusammengefügt werden. Das englische Wort „Speech“ z.B. besteht aus den vier englischen Phonemen „s“, „p“, „iy“ und „ch“. Diese Klassifizierungen erfolgen mit einer Frequenz von ca. 100 pro Sekunde. Durch Anpassen des Akustikmodells kann das System lernen, um Spracheingaben in atypischen Umgebungen besser zu erkennen. Wenn Ihre App z.B. von Arbeitern in einer Lagerhalle oder Fabrik mit hohem Lärmpegel verwendet werden soll, kann ein angepasstes Akustikmodell Spracheingaben in diesen Umgebungen besser erkennen.

  • Die Erkennung kurzer Spracheingaben unterstützt Eingaben mit einer Länge von bis zu 15 Sekunden. Wenn die Bibliothek des Spracherkennungsclients verwendet wird, erhält der Client nach dem Senden der Daten an den Server mehrere Teilergebnisse und als endgültiges Ergebnis das wahrscheinlichste aus N möglichen Ergebnissen.

  • Die Erkennung langer Spracheingaben unterstützt Eingaben mit einer Länge von bis zu zwei Minuten. Wenn die Bibliothek des Spracherkennungsclients verwendet wird, erhält der Client nach dem Senden der Daten an den Server mehrere Teilergebnisse und mehrere endgültige Ergebnisse, je nachdem, wo der Server Pausen zwischen Sätzen erkennt.

  • Wenn ein Kunde z.B. den S1-Tarif nutzt, um eine Million Transkriptionen zu verarbeiten, wird der Grundpreis des Tarifs berechnet ($-). Zusätzlich werden die ersten 100,000 Transkriptionen mit $- pro 1,000 Transkriptionen und die verbleibenden 900,000 Transkriptionen mit $- pro 1,000 Transkriptionen abgerechnet. Dem Kunden werden also insgesamt $- + 100,000 * ($- / 1,000) + 900,000 * ($- / 1,000) = $4500 in Rechnung gestellt.

  • Weitere Informationen finden Sie auf der Webseite der Microsoft Cognitive Services im Abschnitt zum benutzerdefinierten Spracherkennungsdienst und auf der Custom Speech Service-Website unter www.cris.ai.

  • Bei der Bereitstellung eines benutzerdefinierten Modells wird ein benutzerdefiniertes Modell gepackt und als Dienst verfügbar gemacht. Dieses bereitgestellte benutzerdefinierte Modell macht einen Endpunkt verfügbar, über den auf das Modell zugegriffen werden kann. Benutzer können so viele Modelle bereitstellen, wie benötigt werden.

  • Mit dem benutzerdefinierten Spracherkennungsdienst können Benutzer Baselinemodelle anhand ihrer eigenen akustischen und sprachbasierten Daten anpassen. Wir bezeichnen dies als Modellanpassung.

  • Benutzer können beim Erstellen eines benutzerdefiniertes Modells Testdaten hochladen, um das neu erstellte Modell zu bewerten. Beim Testen eines neuen benutzerdefinierten Modells können Benutzer so viele Daten verwenden, wie sie möchten, d. h. sie können unbegrenzte Genauigkeitstests durchführen.

  • Wenn ein benutzerdefiniertes Modell bereitgestellt wurde, kann der zugehörige URI nur jeweils eine Anforderung verarbeiten. Für Szenarien, in denen mehrere Audioanforderungen gleichzeitig an den URI gesendet werden, können Benutzer auf bis zu fünf gleichzeitige Anforderungen horizontal hochskalieren. Hierfür müssen Skalierungseinheiten erworben werden. Jede Skalierungseinheit garantiert bis zu fünf gleichzeitige Audioanforderungen zu einem Preis von $200 pro Skalierungseinheit. Wenn ein Benutzer z.B. erwartet, dass 23 Audioanforderungen gleichzeitig an einen Endpunkt gesendet werden, muss dieser Benutzer fünf Skalierungseinheiten erwerben, um bis zu 25 gleichzeitige Anforderungen zu garantieren.

  • Mit der Protokollverwaltung können Benutzer die Protokollierung für ihre bereitgestellten Modelle deaktivieren. Benutzer, die ihre Privatsphäre schützen möchten, können die Protokollierung für ein bereitgestelltes Modell deaktivieren. Dafür werden $20 pro Monat berechnet.

  • Anforderungspreise beziehen sich auf die Kosten für die Verarbeitung von Audioanforderungen durch den Endpunkt eines bereitgestellten benutzerdefinierten Modells.

Allgemein

  • Bei der Emotionen-API, der Gesichtserkennungs-API, der Language Understanding Intelligent Service-API, der Bing-Spracherkennungs-API und der Bing-Text-to-Speech-API erfolgt die Abrechnung pro 1.000 API-Transaktionsaufrufen, wenn ein Produktions-API-Aufruf aktiv ausgeführt wird. Produktions-API-Transaktionsaufrufe werden anteilig abgerechnet.

    Der Bing-API-Dienst für die Erkennung langer Spracheingaben wird pro Stunde Spracheingabe abgerechnet, die analysiert wird. Die Abrechnung erfolgt anteilig auf Minutenbasis.

    Die Empfehlungs-API und die Textanalyse-API können in Einheiten der Standard-Tarife zu Festpreisen erworben werden. Bei jeder Einheit eines Tarifs ist eine bestimmte Anzahl von API-Transaktionen inbegriffen. Wenn der Benutzer diese Anzahl überschreitet, werden die Überschreitungstransaktionen zu den oben angegebenen Preisen in Rechnung gestellt. Diese Überschreitungen werden anteilig berechnet, und der Dienst wird monatlich in Rechnung gestellt. Die im Rahmen eines Tarifs inbegriffene Anzahl von Transaktionen wird jeden Monat zurückgesetzt.

  • Beim Free-Tarif wird die Nutzung gedrosselt, wenn das Transaktionslimit erreicht wird. Eine Überschreitung ist bei diesem Tarif nicht möglich.

  • Wenn die inbegriffene Menge an Transaktionen beim Standard-Tarif überschritten wird, werden Überschreitungstransaktionen für das Konto erfasst. Diese Überschreitungen werden monatlich zu den angegebenen Preisen für die verschiedenen Tarife in Rechnung gestellt.

  • Jeder API-Aufruf (mit Ausnahme von Batchbewertungsaufrufen) zählt als Transaktion. Batchbewertungsaufrufe werden basierend auf der Anzahl von Elementen erfasst, die in dieser Transaktion bewertet werden müssen.

  • Beim Free-Tarif wird die Nutzung gedrosselt, wenn das Transaktionslimit erreicht wird. Eine Überschreitung ist bei diesem Tarif nicht möglich. Batchbewertung wird im Free-Tarif nicht unterstützt.

  • Die Empfehlungs-API kann in Einheiten der Standard-Tarife zu Festpreisen erworben werden. Bei jeder Einheit eines Tarifs ist eine bestimmte Anzahl von API-Transaktionen inbegriffen. Wenn der Benutzer diese Anzahl überschreitet, werden die Überschreitungstransaktionen zu den oben angegebenen Preisen in Rechnung gestellt. Diese Überschreitungen werden anteilig berechnet, und der Dienst wird monatlich in Rechnung gestellt. Die im Rahmen eines Tarifs inbegriffene Anzahl von Transaktionen wird jeden Monat zurückgesetzt.

  • Die Bing-Such-APIs, die Bing-API für die Vorschlagssuche und die Bing-Rechtschreibprüfungs-API werden monatlich abgerechnet. Je nach erworbenem Tarif ist eine bestimmte Menge von Transaktionen enthalten, die als API-Aufrufe definiert sind. Enthaltene Mengen gelten immer pro Kalendermonat, unabhängig davon, wann mit ihrer Nutzung begonnen wurde. Wenn der Benutzer die enthaltenen Mengen überschreitet, werden die Überschreitungstransaktionen zu den in der Preistabelle angegebenen Sätzen in Rechnung gestellt. Diese Überschreitungen werden nicht anteilig berechnet, und der Dienst wird monatlich in Rechnung gestellt. Die im Rahmen eines Tarifs enthaltenen Mengen werden jeden Monat zurückgesetzt.

  • Besuchen Sie https://www.microsoft.com/cognitive-services/en-US/subscriptions, um kostenlose Testversionen anzufordern.

  • Sie können jederzeit ein Upgrade auf einen höheren Tarif durchführen. Abrechnungssatz und enthaltene Mengen des höheren Tarifs treten sofort in Kraft.

Ressourcen

Rechner

Kalkulieren Sie die monatlichen Kosten für Azure-Dienste

FAQ zum Kauf

Lesen Sie die häufig gestellten Fragen zu den Preisen von Azure

Produktdetails

Erfahren Sie mehr über Cognitive Services

Dokumentation

Hier finden Sie technische Tutorials, Videos und weitere Ressourcen

Registrieren Sie sich jetzt, um eine Azure-Gutschrift in Höhe von $200 zu erhalten

Starten Sie noch heute