Preise für den benutzerdefinierten SpracherkennungsdienstVORSCHAU der Cognitive Services

Nutzen Sie Intelligence-APIs, um Funktionen für Bildanalyse, Spracherkennung und Erfassung nützlicher Informationen zu aktivieren

Mit dem benutzerdefinierten Spracherkennungsdienst können Sie benutzerdefinierte Spracherkennungsmodelle erstellen und auf einem Spracherkennungsendpunkt bereitstellen, der genau auf Ihre Anwendung zugeschnitten ist. Mit dem benutzerdefinierten Spracherkennungsdienst können Sie das Sprachmodell des Spracherkennungsmoduls anpassen, damit das Modell die Vokabeln Ihrer Anwendung und den Sprachstil Ihrer Benutzer lernt. Sie können auch das Akustikmodell des Spracherkennungsmoduls anpassen, um der erwarteten Umgebung und Art der Benutzer der Anwendung besser zu entsprechen.

Preisübersicht

Die Modellanpassung ist kostenlos.

Free S1
Modellbereitstellungen Modell 1 $-/Modell/Monat
Modellanpassung 3 Stunden/Monat Unbegrenzt
Genauigkeitstests 2 Stunden/Monat 2 Stunden kostenlos, dann $- pro Stunde
Horizontales Skalieren Nicht zutreffend $-/Einheit/Tag, wobei jede Einheit das Senden von bis zu fünf gleichzeitigen Anforderungen ermöglicht
Keine Ablaufverfolgung Nicht zutreffend $-/Modell/Monat
Anforderungspreise 2 Stunden/Monat 2 Stunden kostenlos, dann $- pro Stunde

Support und SLA

  • Kostenloser Support für Abrechnungs- und Abonnementverwaltung ist im Leistungsumfang inbegriffen.
  • Sie benötigen technischen Support für Vorschaudienste? Besuchen Sie unsere Foren.
  • Wir garantieren, dass Cognitive Services im Standard-Tarif eine Verfügbarkeit von mindestens 99,9 % bieten. Für den Free-Tarif wird keine SLA bereitgestellt. SLA lesen
  • Keine SLA während des Vorschauzeitraums. Weitere Informationen.

FAQ

Benutzerdefinierter Spracherkennungsdienst

  • In Tarif 1 kann das System bis zu vier Audioeingaben (also vier Transkriptionen) gleichzeitig verarbeiten und dennoch in Echtzeit antworten. Wenn ein Benutzer mehr als vier Audioeingaben zur gleichen Zeit sendet, wird jede nachfolgende Eingabe abgelehnt und mit einem Fehlercode zurückgegeben, der darauf hinweist, dass zu viele gleichzeitige Erkennungsanforderungen gesendet wurden. Das Gleiche gilt für Tarif 2, in dem 12 Transkriptionen gleichzeitig verarbeitet werden können. Der Free-Tarif bietet nur eine gleichzeitige Transkription. Es wird angenommen, dass die Audioeingaben in Echtzeit hochgeladen werden. Wenn Audioeingaben schneller hochgeladen werden, wird die Anforderung aus Gründen der Parallelität weiterhin als „in Verarbeitung“ betrachtet, bis die Dauer der Audioeingabe verstrichen ist (auch wenn das Erkennungsergebnis möglicherweise früher zurückgesendet wird).

    Hinweis: Wenn ein höherer Grad an Gleichzeitigkeit erforderlich ist, wenden Sie sich an uns.

  • Das Sprachmodell ist eine Wahrscheinlichkeitsverteilung über eine Sequenz von Wörtern. Mithilfe des Sprachmodells kann das System aus verschiedenen ähnlich klingenden Wortsequenzen die richtige Sequenz auswählen, basierend auf der Wahrscheinlichkeit der Wortsequenzen selbst. Die englischen Sequenzen „recognize speech“ und „wreck a nice beach“ z.B. klingen ähnlich, das Auftreten der ersten Sequenz ist jedoch weitaus wahrscheinlicher und erhält daher im Sprachmodell einen höheren Rang. Wenn Sie erwarten, dass Ihre Anwendung Sprachabfragen mit einem ganz bestimmten Vokabular verarbeiten muss, beispielsweise mit Produktnamen oder Fachtermini, die im allgemeinen Sprachgebrauch selten vorkommen, können Sie durch Anpassung des Sprachmodells wahrscheinlich eine bessere Leistung erzielen. Ein Beispiel: Sie entwickeln eine App zum Durchsuchen von MSDN per Spracheingabe. Dabei ist es sehr wahrscheinlich, dass Begriffe wie „objektorientiert“, „Namespace“ oder „Dotnet“ häufiger vorkommen als in anderen Spracherkennungsanwendungen. Indem Sie das Sprachmodell anpassen, können Sie dem System ermöglichen, dies zu lernen.

  • Das Akustikmodell ist eine Klassifizierung, die kurze Fragmente einer Audioeingabe basierend auf der Sprache einem von mehreren Phonemen (Klangeinheiten) zuordnet. Diese Phoneme können dann zu Wörtern zusammengefügt werden. Das englische Wort „Speech“ z.B. besteht aus den vier englischen Phonemen „s“, „p“, „iy“ und „ch“. Diese Klassifizierungen erfolgen mit einer Frequenz von ca. 100 pro Sekunde. Durch Anpassen des Akustikmodells kann das System lernen, um Spracheingaben in atypischen Umgebungen besser zu erkennen. Wenn Ihre App z.B. von Arbeitern in einer Lagerhalle oder Fabrik mit hohem Lärmpegel verwendet werden soll, kann ein angepasstes Akustikmodell Spracheingaben in diesen Umgebungen besser erkennen.

  • Die Erkennung kurzer Spracheingaben unterstützt Eingaben mit einer Länge von bis zu 15 Sekunden. Wenn die Bibliothek des Spracherkennungsclients verwendet wird, erhält der Client nach dem Senden der Daten an den Server mehrere Teilergebnisse und als endgültiges Ergebnis das wahrscheinlichste aus N möglichen Ergebnissen.

  • Die Erkennung langer Spracheingaben unterstützt Eingaben mit einer Länge von bis zu zwei Minuten. Wenn die Bibliothek des Spracherkennungsclients verwendet wird, erhält der Client nach dem Senden der Daten an den Server mehrere Teilergebnisse und mehrere endgültige Ergebnisse, je nachdem, wo der Server Pausen zwischen Sätzen erkennt.

  • Wenn ein Kunde z.B. den S1-Tarif nutzt, um eine Million Transkriptionen zu verarbeiten, wird der Grundpreis des Tarifs berechnet ($-). Zusätzlich werden die ersten 100,000 Transkriptionen mit $- pro 1,000 Transkriptionen und die verbleibenden 900,000 Transkriptionen mit $- pro 1,000 Transkriptionen abgerechnet. Dem Kunden werden also insgesamt $- + 100,000 * ($- / 1,000) + 900,000 * ($- / 1,000) = $4500 in Rechnung gestellt.

  • Weitere Informationen finden Sie auf der Webseite der Microsoft Cognitive Services im Abschnitt zum benutzerdefinierten Spracherkennungsdienst und auf der Custom Speech Service-Website unter www.cris.ai.

  • Bei der Bereitstellung eines benutzerdefinierten Modells wird ein benutzerdefiniertes Modell gepackt und als Dienst verfügbar gemacht. Dieses bereitgestellte benutzerdefinierte Modell macht einen Endpunkt verfügbar, über den auf das Modell zugegriffen werden kann. Benutzer können so viele Modelle bereitstellen, wie benötigt werden.

  • Mit dem benutzerdefinierten Spracherkennungsdienst können Benutzer Baselinemodelle anhand ihrer eigenen akustischen und sprachbasierten Daten anpassen. Wir bezeichnen dies als Modellanpassung.

  • Benutzer können beim Erstellen eines benutzerdefiniertes Modells Testdaten hochladen, um das neu erstellte Modell zu bewerten. Beim Testen eines neuen benutzerdefinierten Modells können Benutzer so viele Daten verwenden, wie sie möchten, d. h. sie können unbegrenzte Genauigkeitstests durchführen.

  • Wenn ein benutzerdefiniertes Modell bereitgestellt wurde, kann der zugehörige URI nur jeweils eine Anforderung verarbeiten. Für Szenarien, in denen mehrere Audioanforderungen gleichzeitig an den URI gesendet werden, können Benutzer auf bis zu fünf gleichzeitige Anforderungen horizontal hochskalieren. Hierfür müssen Skalierungseinheiten erworben werden. Jede Skalierungseinheit garantiert bis zu fünf gleichzeitige Audioanforderungen zu einem Preis von $200 pro Skalierungseinheit. Wenn ein Benutzer z.B. erwartet, dass 23 Audioanforderungen gleichzeitig an einen Endpunkt gesendet werden, muss dieser Benutzer fünf Skalierungseinheiten erwerben, um bis zu 25 gleichzeitige Anforderungen zu garantieren.

  • Mit der Protokollverwaltung können Benutzer die Protokollierung für ihre bereitgestellten Modelle deaktivieren. Benutzer, die ihre Privatsphäre schützen möchten, können die Protokollierung für ein bereitgestelltes Modell deaktivieren. Dafür werden $20 pro Monat berechnet.

  • Anforderungspreise beziehen sich auf die Kosten für die Verarbeitung von Audioanforderungen durch den Endpunkt eines bereitgestellten benutzerdefinierten Modells.

Allgemein

  • Bei der Emotionen-API, der Gesichtserkennungs-API, der Language Understanding Intelligent Service-API, der Bing-Spracherkennungs-API und der Bing-Text-to-Speech-API erfolgt die Abrechnung pro 1.000 API-Transaktionsaufrufen, wenn ein Produktions-API-Aufruf aktiv ausgeführt wird. Produktions-API-Transaktionsaufrufe werden anteilig abgerechnet.

    Der Bing-API-Dienst für die Erkennung langer Spracheingaben wird pro Stunde Spracheingabe abgerechnet, die analysiert wird. Die Abrechnung erfolgt anteilig auf Minutenbasis.

    Die Empfehlungs-API und die Textanalyse-API können in Einheiten der Standard-Tarife zu Festpreisen erworben werden. Bei jeder Einheit eines Tarifs ist eine bestimmte Anzahl von API-Transaktionen inbegriffen. Wenn der Benutzer diese Anzahl überschreitet, werden die Überschreitungstransaktionen zu den oben angegebenen Preisen in Rechnung gestellt. Diese Überschreitungen werden anteilig berechnet, und der Dienst wird monatlich in Rechnung gestellt. Die im Rahmen eines Tarifs inbegriffene Anzahl von Transaktionen wird jeden Monat zurückgesetzt.

  • Beim Free-Tarif wird die Nutzung gedrosselt, wenn das Transaktionslimit erreicht ist. Eine Überschreitung ist bei diesem Tarif nicht möglich.

  • Jede Anmerkung zu einem Dokument zählt als Transaktion. Batchbewertungsaufrufe berücksichtigen auch die Anzahl von Dokumenten, die in dieser Transaktion bewertet werden müssen. Wenn daher beispielsweise 1.000 Dokumente zur Stimmungsanalyse in einem einzelnen API-Aufruf gesendet werden, werden diese als 1.000 Transaktionen gezählt. Unterstützt eine API mehr als einen Anmerkungsvorgang, wird dies ebenfalls berücksichtigt. Angenommen, ein API-Aufruf führt sowohl eine Stimmungsanalyse als auch eine Schlüsselbegriffserkennung für 1.000 Dokumente durch, dann ergeben sich daraus 2.000 Transaktionen (2 Anmerkungen × 1.000 Dokumente).

  • Wenn die inbegriffene Menge an Transaktionen beim Standard-Tarif überschritten wird, werden Überschreitungstransaktionen für das Konto erfasst. Diese Überschreitungen werden monatlich zu den angegebenen Preisen für die jeweiligen Tarife in Rechnung gestellt.

  • Jeder API-Aufruf (mit Ausnahme von Batchbewertungsaufrufen) zählt als Transaktion. Batchbewertungsaufrufe werden basierend auf der Anzahl von Elementen erfasst, die in dieser Transaktion bewertet werden müssen.

  • Beim Free-Tarif wird die Nutzung gedrosselt, wenn das Transaktionslimit erreicht ist. Eine Überschreitung ist bei diesem Tarif nicht möglich. Batchbewertung wird im Free-Tarif nicht unterstützt.

  • Die Empfehlungs-API kann in Einheiten der Standard-Tarife zu Festpreisen erworben werden. Bei jeder Einheit eines Tarifs ist eine bestimmte Anzahl von API-Transaktionen inbegriffen. Wenn der Benutzer diese Anzahl überschreitet, werden die Überschreitungstransaktionen zu den oben angegebenen Preisen in Rechnung gestellt. Diese Überschreitungen werden anteilig berechnet, und der Dienst wird monatlich in Rechnung gestellt. Die im Rahmen eines Tarifs inbegriffene Anzahl von Transaktionen wird jeden Monat zurückgesetzt.

  • Sie können jederzeit ein Upgrade auf einen höheren Tarif durchführen. Abrechnungssatz und enthaltene Mengen des höheren Tarifs treten sofort in Kraft.

Ressourcen

Kalkulieren Sie die monatlichen Kosten für Azure-Dienste

Lesen Sie die häufig gestellten Fragen zu den Preisen von Azure

Erfahren Sie mehr über Cognitive Services

Sehen Sie sich technikbezogene Lernprogramme, Videos und weitere Ressourcen an

Added to estimate. Press 'v' to view on calculator View on calculator

Mit einem Guthaben von $200 lernen und erstellen und von weiteren kostenlosen Produkten profitieren

Kostenloses Konto