Cognitive Services díjszabás – Custom Speech Service ELŐZETES VERZIÓ

Intelligens API-k használata látás- és beszédtechnológiához, valamint nyelvi és ismeretkezelési képességekhez

A Custom Speech Service szolgáltatással egyéni beszédfelismerési modelleket hozhat létre, amelyeket a saját alkalmazására szabott beszédfelismerési végpontokon helyezhet üzembe. A Custom Speech Service lehetővé teszi a beszédfelismerő nyelvi modelljének testreszabását, így az megtanulja az alkalmazás szóhasználatát és a felhasználók beszédmódját is. A beszédfelismerő akusztikai modellje szintén testreszabható, így az jobban illeszkedhet az alkalmazás várható környezetéhez és a felhasználói körhöz.

Díjszabás részletei

A modellbetanítás ingyenes.

Ingyenes S1
Modell-üzembehelyezések 1 modell $-/modell/hó
Modellbetanítás 3 óra/hónap Korlátlan
Pontossági tesztek 2 óra/hónap 2 óra ingyenes, ezt követően $-/óra
Bővítés $-/egység/nap, ahol minden egység öt kérés párhuzamos küldését teszi lehetővé
Nincs nyomkövetés $-/modell/hó
Kérések díjszabása 2 óra/hónap 2 óra ingyenes, ezt követően $-/óra

Támogatás és szolgáltatásszintek

  • A csomag tartalmazza a számlázással és az előfizetéssel kapcsolatos ügyintézést.
  • Műszaki támogatásra van szüksége az előzetes verzióhoz? Használja fórumainkat.
  • Garantáljuk a standard szintű Cognitive Services legalább 99,9%-os rendelkezésre állását. Az ingyenes szinthez nem biztosítunk szolgáltatásiszint-szerződést. A szolgáltatói szerződés áttekintése.
  • Az előzetes verzió ideje alatt nem biztosítunk szolgáltatásszint-szerződést. Részletek.

Gyakori kérdések

Custom Speech Service

  • Az 1. szint egyszerre legfeljebb négy hanganyagot tud feldolgozni (azaz négy beszédátírást), miközben még mindig valós időben ad választ. Ha a felhasználó négynél több hanganyagot küld egyszerre, a fennmaradó hanganyagokat a rendszer elutasítja, és egy hibakódot küld vissza, amely a túl sok egyidejű felismerést jelzi. Ugyanez vonatkozik a 2. szintre, ahol 12 beszédátírás dolgozható fel egyidejűleg. Az ingyenes szint egyszerre egy beszédátírást tesz lehetővé. Azt feltételezzük, hogy a hanganyag valós időben lesz feltöltve. Ha a hanganyagot gyorsabban töltik fel, a párhuzamosság szempontjából a kérést a rendszer a hanganyag hosszának végéig folyamatban lévőnek tekinti (noha a felismerés eredményét korábban is visszaküldheti).

    Megjegyzés: Ha ennél nagyobb kapacitású párhuzamosságra van szüksége, lépjen velünk kapcsolatba.

  • A nyelvi modell szószekvenciák valószínűségi eloszlását jelenti. A nyelvi modell segíti a rendszert abban, hogy válasszon a hasonló hangzású szószekvenciák közül. Ehhez maguknak a szószekvenciáknak a valószínűségét használja fel. A „recognize speech” és a „wreck a nice beach” például ugyanúgy hangzik, de az első változat sokkal valószínűbb, ezért magasabb pontszámot kap a nyelvi modellben. Ha az alkalmazáshoz várhatóan érkeznek majd olyan lekérdezések, amelyek speciális szókincset használnak (például termékneveket vagy a tipikus beszédben ritkán előforduló szakkifejezéseket), akkor a nyelvi modell testreszabásával nagy valószínűséggel hatékonyabb működés érhető el. Ha például az alkalmazás hangalapú keresést végez az MSDN-ben, valószínű, hogy az olyan kifejezések, mint az „objektumorientált”, a „névtér” vagy a „dot net” gyakrabban fordulnak majd elő, mint más alkalmazások esetében. A nyelvi modell testreszabásával lehetővé válik, hogy a rendszer megtanulja ezeket.

  • Az akusztikai modell besorolást végez: a hanganyag rövid részleteit egy adott nyelv fonémáiként (hangegységeiként) azonosít be. Ezekből a fonémákból állíthatók össze a szavak. Az angol „speech” (beszéd) szó például négy fonémából áll: „sz, p, í, cs”. Ezek a besorolások másodpercenként százas nagyságrendben zajlanak le. Az akusztikai modell testreszabása lehetővé teszi, hogy a rendszer nem tipikus környezetekben jobb hatékonysággal ismerje fel a beszédet. Egy olyan alkalmazásnál például, amelyet egy raktár vagy egy gyár dolgozói használnak, a testreszabott akusztikai modell pontosabb beszédfelismerést tehet lehetővé az ilyen környezetekben található zajok mellett is.

  • A rövid kifejezés felismerése legfeljebb 15 másodperc hosszúságú kimondott szöveget támogat. A beszédfelismerő ügyfélkódtárral együtt használva az adatok kiszolgálóra küldésekor az ügyfél több részleges és egy olyan végső eredményt kap, amely több valószínű változatot tartalmaz.

  • A hosszú diktálás felismerése akár két perc hosszúságú beszédet támogat. A beszédfelismerő ügyfélkódtárral együtt használva az adatok kiszolgálóra küldésekor az ügyfél több részleges és több végső eredményt is megkap, attól függően, hogy a kiszolgáló hol jelez mondaton belüli szünetet.

  • Ha például egy ügyfél az S1 szintet használja egymillió beszédátírásra, akkor a szintnek megfelelő díjat számoljuk fel ($-), az első 100,000 beszédátírást $- / 1,000 beszédátírás díjjal, míg a fennmaradó 900,000 beszédátírást $- / 1,000 beszédátírás díjjal számoljuk fel. Így az ügyfél teljes díja $- + 100,000 * ($- / 1,000) + 900,000 * ($- / 1,000) = $4500.

  • A Custom Speech Service-ről további információt talál a Microsoft Cognitive Services honlapján, valamint a Custom Speech Service honlapján: www.cris.ai.

  • Az egyéni modell-üzembehelyezés egy egyéni modell becsomagolásának és szolgáltatásként való elérhetővé tételének folyamata. A folyamat eredményeként kapott üzemelő egyéni modell egy végponttal rendelkezik, amelyen keresztül az elérhető. A felhasználók annyi egyéni modellt helyezhetnek üzembe, amennyit szükségesnek tartanak.

  • A Custom Speech Service használatával a felhasználók saját akusztikai és nyelvi adatokra alapuló kiindulási modelleket alkalmazhatnak. Ezt a folyamatot a modell testreszabásának nevezzük.

  • Egyéni modell létrehozásánál a felhasználónak lehetősége van tesztadatok feltöltésére az újonnan létrehozott modell tesztelése érdekében. Az egyéni modell bármilyen mennyiségű adat használatával tesztelhető, azaz a felhasználók korlátlan számú pontossági tesztet hajthatnak végre.

  • Miután az egyéni modellt üzembe helyezték, az URI-ja egyidejűleg egy audiókérést tud feldolgozni. Arra az esetre, ha az URI-ra egyszerre több audiókérés is érkezik, a felhasználó horizontális felskálázást választhat egyenként öt párhuzamos kérés kezelésére alkalmas lépésekben. Ezt skálázási egységek vásárlásával lehet megtenni. Minden skálázási egység legfeljebb öt audiókérés párhuzamos feldolgozását teszi lehetővé. Egy skálázási egység díja $200. Ha például várhatóan párhuzamosan 23 audiókérés érkezik majd a végpontra, akkor öt skálázási egységet szükséges vásárolni, amely 25 párhuzamos kérés feldolgozását garantálja.

  • A naplókezeléssel a felhasználók kikapcsolhatják a naplózást az üzembe helyezett modellnél. A felhasználó adatvédelmi megfontolásokból havi $20 díj mellett ki is kapcsolhatja a naplózást az üzembe helyezett modellnél.

  • A kérések díjszabása azoknak az audiókéréseknek a feldolgozására vonatkozik, amelyeket egy üzembe helyezett egyéni modell végpontja végrehajt.

Általános

  • The Emotion API, Face API, Language Understanding Intelligent Service API, Bing Speech-to-Text API, and Bing Text-to-Speech API are billed per 1 000 API transaction calls when a production API call is being actively executed. Billing is prorated for production API transaction call quantities.

    The Bing Long Form Speech API service is billed per hour of speech that is analyzed. The billing is prorated on a per-minute basis.

    The Recommendations API and Text Analytics API can be purchased in units of the standard tiers at a fixed price. Each unit of a tier comes with included quantities of API transactions. If the user exceeds the included quantities, overages are charged at the rate specified in the pricing table above. These overages are prorated, and the service is billed on a monthly basis. The included quantities in a tier are reset each month.

  • Az ingyenes szinten a tranzakciókorlát elérése esetén a használatot korlátozzuk. Az ügyfél tehát az ingyenes szinten nem lépheti túl a keretet.

  • Any annotation to a document counts as a transaction. Batch scoring calls will also take into consideration the number of documents that need to be scored in that transaction. So for instance, if 1 000 documents are sent for sentiment analysis in a single API call, that will count for 1 000 transactions. If an API supports more than one annotation operation, that will also be considered. Let’s say an API call performs both sentiment analysis and key-phrase extraction on 1 000 documents, that will count for 2 000 transactions (2 annotations * 1 000 documents).

  • Ha a standard csomagban túllépi a használati korlátot, a fiókban elkezdjük számolni a túlhasználatot. A kerettúllépés számlázása havi rendszerességgel történik, az adott szinthez megállapított díjak alapján.

  • Bármilyen API-hívás (a kötegelt kiértékelési hívások kivételével) egy tranzakciónak számít. A kötegelt kiértékelési hívások számlálása az adott tranzakcióban kiértékelendő elemek számán alapul.

  • Az ingyenes szinten a tranzakciókorlát elérése esetén a használatot korlátozzuk. Az ügyfél tehát az ingyenes szinten nem lépheti túl a keretet. A kötegelt kiértékelést az ingyenes szint nem támogatja.

  • Az Ajánlatok API a standard csomagokhoz tartozó egységekben vásárolható meg, fix áron. A csomagokban minden egységhez adott mennyiségű API-tranzakció vehető igénybe. Ha a felhasználó túllépi a csomagban foglalt mennyiséget, a túllépések számlázása a fenti díjszabás alapján történik. A túllépések számát arányosítjuk, a szolgáltatást pedig hónapra lebontva számlázzuk. A csomagban foglalt mennyiségek számlálása havonta újraindul.

  • Bármikor válthat egy magasabb szintű csomagra. A magasabb szintű csomag díjszabása és a csomagban foglalt mennyiségek azonnal érvénybe lépnek.

  • Below table provides a list of available end-points for each API. The response for the same end-point of Bing Web Search API may vary depending on the Tier purchased. Refer to the next question for details.

    Included APIs Endpoints Available in Tiers
    Bing Webes keresési API https://api.cognitive.microsoft.com/bing/v7.0/search S1-S8
    Bing Képkeresési API https://api.cognitive.microsoft.com/bing/v7.0/images/search S1, S3, S7, S8
    Bing Hírkeresési API https://api.cognitive.microsoft.com/bing/v7.0/news/search S1, S5, S8
    Bing Videókeresési API https://api.cognitive.microsoft.com/bing/v7.0/videos/search S1, S4, S7, S8
    (Preview, EN-US Only)
    https://api.cognitive.microsoft.com/bing/v7.0/entities S1, S6
    Bing Autosuggest API https://api.cognitive.microsoft.com/bing/v7.0/Suggestions S1, S2
    Bing Spell Check API https://api.cognitive.microsoft.com/bing/v7.0/spellcheck S1, S2
  • No, the Bing Web Search API is curtailed to meet specific offering of each Tier. For example, Tier S3 is meant for customers wanting to utilize only web search results and images in their applications. The customers also have an option of calling just a specific end point within a tier and their transactions will count against the overall bundle transactions (for example in Tier S3 a customer can just call Image API end point and make 400 transactions and can call Web Search API end point for 600 transactions and the total will be counted as 1 000 transactions).

  • No, both the APIs could potentially return different results even if you are only looking for images. For example, for a certain type of query, Bing Web Search API may return a combination of web results, videos, news but may not return images. However, for the same query, Bing Image Search API may return images.

  • Tiers are priced based on the number of transactions. As an example, for Tier S3, price per 1 000 transactions is $4. At the end of billing period if 12 000 transactions are logged for the Bing Web Search API and 1 000 transactions are logged for the Bing Image Search API, then you will have billed for $52 calculated as $4*(13 000/1 000).

  • Bing Spell Check and Bing Autosuggest APIs are billed at 25 000 transactions increment in Tier S1. Whereas, other APIs are billed at 1 000 transactions increment in Tier S1.

    For example, if you are subscribed to Tier S1 and at the end of the billing period 15 000 transactions are logged for the Bing Web Search API, 3 000 transactions logged for Bing Video Search API, and 25 000 for Bing Autosuggest API. In this case, the approximate bill would be $133 calculated by $7*((15 000+3 000)/1 000) + $7*(25 000/25 000).

    Note: For billing, only the end-point is considered and not the requested response. For example, calling the Bing Web Search API only for image response will be counted towards the Bing Web Search API and not towards the Bing Image Search API.

Erőforrások

Azure-szolgáltatások várható havi díjának becslése

Gyakori kérdések az Azure díjszabásáról

Cognitive Services – további információ

Műszaki oktatóanyagok, videók és más háttéranyagok

$200 értékű kredittel tanulhat és fejleszthet, és ingyenesen dolgozhat tovább

Ingyenes fiók