Navigáció kihagyása

Cognitive Services díjszabás – Custom Speech Service ELŐZETES VERZIÓ

Intelligens API-k használata látás- és beszédtechnológiához, valamint nyelvi és ismeretkezelési képességekhez

A Custom Speech Service szolgáltatással egyéni beszédfelismerési modelleket hozhat létre, amelyeket a saját alkalmazására szabott beszédfelismerési végpontokon helyezhet üzembe. A Custom Speech Service lehetővé teszi a beszédfelismerő nyelvi modelljének testreszabását, így az megtanulja az alkalmazás szóhasználatát és a felhasználók beszédmódját is. A beszédfelismerő akusztikai modellje szintén testreszabható, így az jobban illeszkedhet az alkalmazás várható környezetéhez és a felhasználói körhöz.

Díjszabás részletei

A modellbetanítás ingyenes.

Ingyenes S2
Modell-üzembehelyezések 1 modell $-/modell/hó
Modellbetanítás 3 óra/hónap Korlátlan
Pontossági tesztek 2 óra/hónap 2 óra ingyenes, ezt követően $-/óra
Bővítés $-/egység/nap, ahol minden egység öt kérés párhuzamos küldését teszi lehetővé
Nincs nyomkövetés $-/modell/hó
Kérések díjszabása 2 óra/hónap 2 óra ingyenes, ezt követően $-/óra

Támogatás és szolgáltatásszintek

  • A csomag tartalmazza a számlázással és az előfizetéssel kapcsolatos ügyintézést.
  • Műszaki támogatásra van szüksége az előzetes verzióhoz? Használja fórumainkat.
  • Garantáljuk a standard szintű Cognitive Services legalább 99,9%-os rendelkezésre állását. Az ingyenes szinthez nem biztosítunk szolgáltatásiszint-szerződést. A szolgáltatói szerződés áttekintése.
  • Az előzetes verzió ideje alatt nem biztosítunk szolgáltatásszint-szerződést. Részletek.

Gyakori kérdések

Custom Speech Service

  • Az 1. szint egyszerre legfeljebb négy hanganyagot tud feldolgozni (azaz négy beszédátírást), miközben még mindig valós időben ad választ. Ha a felhasználó négynél több hanganyagot küld egyszerre, a fennmaradó hanganyagokat a rendszer elutasítja, és egy hibakódot küld vissza, amely a túl sok egyidejű felismerést jelzi. Ugyanez vonatkozik a 2. szintre, ahol 12 beszédátírás dolgozható fel egyidejűleg. Az ingyenes szint egyszerre egy beszédátírást tesz lehetővé. Azt feltételezzük, hogy a hanganyag valós időben lesz feltöltve. Ha a hanganyagot gyorsabban töltik fel, a párhuzamosság szempontjából a kérést a rendszer a hanganyag hosszának végéig folyamatban lévőnek tekinti (noha a felismerés eredményét korábban is visszaküldheti).

    Megjegyzés: Ha ennél nagyobb kapacitású párhuzamosságra van szüksége, lépjen velünk kapcsolatba.

  • A nyelvi modell szószekvenciák valószínűségi eloszlását jelenti. A nyelvi modell segíti a rendszert abban, hogy válasszon a hasonló hangzású szószekvenciák közül. Ehhez maguknak a szószekvenciáknak a valószínűségét használja fel. A „recognize speech” és a „wreck a nice beach” például ugyanúgy hangzik, de az első változat sokkal valószínűbb, ezért magasabb pontszámot kap a nyelvi modellben. Ha az alkalmazáshoz várhatóan érkeznek majd olyan lekérdezések, amelyek speciális szókincset használnak (például termékneveket vagy a tipikus beszédben ritkán előforduló szakkifejezéseket), akkor a nyelvi modell testreszabásával nagy valószínűséggel hatékonyabb működés érhető el. Ha például az alkalmazás hangalapú keresést végez az MSDN-ben, valószínű, hogy az olyan kifejezések, mint az „objektumorientált”, a „névtér” vagy a „dot net” gyakrabban fordulnak majd elő, mint más alkalmazások esetében. A nyelvi modell testreszabásával lehetővé válik, hogy a rendszer megtanulja ezeket.

  • Az akusztikai modell besorolást végez: a hanganyag rövid részleteit egy adott nyelv fonémáiként (hangegységeiként) azonosít be. Ezekből a fonémákból állíthatók össze a szavak. Az angol „speech” (beszéd) szó például négy fonémából áll: „sz, p, í, cs”. Ezek a besorolások másodpercenként százas nagyságrendben zajlanak le. Az akusztikai modell testreszabása lehetővé teszi, hogy a rendszer nem tipikus környezetekben jobb hatékonysággal ismerje fel a beszédet. Egy olyan alkalmazásnál például, amelyet egy raktár vagy egy gyár dolgozói használnak, a testreszabott akusztikai modell pontosabb beszédfelismerést tehet lehetővé az ilyen környezetekben található zajok mellett is.

  • A rövid kifejezés felismerése legfeljebb 15 másodperc hosszúságú kimondott szöveget támogat. A beszédfelismerő ügyfélkódtárral együtt használva az adatok kiszolgálóra küldésekor az ügyfél több részleges és egy olyan végső eredményt kap, amely több valószínű változatot tartalmaz.

  • A hosszú diktálás felismerése akár két perc hosszúságú beszédet támogat. A beszédfelismerő ügyfélkódtárral együtt használva az adatok kiszolgálóra küldésekor az ügyfél több részleges és több végső eredményt is megkap, attól függően, hogy a kiszolgáló hol jelez mondaton belüli szünetet.

  • Ha például egy ügyfél az S1 szintet használja egymillió beszédátírásra, akkor a szintnek megfelelő díjat számoljuk fel ($-), az első 100,000 beszédátírást $- / 1,000 beszédátírás díjjal, míg a fennmaradó 900,000 beszédátírást $- / 1,000 beszédátírás díjjal számoljuk fel. Így az ügyfél teljes díja $- + 100,000 * ($- / 1,000) + 900,000 * ($- / 1,000) = $4500.

  • A Custom Speech Service-ről további információt talál a Microsoft Cognitive Services honlapján, valamint a Custom Speech Service honlapján: www.cris.ai.

  • Az egyéni modell-üzembehelyezés egy egyéni modell becsomagolásának és szolgáltatásként való elérhetővé tételének folyamata. A folyamat eredményeként kapott üzemelő egyéni modell egy végponttal rendelkezik, amelyen keresztül az elérhető. A felhasználók annyi egyéni modellt helyezhetnek üzembe, amennyit szükségesnek tartanak.

  • A Custom Speech Service használatával a felhasználók saját akusztikai és nyelvi adatokra alapuló kiindulási modelleket alkalmazhatnak. Ezt a folyamatot a modell testreszabásának nevezzük.

  • Egyéni modell létrehozásánál a felhasználónak lehetősége van tesztadatok feltöltésére az újonnan létrehozott modell tesztelése érdekében. Az egyéni modell bármilyen mennyiségű adat használatával tesztelhető, azaz a felhasználók korlátlan számú pontossági tesztet hajthatnak végre.

  • Miután az egyéni modellt üzembe helyezték, az URI-ja egyidejűleg egy audiókérést tud feldolgozni. Arra az esetre, ha az URI-ra egyszerre több audiókérés is érkezik, a felhasználó horizontális felskálázást választhat egyenként öt párhuzamos kérés kezelésére alkalmas lépésekben. Ezt skálázási egységek vásárlásával lehet megtenni. Minden skálázási egység legfeljebb öt audiókérés párhuzamos feldolgozását teszi lehetővé. Egy skálázási egység díja $200. Ha például várhatóan párhuzamosan 23 audiókérés érkezik majd a végpontra, akkor öt skálázási egységet szükséges vásárolni, amely 25 párhuzamos kérés feldolgozását garantálja.

  • A naplókezeléssel a felhasználók kikapcsolhatják a naplózást az üzembe helyezett modellnél. A felhasználó adatvédelmi megfontolásokból havi $20 díj mellett ki is kapcsolhatja a naplózást az üzembe helyezett modellnél.

  • A kérések díjszabása azoknak az audiókéréseknek a feldolgozására vonatkozik, amelyeket egy üzembe helyezett egyéni modell végpontja végrehajt.

Általános

  • Bing Search APIs are invoiced based on number of transactions (also known as API calls). These plans are pay-as-you-go and doesn’t incur additional cost for complex queries and more than 10 results (up to 50 results in most cases).

  • If you happen to exceed the mentioned number of transactions per second (TPS), your usage will be throttled to be within the mentioned limit. If your application needs to have higher TPS than the ones mentioned on this page, please reach out to the Azure support team.

  • For billing purposes, a transaction is a successful Bing API call request (though there are caveats for DoS attacks). For logging and reporting purposes such as for the Bing Statistics Add-in, it is any Bing API call irrespective of whether it is successful or not.

  • You can change the tier of service anytime. Please make sure you use appropriate keys in your API calls. If you are having enterprise agreement with Microsoft, please work with your account executive.

Erőforrások

Azure-szolgáltatások várható havi díjának becslése

Gyakori kérdések az Azure díjszabásáról

Cognitive Services – további információ

Műszaki oktatóanyagok, videók és más háttéranyagok

Becslésbe felvéve. Nyomja meg a 'v'-t a kalkulátorban való megtekintéshez Megtekintés a kalkulátorban

$200 értékű kredittel tanulhat és fejleszthet, és ingyenesen dolgozhat tovább