Cognitive Services díjszabása – Beszédszolgáltatások

Intelligens API-k használata látás-, nyelv- és beszédtechnológiához, valamint keresési képességekhez.

Az egyesített beszédszolgáltatások beszédfelismerési és beszédgenerálási lehetőségek széles skáláját kínálják, beleértve a diktálást, felolvasást és tolmácsolást.

Díjszabás

Nyilvános előzetes verzióban elérhető a Speech tároló.

Példány Kategória Jellemzők Ár
Ingyenes - Web/tároló
1 párhuzamos kérés1
Speech to Text Standard 5 audióóra ingyen havonta
Egyéni 5 audióóra ingyen havonta
Végpont-üzemeltetés: Havonta 1 modell ingyenes 2
Beszédátírás – többcsatornás audió ELŐZETES VERZIÓ 3 5 audióóra ingyen havonta
Szöveg-hang transzformáció Standard Havonta 5 millió karakter ingyenes
Neurális Havonta 0.5 millió karakter ingyenes
Egyéni Havonta 5 millió karakter ingyenes
Végpont-üzemeltetés: Havonta 1 modell ingyenes
Speech Translation Standard 5 audióóra ingyen havonta
Standard - Web/tároló
20 párhuzamos kérés 1
Speech to Text Standard $- audióóránként
Egyéni $- audióóránként
Végpont-üzemeltetés: $- modellenként és óránként
Beszédátírás – többcsatornás audió ELŐZETES VERZIÓ 3 $- audióóránként 4
Szöveg-hang transzformáció Standard $- / 1 millió karakter
Neurális $- / 1 millió karakter 5
Egyéni $- / 1 millió karakter
Végpont-üzemeltetés: $- modellenként és óránként
Egyéni neurális ELŐZETES VERZIÓ 6 hang létrehozása: kapcsolatfelvétel
Valós idejű szintézis: $- / 1 millió karakter
Végpont-üzemeltetés: $- modellenként és óránként
Hosszú hanganyag létrehozása: $- / 1 millió karakter
Speech Translation Standard $- audióóránként

1Az egyidejű kérelmek csak a webes végpontokra alkalmazva.

2A használaton kívüli modellek automatikusan le lesznek szerelve 7 nap múltán.

3A többcsatornás beszédátíráshoz egy körkörös mikrofonsor-eszközt javaslunk. További részleteket a Microsoft Speech Device SDK dokumentációjában talál.

4A nyilvános előzetes verzióra vonatkozó díjszabás. Az általános elérhetőségre vonatkozó díjszabás az általános elérhetőség megjelenésekor várható.

5A neurális dokumentációjában megtalálhatja azokat a régiókat, amelyekben a neurális szövegfelolvasás elérhető.

6Az egyéni neurális hang képesség korlátozott előzetes verzióként érhető el. További információ a korlátozási folyamatról.

Támogatás és szolgáltatásszintek

  • A csomag tartalmazza a számlázással és az előfizetéssel kapcsolatos ügyintézést.
  • Garantáljuk a standard szintű Cognitive Services legalább 99,9%-os rendelkezésre állását. Az ingyenes próbához nem biztosítunk szolgáltatásiszint-szerződést. A szolgáltatói szerződés áttekintése.

Gyakori kérdések

    • A tolmácsolás, diktálás és egyéni beszédmodellel történő diktálás használatának díjszabása másodpercalapú
    • A szövegfelolvasás és az egyéni hangtípusú szövegfelolvasás karakterenként lesz számlázva
    • Egyéni beszédmodell üzemeltetése: a számlázás óránként történik; Egyéni hangtípus üzemeltetése: a számlázás naponta történik.
  • A beszédszolgáltatással a felhasználók saját akusztikai és nyelvi adataikra épített alapmodelleket alakíthatnak át egyéni beszédmodellekké, amelyek diktálásra és tolmácsolásra is használhatók.

  • A nyelvi modell szószekvenciák valószínűségi eloszlását jelenti. A nyelvi modell segíti a rendszert abban, hogy válasszon a hasonló hangzású szószekvenciák közül. Ehhez maguknak a szószekvenciáknak a valószínűségét használja fel. A „recognize speech” és a „wreck a nice beach” például ugyanúgy hangzik, de az első változat sokkal valószínűbb, ezért magasabb pontszámot kap a nyelvi modellben. Ha az alkalmazáshoz várhatóan érkeznek majd olyan lekérdezések, amelyek speciális szókincset használnak (például termékneveket vagy a tipikus beszédben ritkán előforduló szakkifejezéseket), akkor a nyelvi modell testreszabásával nagy valószínűséggel hatékonyabb működés érhető el. Ha például az alkalmazás hangalapú keresést végez az MSDN-ben, valószínű, hogy az olyan kifejezések, mint az „objektumorientált”, a „névtér” vagy a „dot net” gyakrabban fordulnak majd elő, mint más alkalmazások esetében. A nyelvi modell testreszabásával lehetővé válik, hogy a rendszer megtanulja ezeket.

  • Az akusztikai modell besorolást végez: a hanganyag rövid részleteit egy adott nyelv fonémáiként (hangegységeiként) azonosít be. Ezekből a fonémákból állíthatók össze a szavak. Az angol „speech” (beszéd) szó például négy fonémából áll: „sz, p, í, cs”. Ezek a besorolások másodpercenként százas nagyságrendben zajlanak le. Az akusztikai modell testreszabása lehetővé teszi, hogy a rendszer nem tipikus környezetekben jobb hatékonysággal ismerje fel a beszédet. Egy olyan alkalmazásnál például, amelyet egy raktár vagy egy gyár dolgozói használnak, a testreszabott akusztikai modell pontosabb beszédfelismerést tehet lehetővé az ilyen környezetekben található zajok mellett is.

  • A Microsoft beszédszolgáltatásai 40-nél több nyelven 70-nél több alapértelmezett beszédhangot (azaz hangtípust) tartalmaznak, amelyek segítenek a szöveg beszéddé alakításában. A virtuális asszisztensek és különböző hangvezérelt alkalmazások megjelenésével azonban sok vállalat szeretne egyéni, gondosan a saját márkáik jellegéhez igazított hangot üzlete arculatához. Ha például csevegőrobotot fejleszt ügyfélszolgálatához, társíthatja azt a márkára egyedien jellemző hanggal, így erősítve az ügyfelek kötődését. Hasonló módon egy autós navigációs szoftver fejlesztője egyéni hangú szövegfelolvasás lehetővé tételével javíthatja a felhasználói élményt.

    Mindez egyszerűen megoldható a Voice Studio, az egyéni hangkészítő portál használatával. Saját hangadatai (emberi hang felvétele a hozzá tartozó szöveggel) alapján egyéni hangtípust generálhat, amely üzembe helyezhető a Microsoft felolvasó szolgáltatásában, és egyszerűen beköthető API-végponttal rendelkező alkalmazásaiba, ahol felhasználhatja azt.

Források

Azure-szolgáltatások várható havi díjának becslése

Gyakori kérdések az Azure díjszabásáról

Cognitive Services – további információ

Műszaki oktatóanyagok, videók és más háttéranyagok

Becslésbe felvéve. Nyomja meg a 'v'-t a kalkulátorban való megtekintéshez

$200 értékű kredittel tanulhat és fejleszthet, és ingyenesen dolgozhat tovább