Cognitive Services díjszabása – Beszédszolgáltatások

Intelligens API-k használata látás-, nyelv- és beszédtechnológiához, valamint keresési képességekhez.

Az egyesített beszédszolgáltatások beszédfelismerési és beszédgenerálási lehetőségek széles skáláját kínálják, beleértve a diktálást, felolvasást és tolmácsolást.

Díjszabás

Nyilvános előzetes verzióban elérhető a Speech tároló.

Példány Kategória Jellemzők Ár
Ingyenes - Web/tároló
1 párhuzamos kérés1
Speech to Text Standard 5 audióóra ingyen havonta
Egyéni 5 audióóra ingyen havonta
Végpont-üzemeltetés: Havonta 1 modell ingyenes 2
Beszédátírás – többcsatornás audió ELŐZETES VERZIÓ 3 5 audióóra ingyen havonta
Text to Speech Standard Havonta 5 millió karakter ingyenes
Neurális Havonta 0.5 millió karakter ingyenes
Egyéni Havonta 5 millió karakter ingyenes
Végpont-üzemeltetés: Havonta 1 modell ingyenes
Speech Translation Standard 5 audióóra ingyen havonta
Standard - Web/tároló
20 párhuzamos kérés 1
Speech to Text Standard $- audióóránként
Egyéni $- audióóránként
Végpont-üzemeltetés: $- modellenként és óránként
Beszédátírás – többcsatornás audió ELŐZETES VERZIÓ 3 $- audióóránként 4
Text to Speech Standard $- / 1 millió karakter
Neurális $- / 1 millió karakter 5
Egyéni $- / 1 millió karakter
Végpont-üzemeltetés: $- modellenként és havonta
Egyéni neurális ELŐZETES VERZIÓ 6 Valós idejű szintézis: $- / 1 millió karakter
hang létrehozása: kapcsolatfelvétel
Végpont-üzemeltetés: $- modellenként és óránként
Hosszú hanganyag létrehozása: $- / 1 millió karakter
Speech Translation Standard $- audióóránként

1Az egyidejű kérelmek csak a webes végpontokra alkalmazva.

2A használaton kívüli modellek automatikusan le lesznek szerelve 7 nap múltán.

3A többcsatornás beszédátíráshoz egy körkörös mikrofonsor-eszközt javaslunk. További részleteket a Microsoft Speech Device SDK dokumentációjában talál.

4A nyilvános előzetes verzióra vonatkozó díjszabás. Az általános elérhetőségre vonatkozó díjszabás az általános elérhetőség megjelenésekor várható.

5Check the neural documentation for the regions where Neural Text to Speech is available.

6Az egyéni neurális hang képesség korlátozott előzetes verzióként érhető el. További információ a korlátozási folyamatról.

Támogatás és szolgáltatásszintek

  • A csomag tartalmazza a számlázással és az előfizetéssel kapcsolatos ügyintézést.
  • Garantáljuk a standard szintű Cognitive Services legalább 99,9%-os rendelkezésre állását. Az ingyenes próbához nem biztosítunk szolgáltatásiszint-szerződést. A szolgáltatói szerződés áttekintése.

Gyakori kérdések

    • A tolmácsolás, diktálás és egyéni beszédmodellel történő diktálás használatának díjszabása másodpercalapú
    • A szövegfelolvasás és az egyéni hangtípusú szövegfelolvasás karakterenként lesz számlázva
    • Egyéni beszédmodell üzemeltetése: a számlázás óránként történik; Egyéni hangtípus üzemeltetése: a számlázás naponta történik.
  • A beszédszolgáltatással a felhasználók saját akusztikai és nyelvi adataikra épített alapmodelleket alakíthatnak át egyéni beszédmodellekké, amelyek diktálásra és tolmácsolásra is használhatók.

  • A nyelvi modell szószekvenciák valószínűségi eloszlását jelenti. A nyelvi modell segíti a rendszert abban, hogy válasszon a hasonló hangzású szószekvenciák közül. Ehhez maguknak a szószekvenciáknak a valószínűségét használja fel. A „recognize speech” és a „wreck a nice beach” például ugyanúgy hangzik, de az első változat sokkal valószínűbb, ezért magasabb pontszámot kap a nyelvi modellben. Ha az alkalmazáshoz várhatóan érkeznek majd olyan lekérdezések, amelyek speciális szókincset használnak (például termékneveket vagy a tipikus beszédben ritkán előforduló szakkifejezéseket), akkor a nyelvi modell testreszabásával nagy valószínűséggel hatékonyabb működés érhető el. Ha például az alkalmazás hangalapú keresést végez az MSDN-ben, valószínű, hogy az olyan kifejezések, mint az „objektumorientált”, a „névtér” vagy a „dot net” gyakrabban fordulnak majd elő, mint más alkalmazások esetében. A nyelvi modell testreszabásával lehetővé válik, hogy a rendszer megtanulja ezeket.

  • Az akusztikai modell besorolást végez: a hanganyag rövid részleteit egy adott nyelv fonémáiként (hangegységeiként) azonosít be. Ezekből a fonémákból állíthatók össze a szavak. Az angol „speech” (beszéd) szó például négy fonémából áll: „sz, p, í, cs”. Ezek a besorolások másodpercenként százas nagyságrendben zajlanak le. Az akusztikai modell testreszabása lehetővé teszi, hogy a rendszer nem tipikus környezetekben jobb hatékonysággal ismerje fel a beszédet. Egy olyan alkalmazásnál például, amelyet egy raktár vagy egy gyár dolgozói használnak, a testreszabott akusztikai modell pontosabb beszédfelismerést tehet lehetővé az ilyen környezetekben található zajok mellett is.

  • A Microsoft beszédszolgáltatásai 40-nél több nyelven 70-nél több alapértelmezett beszédhangot (azaz hangtípust) tartalmaznak, amelyek segítenek a szöveg beszéddé alakításában. A virtuális asszisztensek és különböző hangvezérelt alkalmazások megjelenésével azonban sok vállalat szeretne egyéni, gondosan a saját márkáik jellegéhez igazított hangot üzlete arculatához. Ha például csevegőrobotot fejleszt ügyfélszolgálatához, társíthatja azt a márkára egyedien jellemző hanggal, így erősítve az ügyfelek kötődését. Hasonló módon egy autós navigációs szoftver fejlesztője egyéni hangú szövegfelolvasás lehetővé tételével javíthatja a felhasználói élményt.

    Mindez egyszerűen megoldható a Voice Studio, az egyéni hangkészítő portál használatával. Saját hangadatai (emberi hang felvétele a hozzá tartozó szöveggel) alapján egyéni hangtípust generálhat, amely üzembe helyezhető a Microsoft felolvasó szolgáltatásában, és egyszerűen beköthető API-végponttal rendelkező alkalmazásaiba, ahol felhasználhatja azt.

Források

Azure-szolgáltatások várható havi díjának becslése

Gyakori kérdések az Azure díjszabásáról

Cognitive Services – további információ

Műszaki oktatóanyagok, videók és más háttéranyagok

Becslésbe felvéve. Nyomja meg a 'v'-t a kalkulátorban való megtekintéshez

$200 értékű kredittel tanulhat és fejleszthet, és ingyenesen dolgozhat tovább