Ugrás a tartalomra

Azure AI Beszéd – díjszabás

Egységes beszédszolgáltatások diktáláshoz, szövegfelolvasáshoz és tolmácsoláshoz

Az egyesített beszédszolgáltatások beszédfelismerési és beszédgenerálási lehetőségek széles skáláját kínálják, beleértve a diktálást, felolvasást és tolmácsolást. A beszédszolgáltatások beszédfelismerési és beszédgenerálási lehetőségek széles skáláját kínálják, beleértve a diktálást, felolvasást, tolmácsolást és beszélőfelismerést.

Ismerje meg a díjszabási lehetőségeket

Szűrők alkalmazásával testre szabhatja a díjszabási lehetőségeket saját igényei szerint.

Az árak csak becslések, és nem tényleges árajánlatok. A tényleges díjszabás a Microsofttal kötött szerződés típusától, a vásárlás dátumától és a pénznem árfolyamától függően változhat. Az árakat USD-ben számítjuk ki, és az előző hónap utolsó munkanapját megelőző két munkanapon belül rögzített, londoni záró árfolyamok használatával váltjuk át őket. Ha a hónap végét megelőző két munkanap a főbb piacokon munkaszüneti napra esik, az árfolyam-meghatározási nap általában a két munkanap előtti nap. Ez az árfolyam a következő hónapban végrehajtott összes tranzakcióra vonatkozik. Jelentkezzen be az Azure-díjkalkulátorba, a Microsofttal fenntartott jelenlegi program/ajánlata alapján mért díjszabás megtekintéséhez. A díjszabással kapcsolatos további információért vagy árajánlat kéréséhez forduljon egy Azure értékesítési szakértőhöz. Lásd az Azure díjszabásával kapcsolatos gyakori kérdéseket.

Ingyenes (F0)

Kategória Jellemzők Ár
Beszédfelismerés
(másodpercalapú számlázás)
Standard 5 audióóra ingyen havonta3
Egyéni 5 audióóra ingyen havonta3
Végpont-üzemeltetés: Havonta 1 modell ingyenes1
Beszédátírás – többcsatornás audió ELŐZETES VERZIÓ 5 audióóra ingyen havonta
Szövegfelolvasás
(karakterenkénti számlázás)
Neurális Havonta 0.5 million millió karakter ingyenes
Tolmácsolás
(másodpercalapú számlázás)
Standard 5 audióóra ingyen havonta
Beszélőfelismerés
(tranzakciónkénti számlázás)
Hangalapú azonosítás2 Havi 10,000 ingyenes tranzakció
Beszélőfelismerés2 Havi 10,000 ingyenes tranzakció
Hangprofil tárolása Havi 10,000 ingyenes tranzakció

Tekintse át a dokumentációt, amely információt nyújt a kvótákról és korlátokról, és az egyidejű kérelmek számának növelésére vonatkozó utasításokat is tartalmaz.

1A használaton kívüli modellek automatikusan le lesznek szerelve 7 nap múltán.

2A Beszélőfelismerés korlátozott hozzáférésű funkció, ezért kérvényeznie kell a hozzáférést.

3A diktálás ingyenes hangideje a Standard és az Egyéni verzió között van megosztva, a Batch nem támogatott.

Használatalapú fizetés: csak a használt funkciókért kell fizetnie.

Kategória Jellemzők Ár
Beszédfelismerés
(másodpercalapú számlázás)
Valós idejű Batch
v3.2 API vagy újabb4
Standard $- óránként $- óránként
Egyéni $- óránként
Végpont-üzemeltetés: $- modellenként és óránként
$- óránként
Végpont üzemeltetése: nem alkalmazható
Egyéni beszédfelismerés betanítása6 $- számítási óránként
Továbbfejlesztett bővítményfunkciók:
  • Folyamatos nyelvazonosítás
  • Diarizálás
  • Kiejtés értékelése (prozódia, nyelvhelyesség, szókincs, témakör)
$- óránként és funkciónként Tartalmazza a Folyamatos nyelvi azonosítás és a Diarizálás funkciót5
Beszédátírás – többcsatornás audió ELŐZETES VERZIÓ $- óránként1 N/A
Szövegfelolvasás
(karakterenkénti számlázás)
Neurális Valós idejű és kötegszintézis: $- / 1 millió karakter
Neurális HD Valós idejű és kötegelt szintetizálás: $- 1 millió karakterenként
Egyéni neurális2 Betanítás: $- számítási óránként, maximálisan $- betanításonként
Valós idejű és kötegszintézis: $- / 1 millió karakter
Végpont-üzemeltetés: $- modellenként és óránként
Személyes hang8 Hanglétrehozás: ingyenes
Hangprofil tárterülete: $- 1000 hangprofilonként havonta
Szintetizálás: $- 1 millió karakterenként
Szövegfelolvasási avatar (másodpercenkénti számlázás) Avatar Valós idejű és kötegelt szintetizálás: percenként $-
Egyéni avatar9 Valós idejű szintetizálás: percenként $-
Kötegelt szintetizálás: percenként $-
Végpontüzemeltetés: modellenként óránként $-
Tolmácsolás
(másodpercalapú számlázás)
Standard $- audióóránként7
Beszélőfelismerés
(tranzakciónkénti számlázás)
Hangalapú azonosítás3 $- 1,000 tranzakciónként
Beszélőfelismerés3 $- 1,000 tranzakciónként
Hangprofil tárolása $-/1,000 hangprofil (havi 10,000 ingyenes hangprofil)

Tekintse át a dokumentációt, amely információt nyújt a kvótákról és korlátokról, és az egyidejű kérelmek számának növelésére vonatkozó utasításokat is tartalmaz.

A diktálási órákat a szolgáltatásnak küldött hangórák alapján mérjük, másodpercekben számlázva.

1 A nyilvános előzetes verzióra vonatkozó díjszabás. Az általános elérhetőségre vonatkozó díjszabás az általános elérhetőség megjelenésekor várható.

2 A egyedi neurális hang (CNV) egy korlátozott hozzáférésű funkció, amely Pro és Lite verzióban érhető el. A CNV Lite (nyilvános előzetes verzió) használatával az ügyfelek rögzíthetik a saját hangjukat, és létrehozhatnak egy modellt bemutató jelleggel, illetve kiértékelési célra a Pro verzióhoz való hozzáférés igénylése előtt. Itt nézheti meg, hol érhető el az egyedi neurális hang.

3 A Beszélőfelismerés korlátozott hozzáférésű funkció, ezért kérvényeznie kell a hozzáférést.

4 Az új díjszabás kihasználásához az új diktálási REST API 3.2-s előzetes verzióját kell használnia. Az új v3.2 előzetes verziójú API használatával kapcsolatos információkért lásd: Kötegelt átírás létrehozása – Beszédszolgáltatás – Azure AI szolgáltatások | Microsoft Learn.

5 A bővített bővítményfunkciók az összes Batch API-verzió Batch-árában szerepelnek.

6 Az egyéni beszédfelismerés betanítása a 2023. október 1-jén vagy azt követően kiadott alapmodellek testreszabására vonatkozik.

7 Ez az ár 1 hangbemenetet és -kimenetet, valamint legfeljebb 2 szövegfordítási nyelvet tartalmaz szabványos vagy egyéni Diktálás és szabványos Fordítás használatával. Egyéni fordítási vagy több mint 3 fordítási nyelv esetén tekintse meg az Azure AI Translator Text fordítás díjszabási lapját.

8 Ez a nyilvános előzetes verzió díjszabását tükrözi. A GA verzió árát később, a nyilvános megjelenéskor közöljük. A személyes hang korlátozott hozzáférésű funkció, amely csak bizonyoselőre jóváhagyott használati esetekre korlátozódik, és igényelni kell a hozzáférést. Ha többet szeretne megtudni a szolgáltatásról, tájékozódjon a dokumentumból.

9 Az egyéni avatar korlátozott hozzáférésű funkció, ezért kérvényeznie kell a hozzáférést.

Kötelezettségvállalási szintek – Azure – Standard

Kategória Jellemzők Ár (egy hónapra) Kerettúllépés
Speech to Text Standard 2,000 $- óránként $- óránként
10,000 $- óránként $- óránként
50,000 $- óránként $- óránként
Egyéni 2,000 $- óránként $- óránként
10,000 $- óránként $- óránként
50,000 $- óránként $- óránként
Továbbfejlesztett bővítményfunkciók:2
  • Folyamatos nyelvazonosítás
  • Diarizálás
  • Kiejtés értékelése (prozódia, nyelvhelyesség, szókincs, témakör)
2,000 $- óránként $- óránként
10,000 $- óránként $- óránként
50,000 $- óránként $- óránként
Text to Speech Neurális1 $- / 80 millió karakterenként $- 1 millió karakterenként
$- / 400 millió karakterenként $- 1 millió karakterenként
$- / 2,000 millió karakterenként $- 1 millió karakterenként

1Csak valós idejű szintetizálás, ez nem vonatkozik hosszú hang létrehozására.

2Csak valós idejű diktálás, Folyamatos nyelvazonosítás és Diarizálás bővítményfunkciók, amelyek a kötegelt diktálás részét képezik.

Kötelezettségvállalási szintek – Csatlakoztatott tároló

Kategória Jellemzők Ár (egy hónapra) Kerettúllépés
Speech to Text2 Standard 2,000 $- óránként $- óránként
10,000 $- óránként $- óránként
50,000 $- óránként $- óránként
Egyéni 2,000 $- óránként $- óránként
10,000 $- óránként $- óránként
50,000 $- óránként $- óránként
Továbbfejlesztett bővítményfunkciók:2
  • Nyelvazonosítás
  • Diarizálás
2,000 $- óránként $- óránként
10,000 $- óránként $- óránként
50,000 $- óránként $- óránként
Text to Speech Neurális1 $- / 80 millió karakterenként $- 1 millió karakterenként
$- / 400 millió karakterenként $- 1 millió karakterenként
$- / 2,000 millió karakterenként $- 1 millió karakterenként

1Csak valós idejű szintetizálás, ez nem vonatkozik hosszú hang létrehozására.

2A díjszabás a valós idejű és kötegelt használati esetekre vonatkozik. A tárolókhoz nem tartozik külön kötegelt díjszabás.

A kötelezettségvállalási szintekről további információt a dokumentáció tartalmaz.

Kötelezettségvállalási szintek – Leválasztott tároló

A beszédfelismerés leválasztott tárolókban való eléréséhez regisztráljon, vagy tudjon meg további információt

Kategória Jellemzők Díj (éves) Maximális használat (éves) Előre jelzett használat (havi)
Speech to Text2 Standard $-
$-
A hozzáféréshez regisztráljon
További információ
120.000 óra
600.000 óra
10.000 óra
50.000 óra
Egyéni $-
$-
A hozzáféréshez regisztráljon
További információ
120.000 óra
600.000 óra
10.000 óra
50.000 óra
Továbbfejlesztett bővítményfunkciók:
  • Nyelvazonosítás
  • Diarizálás
$-
$-
120.000 óra
600.000 óra
10.000 óra
50.000 óra
Text to Speech Neurális1 $-
$-
A hozzáféréshez regisztráljon
További információ
4,8 milliárd karakter
24 milliárd karakter
400 millió karakter
2000 millió karakter

1Csak valós idejű szintetizálás, ez nem vonatkozik hosszú hang létrehozására.

2A díjszabás a valós idejű és kötegelt használati esetekre vonatkozik. A tárolókhoz nem tartozik külön kötegelt díjszabás.

Ezek a funkciók hamarosan elavulnak, és csak a meglévő ügyfelek használhatják őket. Tekintse meg a részleteket, és ismerje meg, hogyan térhet át az új funkciókra.

Példány Kategória Jellemzők Ár
Ingyenes - Web/tároló
1 párhuzamos kérés
Text to Speech Standard Havonta 5 million millió karakter ingyenes
Egyéni Havonta 5 million millió karakter ingyenes
Végpont-üzemeltetés: Havonta 1 modell ingyenes
Standard - Web/Container
100 párhuzamos kérés az alapmodellhez
20 párhuzamos kérés az egyéni modellhez
Text to Speech Standard $- / 1 millió karakter
Egyéni $- / 1 millió karakter
Végpont-üzemeltetés: $- modellenként és óránként

Az Azure díjszabása és megvásárlási lehetőségei

Vegye fel velünk a kapcsolatot közvetlenül

Ismerje meg az Azure díjszabását. Megismerheti a felhőmegoldásának díjszabását, információt szerezhet a költségoptimalizálásról, és egyéni ajánlatot is kérhet.

Beszéljen egy értékesítési szakértővel

Vásárlási lehetőségek

Az Azure-szolgáltatásokat megvásárolhatja az Azure webhelyén, egy Microsoft-képviselőn keresztül vagy egy Azure-partnertől.

Tekintse át a lehetőségeket

További források

Azure AI Beszéd

További információ a(z) Azure AI Beszéd funkcióiról és képességeiről.

Díjkalkulátor

Felmérheti az Azure-termékek bármilyen kombinációjának használatával járó várható havi költségeit.

Dokumentáció

Műszaki oktatóanyagok, videók és más Azure AI Beszéd háttéranyagok.

    • A beszédfelismerés és a tolmácsolás használatát másodperces alapon számlázzuk.
    • Szövegfelolvasás: A szolgáltatás használatát karakterenként számlázzuk. Ellenőrizze a karakter definícióját a díjszabási megjegyzésekben.
    • Egyedi neurális hang üzemeltetése esetén: a használat számlázása végpontonként, másodperc alapon történik. Részleteket lásd a díjszabási megjegyzésben.
    • Személyes hangprofil tárterülete: a használatot hangprofilonként, naponta számlázzuk. Részleteket lásd a díjszabási megjegyzésben.
    • Text to Speech avatar esetében a használatot másodpercenként számlázzuk.
    • A beszédfelismerés és a szövegfelolvasás (avatart is beleértve) esetében az egyéni modellek végponti üzemeltetését modellenként másodperces alapon számlázzuk.
  • A beszédszolgáltatással a felhasználók saját akusztikai és nyelvi adataikra épített alapmodelleket alakíthatnak át egyéni beszédmodellekké, amelyek diktálásra és tolmácsolásra is használhatók.

  • A nyelvi modell szószekvenciák valószínűségi eloszlását jelenti. A nyelvi modell segíti a rendszert abban, hogy válasszon a hasonló hangzású szószekvenciák közül. Ehhez maguknak a szószekvenciáknak a valószínűségét használja fel. A „recognize speech” és a „wreck a nice beach” például ugyanúgy hangzik, de az első változat sokkal valószínűbb, ezért magasabb pontszámot kap a nyelvi modellben. Ha az alkalmazáshoz várhatóan érkeznek majd olyan lekérdezések, amelyek speciális szókincset használnak (például termékneveket vagy a tipikus beszédben ritkán előforduló szakkifejezéseket), akkor a nyelvi modell testreszabásával nagy valószínűséggel hatékonyabb működés érhető el. Ha például az alkalmazás hangalapú keresést végez az MSDN-ben, valószínű, hogy az olyan kifejezések, mint az „objektumorientált”, a „névtér” vagy a „dot net” gyakrabban fordulnak majd elő, mint más alkalmazások esetében. A nyelvi modell testreszabásával lehetővé válik, hogy a rendszer megtanulja ezeket.

  • Az akusztikai modell besorolást végez: a hanganyag rövid részleteit egy adott nyelv fonémáiként (hangegységeiként) azonosít be. Ezekből a fonémákból állíthatók össze a szavak. Az angol „speech” (beszéd) szó például négy fonémából áll: „sz, p, í, cs”. Ezek a besorolások másodpercenként százas nagyságrendben zajlanak le. Az akusztikai modell testreszabása lehetővé teszi, hogy a rendszer nem tipikus környezetekben jobb hatékonysággal ismerje fel a beszédet. Egy olyan alkalmazásnál például, amelyet egy raktár vagy egy gyár dolgozói használnak, a testreszabott akusztikai modell pontosabb beszédfelismerést tehet lehetővé az ilyen környezetekben található zajok mellett is.

  • A Speech szolgáltatás sokféle hangtípust kínál a szövegfelolvasáshoz (TTS), az egyéni neurális hanggal viszont az igényeinek és a márkának megfelelő saját egyéni hangot hozhat létre. További információt a blogon talál.

  • A nyelvazonosítás lehetővé teszi a beszélt nyelv váltásának azonosítását és a beszéd ennek megfelelő átírását. Ez olyan esetekben alkalmazható, amikor a hang nyelve ismeretlen, vagy ha a beszélő(k) több nyelven is beszélnek. Az egynyelvű azonosítás további költségek nélkül érhető el. A folyamatos nyelvi azonosítás egy továbbfejlesztett kiegészítő funkció. További információért lásd a dokumentációt.

    • A kiejtés értékelése kiértékeli a beszéd kiejtését, és visszajelzést ad a beszélőknek a beszédhang pontosságáról és gördülékenységéről. A kiejtés értékelésével a nyelvtanulók gyakorolhatnak, azonnali visszajelzést kaphatnak, és javíthatják a kiejtésüket, hogy önbizalommal tudjanak beszélni és előadni. Az oktatók használhatják ezt a funkciót egyszerre több beszélő valós idejű értékelésére. További információt a dokumentumok között talál.
    • Standard Speech to Text funkcióként kerül kiszámlázásra, például:
      8 másodpercnyi beszéd értékelésének díja hozzávetőlegesen $-

Az Azure díjszabásának részleteiről érdeklődjön egy értékesítési szakembernél. Ismerje meg a felhőmegoldásának díjszabását.

Ingyenes felhőszolgáltatásokat és egy $200 értékű kreditet kaphat, mellyel 30 napig ismerkedhet az Azure-ral.

Becslésbe felvéve. Nyomja meg a 'v'-t a kalkulátorban való megtekintéshez