Ugrás a tartalomtörzsre
Azure

Azure AI Beszéd – díjszabás

Egységes beszédszolgáltatások diktáláshoz, szövegfelolvasáshoz és tolmácsoláshoz

Az egyesített beszédszolgáltatások beszédfelismerési és beszédgenerálási lehetőségek széles skáláját kínálják, beleértve a diktálást, felolvasást és tolmácsolást. A beszédszolgáltatások beszédfelismerési és beszédgenerálási lehetőségek széles skáláját kínálják, beleértve a diktálást, felolvasást, tolmácsolást és beszélőfelismerést.

Ismerje meg a díjszabási lehetőségeket

Szűrők alkalmazásával testre szabhatja a díjszabási lehetőségeket saját igényei szerint.

Az árak csak becslések, és nem tényleges árajánlatok. A tényleges díjszabás a Microsofttal kötött szerződés típusától, a vásárlás dátumától és a pénznem árfolyamától függően változhat. Az árakat USD-ben számítjuk ki, és az előző hónap utolsó munkanapját megelőző két munkanapon belül rögzített, londoni záró árfolyamok használatával váltjuk át őket. Ha a hónap végét megelőző két munkanap a főbb piacokon munkaszüneti napra esik, az árfolyam-meghatározási nap általában a két munkanap előtti nap. Ez az árfolyam a következő hónapban végrehajtott összes tranzakcióra vonatkozik. Jelentkezzen be az Azure-díjkalkulátorba, a Microsofttal fenntartott jelenlegi program/ajánlata alapján mért díjszabás megtekintéséhez. A díjszabással kapcsolatos további információért vagy árajánlat kéréséhez forduljon egy Azure értékesítési szakértőhöz. Lásd az Azure díjszabásával kapcsolatos gyakori kérdéseket.

Ingyenes (F0)

Kategória Jellemzők Ár
Beszédfelismerés
(másodpercalapú számlázás)
Standard 5 audióóra ingyen havonta3
Egyéni 5 audióóra ingyen havonta3
Végpont-üzemeltetés: Havonta 1 modell ingyenes1
Beszédátírás – többcsatornás audió ELŐZETES VERZIÓ 5 audióóra ingyen havonta
Szövegfelolvasás
(karakterenkénti számlázás)
Neurális Havonta 0.5 million millió karakter ingyenes
Tolmácsolás
(másodpercalapú számlázás)
Standard 5 audióóra ingyen havonta
Beszélőfelismerés
(tranzakciónkénti számlázás)
Hangalapú azonosítás2 Havi 10,000 ingyenes tranzakció
Beszélőfelismerés2 Havi 10,000 ingyenes tranzakció
Hangprofil tárolása Havi 10,000 ingyenes tranzakció

Tekintse át a dokumentációt, amely információt nyújt a kvótákról és korlátokról, és az egyidejű kérelmek számának növelésére vonatkozó utasításokat is tartalmaz.

1A használaton kívüli modellek automatikusan le lesznek szerelve 7 nap múltán.

2A Beszélőfelismerés korlátozott hozzáférésű funkció, ezért kérvényeznie kell a hozzáférést.

3A diktálás ingyenes hangideje a Standard és az Egyéni verzió között van megosztva, a Batch nem támogatott.

Használatalapú fizetés: csak a használt funkciókért kell fizetnie.

Kategória Ár
Voice Live Pro (m tokenenkénti számlázás)VL1 Szöveg Bemenet: $-
Gyorsítótárazott bemenet: $-
Kimenet: $-
Hang Azure AI Beszéddel – Standard Bemenet: $-
Gyorsítótárazott bemenet: $-
Kimenet: $-
Hang Azure AI Beszéddel – EgyéniVL2 Kimenet: $-
Natív hang GPT-4o-Realtime protokollal Bemenet: $-
Gyorsítótárazott bemenet: $-
Kimenet: $-
Voice Live Basic (m tokenenkénti számlázás)VL1 Szöveg Bemenet: $-
Gyorsítótárazott bemenet: $-
Kimenet: $-
Hang Azure AI Beszéddel – Standard Bemenet: $-
Gyorsítótárazott bemenet: $-
Kimenet: $-
Hang Azure AI Beszéddel – EgyéniVL2 Kimenet: $-
Natív hang GPT-4o Mini-Realtime protokollal Bemenet: $-
Gyorsítótárazott bemenet: $-
Kimenet: $-
Voice Live Pro (m tokenenkénti számlázás)VL1 Szöveg Bemenet: $-
Gyorsítótárazott bemenet: $-
Kimenet: $-
Hang Azure AI Beszéddel – Standard Bemenet: $-
Gyorsítótárazott bemenet: $-
Kimenet: $-
Hang Azure AI Beszéddel – EgyéniVL2 Kimenet: $-
Natív hang a Phi-MM segítségével Bemenet: $-
Gyorsítótárazott bemenet: $-
Beszédfelismerés
(másodpercalapú számlázás)
Szabványos átírás Valós idejű átírás: $- óránként
Gyors átírás: $- óránként9
Kötegelt átírás: $- óránként1
Egyéni átírás Valós idejű átírás: $- óránként
Kötegelt átírás: $- óránként1
Végpont-üzemeltetés: $- modellenként és óránként
Egyéni beszédfelismerés betanítása5: $- számítási óránként
Továbbfejlesztett bővítményfunkciók:
  • Folyamatos nyelvazonosítás
  • Diarizálás
  • Kiejtés értékelése (prozódia, nyelvhelyesség, szókincs, témakör)
Valós idejű: $- óránként és funkciónként
Kötegelés (folyamatos nyelvazonosítás, naplóba vezetés): a standard/egyéni csomag része (külön díj nélkül)
Beszédátírás – többcsatornás audió ELŐZETES VERZIÓ $- óránként2
Tolmácsolás
(másodpercalapú számlázás)
Valós idejű Speech Translation $- audióóránként3
Live Interpreter Input audio: $- audióóránként
Output text: $- / 1 millió karakter
Output audio (Standard voice): $- per audio hourLI
Output audio (Custom voice): $- per audio hourLI
Videófordítás Bemeneti videó: $- óránként
Kimeneti videó (standard hang): $- óránként
Kimeneti videó (személyes hang): $- óránként
Text to Speech8 Normál hang Neurális (valós idejű és kötegelt): $- / 1 millió karakter
Neurális HD (valós idejű és kötegelt)4: $- / 1 millió karakter
Egyéni beszédhang Szakmai hang:
Szintetizálás (valós idejű és kötegelt): $- 1 millió karakterenként
Szintetizálás (neurális hálózat HD és kötegelt): $- 1 millió karakterenként
Hangmodell-betanítás: $- számítási óránként, legfeljebb $- betanításonként
Végpont-üzemeltetés: $- modellenként és óránként
Személyes hang6:
Szintetizálás (valós idejű és kötegelt): $- 1 millió karakterenként
Hanglétrehozás: ingyenes
Hangprofil tárterülete: $- 1000 hangprofilonként havonta
Továbbfejlesztett bővítményfunkció: Avatar Standard:
Interaktív avatar (valós idejű): $- percenként
Interaktív 4K avatar (valós idejű): $- percenként
Avatarvideó (kötegelt): $- percenként
4K avatarvideó (kötegelt): $- percenként
Egyéni:
Avatarmodell betanítása: $- számítási óránként
Interaktív avatar (valós idejű): $- percenként
Interaktív 4K avatar (valós idejű): $- percenként
Avatarvideó (kötegelt): $- percenként
4K avatarvideó (kötegelt): $- percenként
Végpontüzemeltetés: modellenként óránként $-
Beszélőfelismerés
(tranzakciónkénti számlázás)
Hangalapú azonosítás7 $- 1,000 tranzakciónként
Beszélőfelismerés7 $- 1,000 tranzakciónként
Hangprofil tárolása $-/1,000 hangprofil (havi 10,000 ingyenes hangprofil)

Tekintse át a dokumentációt, amely információt nyújt a kvótákról és korlátokról, és az egyidejű kérelmek számának növelésére vonatkozó utasításokat is tartalmaz.

A diktálási órákat a szolgáltatásnak küldött hangórák alapján mérjük, másodpercekben számlázva.

1Az új Batch Transcription díjszabásának kihasználásához a Diktálás REST API V3.2 vagy újabb verzióját kell használnia. További információt a Diktálás REST API című témakörben talál.

2Ez a nyilvános előzetes verzió díjszabását tükrözi.

3Ez az ár 1 hangbemenetet és -kimenetet, valamint legfeljebb 2 szövegfordítási nyelvet tartalmaz szabványos vagy egyéni Diktálás és szabványos Fordítás használatával. Egyéni fordítási vagy több mint 3 fordítási nyelv esetén tekintse meg az Azure AI Translator Text fordítás díjszabási lapját.

4A kijelölt szövegfelolvasási hangok két modellváltozatban érhetők el: neurális és neurálisHD. További információt itt talál.

5Az egyéni beszédfelismerés betanítása a 1, 2023. október 1-jén vagy azt követően kiadott alapmodellek testreszabására vonatkozik.

6A személyes hang korlátozott hozzáférésű funkció, amely csak bizonyoselőre jóváhagyott használati esetekre korlátozódik, és igényelni kell a hozzáférést. Ha többet szeretne megtudni a szolgáltatásról, tájékozódjon a dokumentumból.

7A Beszélőfelismerés korlátozott hozzáférésű funkció, ezért kérvényeznie kell a hozzáférést.

8Szövegfelolvasás: a beszédszintézis használatának számlázása karakterenként történik. Az avatar számlázása másodpercenként történik. A betanítás és a modellüzemeltetés számlázása másodpercenként történik.

9A Gyors átírás használatához a Diktálási REST API 2024.05.15-i előzetes vagy újabb verzióját kell használnia. További információt a Diktálás REST API című témakörben talál.

VL1A Voice Live Plus használatával a fejlesztők olyan LLM-ek közül választhatnak, mint a GPT-4o-Realtime, a GPT-4o és a GPT-4.1 modellek. A Voice Live Basic használatával a fejlesztők kisebb LLM-ek közül választhatnak, például a GPT-4o-Mini-Realtime, a GPT-4o Mini és a GPT-4.1 Mini modellek. A Voice Live Lite használatával a fejlesztők SLM-ek és egyenértékű modellek, például a GPT-4.1 Nano és a Phi modellek közül választhatnak. Ha többet szeretne megtudni a Voice Live API díjszabásának működéséről, kattintson ide.

VL2You will be charged separately for custom voice model training and hosting. Refer to the ‘Text to Speech – Custom Voice – Professional’ pricing for details. Custom voice is a limited access feature. Learn more about how to create custom voices.

LIThis price includes text output

Kötelezettségvállalási szintek – Azure – Standard

Kategória Jellemzők Ár (egy hónapra) Kerettúllépés
Speech to Text Standard 2,000 $- óránként $- óránként
10,000 $- óránként $- óránként
50,000 $- óránként $- óránként
Egyéni 2,000 $- óránként $- óránként
10,000 $- óránként $- óránként
50,000 $- óránként $- óránként
Továbbfejlesztett bővítményfunkciók:2
  • Folyamatos nyelvazonosítás
  • Diarizálás
  • Kiejtés értékelése (prozódia, nyelvhelyesség, szókincs, témakör)
2,000 $- óránként $- óránként
10,000 $- óránként $- óránként
50,000 $- óránként $- óránként
Text to Speech Neurális1 $- / 80 millió karakterenként $- 1 millió karakterenként
$- / 400 millió karakterenként $- 1 millió karakterenként
$- / 2,000 millió karakterenként $- 1 millió karakterenként

1Ez magában foglalja a valós idejű szintetizálást és a kötegelt szintetizálást előre összeállított, nem HD és nem AOAI neurális hangokkal. A HD-hangok, az AOAI-hangok, a egyedi neurális hang és a Személyes hang nem szerepelnek a csomagban.

2Csak valós idejű diktálás, Folyamatos nyelvazonosítás és Diarizálás bővítményfunkciók, amelyek a kötegelt diktálás részét képezik.

Kötelezettségvállalási szintek – Csatlakoztatott tároló

Kategória Jellemzők Ár (egy hónapra) Kerettúllépés
Speech to Text2 Standard 2,000 $- óránként $- óránként
10,000 $- óránként $- óránként
50,000 $- óránként $- óránként
Egyéni 2,000 $- óránként $- óránként
10,000 $- óránként $- óránként
50,000 $- óránként $- óránként
Továbbfejlesztett bővítményfunkciók:2
  • Nyelvazonosítás
  • Diarizálás
2,000 $- óránként $- óránként
10,000 $- óránként $- óránként
50,000 $- óránként $- óránként
Text to Speech Neurális1 $- / 80 millió karakterenként $- 1 millió karakterenként
$- / 400 millió karakterenként $- 1 millió karakterenként
$- / 2,000 millió karakterenként $- 1 millió karakterenként

1Ez magában foglalja a valós idejű szintetizálást előre összeállított, nem HD és nem AOAI neurális hangokkal. A HD-hangok, az AOAI-hangok és az egyéni hangok (mind a professzionális, mind a személyes hangok) nem szerepelnek a csomagban. A kötegelt szintetizálás nincs belefoglalva.

2A díjszabás a valós idejű és kötegelt használati esetekre vonatkozik. A tárolókhoz nem tartozik külön kötegelt díjszabás.

A kötelezettségvállalási szintekről további információt a dokumentáció tartalmaz.

Kötelezettségvállalási szintek – Leválasztott tároló

A beszédfelismerés leválasztott tárolókban való eléréséhez regisztráljon, vagy tudjon meg további információt

Kategória Jellemzők Díj (éves) Maximális használat (éves) Előre jelzett használat (havi)
Speech to Text2 Standard $-
$-
A hozzáféréshez regisztráljon
További információ
120.000 óra
600.000 óra
10.000 óra
50.000 óra
Egyéni $-
$-
A hozzáféréshez regisztráljon
További információ
120.000 óra
600.000 óra
10.000 óra
50.000 óra
Továbbfejlesztett bővítményfunkciók:
  • Nyelvazonosítás
  • Diarizálás
$-
$-
120.000 óra
600.000 óra
10.000 óra
50.000 óra
Text to Speech Neurális1 $-
$-
A hozzáféréshez regisztráljon
További információ
4,8 milliárd karakter
24 milliárd karakter
400 millió karakter
2000 millió karakter

1Ez magában foglalja a valós idejű szintetizálást előre összeállított, nem HD és nem AOAI neurális hangokkal. A HD-hangok, az AOAI-hangok és az egyéni hangok (mind a professzionális, mind a személyes hangok) nem szerepelnek a csomagban. A kötegelt szintetizálás nincs belefoglalva.

2A díjszabás a valós idejű és kötegelt használati esetekre vonatkozik. A tárolókhoz nem tartozik külön kötegelt díjszabás.

Ezek a funkciók hamarosan elavulnak, és csak a meglévő ügyfelek használhatják őket. Tekintse meg a részleteket, és ismerje meg, hogyan térhet át az új funkciókra.

Példány Kategória Jellemzők Ár
Ingyenes - Web/tároló
1 párhuzamos kérés
Text to Speech Standard Havonta 5 million millió karakter ingyenes
Egyéni Havonta 5 million millió karakter ingyenes
Végpont-üzemeltetés: Havonta 1 modell ingyenes
Standard - Web/Container
100 párhuzamos kérés az alapmodellhez
20 párhuzamos kérés az egyéni modellhez
Text to Speech Standard $- / 1 millió karakter
Egyéni $- / 1 millió karakter
Végpont-üzemeltetés: $- modellenként és óránként

Az Azure díjszabása és megvásárlási lehetőségei

Vegye fel velünk a kapcsolatot közvetlenül

Ismerje meg az Azure díjszabását. Megismerheti a felhőmegoldásának díjszabását, információt szerezhet a költségoptimalizálásról, és egyéni ajánlatot is kérhet.

Beszéljen egy értékesítési szakértővel

Vásárlási lehetőségek

Az Azure-szolgáltatásokat megvásárolhatja az Azure webhelyén, egy Microsoft-képviselőn keresztül vagy egy Azure-partnertől.

Tekintse át a lehetőségeket

További források

Azure AI Beszéd

További információ a(z) Azure AI Beszéd funkcióiról és képességeiről.

Díjkalkulátor

Felmérheti az Azure-termékek bármilyen kombinációjának használatával járó várható havi költségeit.

Dokumentáció

Műszaki oktatóanyagok, videók és más Azure AI Beszéd háttéranyagok.

    • A beszédfelismerés és a tolmácsolás használatát másodperces alapon számlázzuk.
    • Szövegfelolvasás: A szolgáltatás használatát karakterenként számlázzuk. Ellenőrizze a karakter definícióját a díjszabási megjegyzésekben.
    • Egyedi neurális hang üzemeltetése esetén: a használat számlázása végpontonként, másodperc alapon történik. Részleteket lásd a díjszabási megjegyzésben.
    • Személyes hangprofil tárterülete: a használatot hangprofilonként, naponta számlázzuk. Részleteket lásd a díjszabási megjegyzésben.
    • Text to Speech avatar esetében a használatot másodpercenként számlázzuk.
    • A beszédfelismerés és a szövegfelolvasás (avatart is beleértve) esetében az egyéni modellek végponti üzemeltetését modellenként másodperces alapon számlázzuk.
  • A beszédszolgáltatással a felhasználók saját akusztikai és nyelvi adataikra épített alapmodelleket alakíthatnak át egyéni beszédmodellekké, amelyek diktálásra és tolmácsolásra is használhatók.

  • A nyelvi modell szószekvenciák valószínűségi eloszlását jelenti. A nyelvi modell segíti a rendszert abban, hogy válasszon a hasonló hangzású szószekvenciák közül. Ehhez maguknak a szószekvenciáknak a valószínűségét használja fel. A „recognize speech” és a „wreck a nice beach” például ugyanúgy hangzik, de az első változat sokkal valószínűbb, ezért magasabb pontszámot kap a nyelvi modellben. Ha az alkalmazáshoz várhatóan érkeznek majd olyan lekérdezések, amelyek speciális szókincset használnak (például termékneveket vagy a tipikus beszédben ritkán előforduló szakkifejezéseket), akkor a nyelvi modell testreszabásával nagy valószínűséggel hatékonyabb működés érhető el. Ha például az alkalmazás hangalapú keresést végez az MSDN-ben, valószínű, hogy az olyan kifejezések, mint az „objektumorientált”, a „névtér” vagy a „dot net” gyakrabban fordulnak majd elő, mint más alkalmazások esetében. A nyelvi modell testreszabásával lehetővé válik, hogy a rendszer megtanulja ezeket.

  • Az akusztikai modell besorolást végez: a hanganyag rövid részleteit egy adott nyelv fonémáiként (hangegységeiként) azonosít be. Ezekből a fonémákból állíthatók össze a szavak. Az angol „speech” (beszéd) szó például négy fonémából áll: „sz, p, í, cs”. Ezek a besorolások másodpercenként százas nagyságrendben zajlanak le. Az akusztikai modell testreszabása lehetővé teszi, hogy a rendszer nem tipikus környezetekben jobb hatékonysággal ismerje fel a beszédet. Egy olyan alkalmazásnál például, amelyet egy raktár vagy egy gyár dolgozói használnak, a testreszabott akusztikai modell pontosabb beszédfelismerést tehet lehetővé az ilyen környezetekben található zajok mellett is.

  • A Speech szolgáltatás sokféle hangtípust kínál a szövegfelolvasáshoz (TTS), az egyéni neurális hanggal viszont az igényeinek és a márkának megfelelő saját egyéni hangot hozhat létre. További információt a blogon talál.

  • Language identification allows you to identify a switch in spoken language and transcribe speech accordingly. This can be applied in scenarios where the audio language is unknown, or when speaker(s) may speak multiple languages. Single Language Identification is available at no additional cost. Continuous Language Identification is an enhanced add-on feature. Visit docs to learn more.

    • Pronunciation assessment evaluates speech pronunciation and gives speakers feedback on the accuracy and fluency of spoken audio. With pronunciation assessment, language learners can practice, get instant feedback, and improve their pronunciation so that they can speak and present with confidence. Educators can use the capability to evaluate pronunciation of multiple speakers in real time. Visit docs to learn more.
    • It is charged as standard Speech to Text, example:
      For evaluation of 8 seconds of speech, you will be charged around $-

Az Azure díjszabásának részleteiről érdeklődjön egy értékesítési szakembernél. Ismerje meg a felhőmegoldásának díjszabását.

Ingyenes felhőszolgáltatásokat és egy $200 értékű kreditet kaphat, mellyel 30 napig ismerkedhet az Azure-ral.

Becslésbe felvéve. Nyomja meg a 'v'-t a kalkulátorban való megtekintéshez