Ugrás a tartalomtörzsre
Azure

Azure AI Beszéd – díjszabás

Egységes beszédszolgáltatások diktáláshoz, szövegfelolvasáshoz és tolmácsoláshoz

Az egyesített beszédszolgáltatások beszédfelismerési és beszédgenerálási lehetőségek széles skáláját kínálják, beleértve a diktálást, felolvasást és tolmácsolást. A beszédszolgáltatások beszédfelismerési és beszédgenerálási lehetőségek széles skáláját kínálják, beleértve a diktálást, felolvasást, tolmácsolást és beszélőfelismerést.

Ismerje meg a díjszabási lehetőségeket

Szűrők alkalmazásával testre szabhatja a díjszabási lehetőségeket saját igényei szerint.

Az árak csak becslések, és nem tényleges árajánlatok. A tényleges díjszabás a Microsofttal kötött szerződés típusától, a vásárlás dátumától és a pénznem árfolyamától függően változhat. Az árakat USD-ben számítjuk ki, és az előző hónap utolsó munkanapját megelőző két munkanapon belül rögzített, londoni záró árfolyamok használatával váltjuk át őket. Ha a hónap végét megelőző két munkanap a főbb piacokon munkaszüneti napra esik, az árfolyam-meghatározási nap általában a két munkanap előtti nap. Ez az árfolyam a következő hónapban végrehajtott összes tranzakcióra vonatkozik. Jelentkezzen be az Azure-díjkalkulátorba, a Microsofttal fenntartott jelenlegi program/ajánlata alapján mért díjszabás megtekintéséhez. A díjszabással kapcsolatos további információért vagy árajánlat kéréséhez forduljon egy Azure értékesítési szakértőhöz. Lásd az Azure díjszabásával kapcsolatos gyakori kérdéseket.

Ingyenes (F0)

Kategória Jellemzők Ár
Beszédfelismerés
(másodpercalapú számlázás)
Standard 5 audióóra ingyen havonta3
Egyéni 5 audióóra ingyen havonta3
Végpont-üzemeltetés: Havonta 1 modell ingyenes1
Beszédátírás – többcsatornás audió ELŐZETES VERZIÓ 5 audióóra ingyen havonta
Szövegfelolvasás
(karakterenkénti számlázás)
Neurális Havonta 0.5 million millió karakter ingyenes
Tolmácsolás
(másodpercalapú számlázás)
Standard 5 audióóra ingyen havonta
Beszélőfelismerés
(tranzakciónkénti számlázás)
Hangalapú azonosítás2 Havi 10,000 ingyenes tranzakció
Beszélőfelismerés2 Havi 10,000 ingyenes tranzakció
Hangprofil tárolása Havi 10,000 ingyenes tranzakció
Speech services quotas and limits by tier (Free F0)

See the documentation for information on quotas, limits and instructions on how to increase concurrent requests.

1A használaton kívüli modellek automatikusan le lesznek szerelve 7 nap múltán.

2Speaker Recognition is a limited access feature with a need to apply for access.

3A diktálás ingyenes hangideje a Standard és az Egyéni verzió között van megosztva, a Batch nem támogatott.

Használatalapú fizetés: csak a használt funkciókért kell fizetnie.

Kategória Ár
Voice Live Pro (m tokenenkénti számlázás)VL1 Szöveg Bemenet: $-
Gyorsítótárazott bemenet: $-
Kimenet: $-
Hang Azure AI Beszéddel – Standard Bemenet: $-
Gyorsítótárazott bemenet: $-
Kimenet: $-
Hang Azure AI Beszéddel – EgyéniVL2 Kimenet: $-
Natív hang GPT-4o-Realtime protokollal Bemenet: $-
Gyorsítótárazott bemenet: $-
Kimenet: $-
Voice Live Basic (m tokenenkénti számlázás)VL1 Szöveg Bemenet: $-
Gyorsítótárazott bemenet: $-
Kimenet: $-
Hang Azure AI Beszéddel – Standard Bemenet: $-
Gyorsítótárazott bemenet: $-
Kimenet: $-
Hang Azure AI Beszéddel – EgyéniVL2 Kimenet: $-
Natív hang GPT-4o Mini-Realtime protokollal Bemenet: $-
Gyorsítótárazott bemenet: $-
Kimenet: $-
Voice Live Pro (m tokenenkénti számlázás)VL1 Szöveg Bemenet: $-
Gyorsítótárazott bemenet: $-
Kimenet: $-
Hang Azure AI Beszéddel – Standard Bemenet: $-
Gyorsítótárazott bemenet: $-
Kimenet: $-
Hang Azure AI Beszéddel – EgyéniVL2 Kimenet: $-
Natív hang a Phi-MM segítségével Bemenet: $-
Gyorsítótárazott bemenet: $-
Beszédfelismerés
(másodpercalapú számlázás)
Szabványos átírás Valós idejű átírás: $- óránként
Gyors átírás: $- óránként9
Kötegelt átírás: $- óránként1
Egyéni átírás Valós idejű átírás: $- óránként
Kötegelt átírás: $- óránként1
Végpont-üzemeltetés: $- modellenként és óránként
Egyéni beszédfelismerés betanítása5: $- számítási óránként
Továbbfejlesztett bővítményfunkciók:
  • Folyamatos nyelvazonosítás
  • Diarizálás
  • Kiejtés értékelése (prozódia, nyelvhelyesség, szókincs, témakör)
Valós idejű: $- óránként és funkciónként
Kötegelés (folyamatos nyelvazonosítás, naplóba vezetés): a standard/egyéni csomag része (külön díj nélkül)
Beszédátírás – többcsatornás audió ELŐZETES VERZIÓ $- óránként2
Tolmácsolás
(másodpercalapú számlázás)
Valós idejű Speech Translation $- audióóránként3
Live Interpreter Input audio: $- audióóránként
Output text: $- / 1 millió karakter
Output audio (Standard voice): $- per audio hourLI
Output audio (Custom voice): $- per audio hourLI
Videófordítás Bemeneti videó: $- óránként
Kimeneti videó (standard hang): $- óránként
Kimeneti videó (személyes hang): $- óránként
Text to Speech8 Normál hang Neurális (valós idejű és kötegelt): $- / 1 millió karakter
Neurális HD (valós idejű és kötegelt)4: $- / 1 millió karakter
Egyéni beszédhang Szakmai hang:
Szintetizálás (valós idejű és kötegelt): $- 1 millió karakterenként
Szintetizálás (neurális hálózat HD és kötegelt): $- 1 millió karakterenként
Hangmodell-betanítás: $- számítási óránként, legfeljebb $- betanításonként
Végpont-üzemeltetés: $- modellenként és óránként
Személyes hang6:
Szintetizálás (valós idejű és kötegelt): $- 1 millió karakterenként
Hanglétrehozás: ingyenes
Hangprofil tárterülete: $- 1000 hangprofilonként havonta
Továbbfejlesztett bővítményfunkció: Avatar Standard:
Interaktív avatar (valós idejű): $- percenként
Interaktív 4K avatar (valós idejű): $- percenként
Avatarvideó (kötegelt): $- percenként
4K avatarvideó (kötegelt): $- percenként
Egyéni:
Avatarmodell betanítása: $- számítási óránként
Interaktív avatar (valós idejű): $- percenként
Interaktív 4K avatar (valós idejű): $- percenként
Avatarvideó (kötegelt): $- percenként
4K avatarvideó (kötegelt): $- percenként
Végpontüzemeltetés: modellenként óránként $-
Beszélőfelismerés
(tranzakciónkénti számlázás)
Hangalapú azonosítás7 $- 1,000 tranzakciónként
Beszélőfelismerés7 $- 1,000 tranzakciónként
Hangprofil tárolása $-/1,000 hangprofil (havi 10,000 ingyenes hangprofil)
Speech-to-Text pricing details and features by tier

See the documentation for information on quotas, limits and instructions on how to increase concurrent requests.

A diktálási órákat a szolgáltatásnak küldött hangórák alapján mérjük, másodpercekben számlázva.

1To take advantage of this new Batch Transcription pricing you need to use Speech to text REST API V3.2 or later versions. See Speech to text REST API for information.

2Ez a nyilvános előzetes verzió díjszabását tükrözi.

3This price includes 1 audio input and output, up to 2 text translation language using standard or custom Speech to Text and standard Translation. For custom Translation or 3+ translation languages, please reference the Azure AI Translator Text Translation pricing page.

4Selected text to speech voices are available via two model variants: Neural and NeuralHD. Learn more here.

5Az egyéni beszédfelismerés betanítása a 1, 2023. október 1-jén vagy azt követően kiadott alapmodellek testreszabására vonatkozik.

6Personal Voice is a limited access feature restricted to certain pre-approved use cases only, with a need to applying for access. To learn more about the service, check the document.

7Speaker Recognition is a limited access feature with a need to apply for access.

8Szövegfelolvasás: a beszédszintézis használatának számlázása karakterenként történik. Az avatar számlázása másodpercenként történik. A betanítás és a modellüzemeltetés számlázása másodpercenként történik.

9To use Fast Transcription you need to use Speech to text REST API 2024-05-15-preview or later versions. See Speech to text REST API for information.

VL1With Voice Live Plus, developers can choose from LLMs such as GPT-4o-Realtime, GPT-4o and GPT-4.1 models. With Voice Live Basic, developers can choose from smaller LLMs such as GPT-4o-Mini-Realtime, GPT-4o Mini and GPT-4.1 Mini models. With Voice Live Lite, developers can choose from SLMs and equivalent models such as GPT-4.1 Nano and Phi models. To learn more how Voice Live API pricing works, click here.

VL2You will be charged separately for custom voice model training and hosting. Refer to the ‘Text to Speech – Custom Voice – Professional’ pricing for details. Custom voice is a limited access feature. Learn more about how to create custom voices.

LIThis price includes text output

Kötelezettségvállalási szintek – Azure – Standard

Kategória Jellemzők Ár (egy hónapra) Kerettúllépés
Speech to Text Standard 2,000 $- óránként $- óránként
10,000 $- óránként $- óránként
50,000 $- óránként $- óránként
Egyéni 2,000 $- óránként $- óránként
10,000 $- óránként $- óránként
50,000 $- óránként $- óránként
Továbbfejlesztett bővítményfunkciók:2
  • Folyamatos nyelvazonosítás
  • Diarizálás
  • Kiejtés értékelése (prozódia, nyelvhelyesség, szókincs, témakör)
2,000 $- óránként $- óránként
10,000 $- óránként $- óránként
50,000 $- óránként $- óránként
Text to Speech Neurális1 $- / 80 millió karakterenként $- 1 millió karakterenként
$- / 400 millió karakterenként $- 1 millió karakterenként
$- / 2,000 millió karakterenként $- 1 millió karakterenként

1Ez magában foglalja a valós idejű szintetizálást és a kötegelt szintetizálást előre összeállított, nem HD és nem AOAI neurális hangokkal. A HD-hangok, az AOAI-hangok, a egyedi neurális hang és a Személyes hang nem szerepelnek a csomagban.

2Csak valós idejű diktálás, Folyamatos nyelvazonosítás és Diarizálás bővítményfunkciók, amelyek a kötegelt diktálás részét képezik.

Kötelezettségvállalási szintek – Csatlakoztatott tároló

Kategória Jellemzők Ár (egy hónapra) Kerettúllépés
Speech to Text2 Standard 2,000 $- óránként $- óránként
10,000 $- óránként $- óránként
50,000 $- óránként $- óránként
Egyéni 2,000 $- óránként $- óránként
10,000 $- óránként $- óránként
50,000 $- óránként $- óránként
Továbbfejlesztett bővítményfunkciók:2
  • Nyelvazonosítás
  • Diarizálás
2,000 $- óránként $- óránként
10,000 $- óránként $- óránként
50,000 $- óránként $- óránként
Text to Speech Neurális1 $- / 80 millió karakterenként $- 1 millió karakterenként
$- / 400 millió karakterenként $- 1 millió karakterenként
$- / 2,000 millió karakterenként $- 1 millió karakterenként

1Ez magában foglalja a valós idejű szintetizálást előre összeállított, nem HD és nem AOAI neurális hangokkal. A HD-hangok, az AOAI-hangok és az egyéni hangok (mind a professzionális, mind a személyes hangok) nem szerepelnek a csomagban. A kötegelt szintetizálás nincs belefoglalva.

2A díjszabás a valós idejű és kötegelt használati esetekre vonatkozik. A tárolókhoz nem tartozik külön kötegelt díjszabás.

See the documentation for information on Commitment tiers.

Kötelezettségvállalási szintek – Leválasztott tároló

Sign up to access speech in disconnected containers, or learn more

Kategória Jellemzők Díj (éves) Maximális használat (éves) Előre jelzett használat (havi)
Speech to Text2 Standard $-
$-
A hozzáféréshez regisztráljon
További információ
120.000 óra
600.000 óra
10.000 óra
50.000 óra
Egyéni $-
$-
A hozzáféréshez regisztráljon
További információ
120.000 óra
600.000 óra
10.000 óra
50.000 óra
Továbbfejlesztett bővítményfunkciók:
  • Nyelvazonosítás
  • Diarizálás
$-
$-
120.000 óra
600.000 óra
10.000 óra
50.000 óra
Text to Speech Neurális1 $-
$-
A hozzáféréshez regisztráljon
További információ
4,8 milliárd karakter
24 milliárd karakter
400 millió karakter
2000 millió karakter

1Ez magában foglalja a valós idejű szintetizálást előre összeállított, nem HD és nem AOAI neurális hangokkal. A HD-hangok, az AOAI-hangok és az egyéni hangok (mind a professzionális, mind a személyes hangok) nem szerepelnek a csomagban. A kötegelt szintetizálás nincs belefoglalva.

2A díjszabás a valós idejű és kötegelt használati esetekre vonatkozik. A tárolókhoz nem tartozik külön kötegelt díjszabás.

Ezek a funkciók hamarosan elavulnak, és csak a meglévő ügyfelek használhatják őket. Tekintse meg a részleteket, és ismerje meg, hogyan térhet át az új funkciókra.

Példány Kategória Jellemzők Ár
Ingyenes - Web/tároló
1 párhuzamos kérés
Text to Speech Standard Havonta 5 million millió karakter ingyenes
Egyéni Havonta 5 million millió karakter ingyenes
Végpont-üzemeltetés: Havonta 1 modell ingyenes
Standard - Web/Container
100 párhuzamos kérés az alapmodellhez
20 párhuzamos kérés az egyéni modellhez
Text to Speech Standard $- / 1 millió karakter
Egyéni $- / 1 millió karakter
Végpont-üzemeltetés: $- modellenként és óránként

Az Azure díjszabása és megvásárlási lehetőségei

Vegye fel velünk a kapcsolatot közvetlenül

Ismerje meg az Azure díjszabását. Megismerheti a felhőmegoldásának díjszabását, információt szerezhet a költségoptimalizálásról, és egyéni ajánlatot is kérhet.

Beszéljen egy értékesítési szakértővel

Vásárlási lehetőségek

Az Azure-szolgáltatásokat megvásárolhatja az Azure webhelyén, egy Microsoft-képviselőn keresztül vagy egy Azure-partnertől.

Tekintse át a lehetőségeket

További források

Azure AI Beszéd

További információ a(z) Azure AI Beszéd funkcióiról és képességeiről.

Díjkalkulátor

Felmérheti az Azure-termékek bármilyen kombinációjának használatával járó várható havi költségeit.

Dokumentáció

Műszaki oktatóanyagok, videók és más Azure AI Beszéd háttéranyagok.

    • A beszédfelismerés és a tolmácsolás használatát másodperces alapon számlázzuk.
    • For Text to Speech: usage is billed per character. Check the definition of character in the pricing note.
    • For custom neural voice hosting: usage is billed per endpoint per second. Check details in the pricing note.
    • For personal voice profile storage: usage is billed per voice profile per day. Check details in the pricing note.
    • Text to Speech avatar esetében a használatot másodpercenként számlázzuk.
    • A beszédfelismerés és a szövegfelolvasás (avatart is beleértve) esetében az egyéni modellek végponti üzemeltetését modellenként másodperces alapon számlázzuk.
  • A beszédszolgáltatással a felhasználók saját akusztikai és nyelvi adataikra épített alapmodelleket alakíthatnak át egyéni beszédmodellekké, amelyek diktálásra és tolmácsolásra is használhatók.

  • A nyelvi modell szószekvenciák valószínűségi eloszlását jelenti. A nyelvi modell segíti a rendszert abban, hogy válasszon a hasonló hangzású szószekvenciák közül. Ehhez maguknak a szószekvenciáknak a valószínűségét használja fel. A „recognize speech” és a „wreck a nice beach” például ugyanúgy hangzik, de az első változat sokkal valószínűbb, ezért magasabb pontszámot kap a nyelvi modellben. Ha az alkalmazáshoz várhatóan érkeznek majd olyan lekérdezések, amelyek speciális szókincset használnak (például termékneveket vagy a tipikus beszédben ritkán előforduló szakkifejezéseket), akkor a nyelvi modell testreszabásával nagy valószínűséggel hatékonyabb működés érhető el. Ha például az alkalmazás hangalapú keresést végez az MSDN-ben, valószínű, hogy az olyan kifejezések, mint az „objektumorientált”, a „névtér” vagy a „dot net” gyakrabban fordulnak majd elő, mint más alkalmazások esetében. A nyelvi modell testreszabásával lehetővé válik, hogy a rendszer megtanulja ezeket.

  • Az akusztikai modell besorolást végez: a hanganyag rövid részleteit egy adott nyelv fonémáiként (hangegységeiként) azonosít be. Ezekből a fonémákból állíthatók össze a szavak. Az angol „speech” (beszéd) szó például négy fonémából áll: „sz, p, í, cs”. Ezek a besorolások másodpercenként százas nagyságrendben zajlanak le. Az akusztikai modell testreszabása lehetővé teszi, hogy a rendszer nem tipikus környezetekben jobb hatékonysággal ismerje fel a beszédet. Egy olyan alkalmazásnál például, amelyet egy raktár vagy egy gyár dolgozói használnak, a testreszabott akusztikai modell pontosabb beszédfelismerést tehet lehetővé az ilyen környezetekben található zajok mellett is.

  • Speech service offers a wide range of text-to-speech (TTS) voice fonts, however custom neural voice allows you to build your own custom voice that suits your needs and your brand. Read the blog for more information.

  • Language identification allows you to identify a switch in spoken language and transcribe speech accordingly. This can be applied in scenarios where the audio language is unknown, or when speaker(s) may speak multiple languages. Single Language Identification is available at no additional cost. Continuous Language Identification is an enhanced add-on feature. Visit docs to learn more.

    • Pronunciation assessment evaluates speech pronunciation and gives speakers feedback on the accuracy and fluency of spoken audio. With pronunciation assessment, language learners can practice, get instant feedback, and improve their pronunciation so that they can speak and present with confidence. Educators can use the capability to evaluate pronunciation of multiple speakers in real time. Visit docs to learn more.
    • It is charged as standard Speech to Text, example:
      For evaluation of 8 seconds of speech, you will be charged around $-

Az Azure díjszabásának részleteiről érdeklődjön egy értékesítési szakembernél. Ismerje meg a felhőmegoldásának díjszabását.

Ingyenes felhőszolgáltatásokat és egy $200 értékű kreditet kaphat, mellyel 30 napig ismerkedhet az Azure-ral.

Becslésbe felvéve. Nyomja meg a 'v'-t a kalkulátorban való megtekintéshez