Egységes beszédszolgáltatások diktáláshoz, szövegfelolvasáshoz és tolmácsoláshoz
Az egyesített beszédszolgáltatások beszédfelismerési és beszédgenerálási lehetőségek széles skáláját kínálják, beleértve a diktálást, felolvasást és tolmácsolást. A beszédszolgáltatások beszédfelismerési és beszédgenerálási lehetőségek széles skáláját kínálják, beleértve a diktálást, felolvasást, tolmácsolást és beszélőfelismerést.
Ismerje meg a díjszabási lehetőségeket
Szűrők alkalmazásával testre szabhatja a díjszabási lehetőségeket saját igényei szerint.
Az árak csak becslések, és nem tényleges árajánlatok. A tényleges díjszabás a Microsofttal kötött szerződés típusától, a vásárlás dátumától és a pénznem árfolyamától függően változhat. Az árakat USD-ben számítjuk ki, és az előző hónap utolsó munkanapját megelőző két munkanapon belül rögzített, londoni záró árfolyamok használatával váltjuk át őket. Ha a hónap végét megelőző két munkanap a főbb piacokon munkaszüneti napra esik, az árfolyam-meghatározási nap általában a két munkanap előtti nap. Ez az árfolyam a következő hónapban végrehajtott összes tranzakcióra vonatkozik. Jelentkezzen be az Azure-díjkalkulátorba, a Microsofttal fenntartott jelenlegi program/ajánlata alapján mért díjszabás megtekintéséhez. A díjszabással kapcsolatos további információért vagy árajánlat kéréséhez forduljon egy Azure értékesítési szakértőhöz. Lásd az Azure díjszabásával kapcsolatos gyakori kérdéseket.
Az amerikai államigazgatási szervek jogosultak arra, hogy egy licencelési tanácsadótól vásároljanak Azure Government-szolgáltatásokat előzetes pénzügyi kötelezettségvállalás nélkül, vagy pedig közvetlenül egy online használatalapú előfizetés keretében.
Fontos – A R$-ban megadott ár csak viszonyítási érték; nemzetközi tranzakcióról lévén szó, a végső árat az átváltási árfolyamok, illetve a pénzügyi műveleteket terhelő adók befolyásolják. Emellett eNF igazolást sem állítanak ki.
Az amerikai államigazgatási szervek jogosultak arra, hogy egy licencelési tanácsadótól vásároljanak Azure Government-szolgáltatásokat előzetes pénzügyi kötelezettségvállalás nélkül, vagy pedig közvetlenül egy online használatalapú előfizetés keretében.
Fontos – A R$-ban megadott ár csak viszonyítási érték; nemzetközi tranzakcióról lévén szó, a végső árat az átváltási árfolyamok, illetve a pénzügyi műveleteket terhelő adók befolyásolják. Emellett eNF igazolást sem állítanak ki.
Ingyenes (F0)
| Kategória | Jellemzők | Ár |
|---|---|---|
| Beszédfelismerés (másodpercalapú számlázás) |
Standard | 5 audióóra ingyen havonta3 |
| Egyéni |
5 audióóra ingyen havonta3 Végpont-üzemeltetés: Havonta 1 modell ingyenes1 |
|
| Beszédátírás – többcsatornás audió ELŐZETES VERZIÓ | 5 audióóra ingyen havonta | |
| Szövegfelolvasás (karakterenkénti számlázás) |
Neurális | Havonta 0.5 million millió karakter ingyenes |
| Tolmácsolás (másodpercalapú számlázás) |
Standard | 5 audióóra ingyen havonta |
| Beszélőfelismerés (tranzakciónkénti számlázás) |
Hangalapú azonosítás2 | Havi 10,000 ingyenes tranzakció |
| Beszélőfelismerés2 | Havi 10,000 ingyenes tranzakció | |
| Hangprofil tárolása | Havi 10,000 ingyenes tranzakció |
See the documentation for information on quotas, limits and instructions on how to increase concurrent requests.
1A használaton kívüli modellek automatikusan le lesznek szerelve 7 nap múltán.
2Speaker Recognition is a limited access feature with a need to apply for access.
3A diktálás ingyenes hangideje a Standard és az Egyéni verzió között van megosztva, a Batch nem támogatott.
Használatalapú fizetés: csak a használt funkciókért kell fizetnie.
| Kategória | Ár | |
|---|---|---|
| Voice Live Pro (m tokenenkénti számlázás)VL1 | Szöveg |
Bemenet: $- Gyorsítótárazott bemenet: $- Kimenet: $- |
| Hang Azure AI Beszéddel – Standard |
Bemenet: $- Gyorsítótárazott bemenet: $- Kimenet: $- |
|
| Hang Azure AI Beszéddel – EgyéniVL2 |
Kimenet: $- |
|
| Natív hang GPT-4o-Realtime protokollal |
Bemenet: $- Gyorsítótárazott bemenet: $- Kimenet: $- |
|
| Voice Live Basic (m tokenenkénti számlázás)VL1 | Szöveg |
Bemenet: $- Gyorsítótárazott bemenet: $- Kimenet: $- |
| Hang Azure AI Beszéddel – Standard |
Bemenet: $- Gyorsítótárazott bemenet: $- Kimenet: $- |
|
| Hang Azure AI Beszéddel – EgyéniVL2 |
Kimenet: $- |
|
| Natív hang GPT-4o Mini-Realtime protokollal |
Bemenet: $- Gyorsítótárazott bemenet: $- Kimenet: $- |
|
| Voice Live Pro (m tokenenkénti számlázás)VL1 | Szöveg |
Bemenet: $- Gyorsítótárazott bemenet: $- Kimenet: $- |
| Hang Azure AI Beszéddel – Standard |
Bemenet: $- Gyorsítótárazott bemenet: $- Kimenet: $- |
|
| Hang Azure AI Beszéddel – EgyéniVL2 |
Kimenet: $- |
|
| Natív hang a Phi-MM segítségével |
Bemenet: $- Gyorsítótárazott bemenet: $- |
|
| Beszédfelismerés (másodpercalapú számlázás) |
Szabványos átírás |
Valós idejű átírás: $- óránként Gyors átírás: $- óránként9 Kötegelt átírás: $- óránként1 |
| Egyéni átírás |
Valós idejű átírás: $- óránként Kötegelt átírás: $- óránként1 Végpont-üzemeltetés: $- modellenként és óránként Egyéni beszédfelismerés betanítása5: $- számítási óránként |
|
Továbbfejlesztett bővítményfunkciók:
|
Valós idejű: $- óránként és funkciónként Kötegelés (folyamatos nyelvazonosítás, naplóba vezetés): a standard/egyéni csomag része (külön díj nélkül) |
|
| Beszédátírás – többcsatornás audió ELŐZETES VERZIÓ | $- óránként2 | |
| Tolmácsolás (másodpercalapú számlázás) |
Valós idejű Speech Translation | $- audióóránként3 |
| Live Interpreter |
Input audio: $- audióóránként Output text: $- / 1 millió karakter Output audio (Standard voice): $- per audio hourLI Output audio (Custom voice): $- per audio hourLI |
|
| Videófordítás |
Bemeneti videó: $- óránként Kimeneti videó (standard hang): $- óránként Kimeneti videó (személyes hang): $- óránként |
|
| Text to Speech8 | Normál hang |
Neurális (valós idejű és kötegelt): $- / 1 millió karakter Neurális HD (valós idejű és kötegelt)4: $- / 1 millió karakter |
| Egyéni beszédhang |
Szakmai hang:
Szintetizálás (valós idejű és kötegelt): $- 1 millió karakterenként
Szintetizálás (neurális hálózat HD és kötegelt): $- 1 millió karakterenként Hangmodell-betanítás: $- számítási óránként, legfeljebb $- betanításonként Végpont-üzemeltetés: $- modellenként és óránként |
|
|
Személyes hang6:
Szintetizálás (valós idejű és kötegelt): $- 1 millió karakterenként
Hanglétrehozás: ingyenes Hangprofil tárterülete: $- 1000 hangprofilonként havonta |
||
| Továbbfejlesztett bővítményfunkció: Avatar |
Standard:
Interaktív avatar (valós idejű): $- percenként
Interaktív 4K avatar (valós idejű): $- percenként Avatarvideó (kötegelt): $- percenként 4K avatarvideó (kötegelt): $- percenként |
|
|
Egyéni:
Avatarmodell betanítása: $- számítási óránként
Interaktív avatar (valós idejű): $- percenként Interaktív 4K avatar (valós idejű): $- percenként Avatarvideó (kötegelt): $- percenként 4K avatarvideó (kötegelt): $- percenként Végpontüzemeltetés: modellenként óránként $- |
||
| Beszélőfelismerés (tranzakciónkénti számlázás) |
Hangalapú azonosítás7 | $- 1,000 tranzakciónként |
| Beszélőfelismerés7 | $- 1,000 tranzakciónként | |
| Hangprofil tárolása | $-/1,000 hangprofil (havi 10,000 ingyenes hangprofil) | |
See the documentation for information on quotas, limits and instructions on how to increase concurrent requests.
A diktálási órákat a szolgáltatásnak küldött hangórák alapján mérjük, másodpercekben számlázva.
1To take advantage of this new Batch Transcription pricing you need to use Speech to text REST API V3.2 or later versions. See Speech to text REST API for information.
2Ez a nyilvános előzetes verzió díjszabását tükrözi.
3This price includes 1 audio input and output, up to 2 text translation language using standard or custom Speech to Text and standard Translation. For custom Translation or 3+ translation languages, please reference the Azure AI Translator Text Translation pricing page.
4Selected text to speech voices are available via two model variants: Neural and NeuralHD. Learn more here.
5Az egyéni beszédfelismerés betanítása a 1, 2023. október 1-jén vagy azt követően kiadott alapmodellek testreszabására vonatkozik.
6Personal Voice is a limited access feature restricted to certain pre-approved use cases only, with a need to applying for access. To learn more about the service, check the document.
7Speaker Recognition is a limited access feature with a need to apply for access.
8Szövegfelolvasás: a beszédszintézis használatának számlázása karakterenként történik. Az avatar számlázása másodpercenként történik. A betanítás és a modellüzemeltetés számlázása másodpercenként történik.
9To use Fast Transcription you need to use Speech to text REST API 2024-05-15-preview or later versions. See Speech to text REST API for information.
VL1With Voice Live Plus, developers can choose from LLMs such as GPT-4o-Realtime, GPT-4o and GPT-4.1 models. With Voice Live Basic, developers can choose from smaller LLMs such as GPT-4o-Mini-Realtime, GPT-4o Mini and GPT-4.1 Mini models. With Voice Live Lite, developers can choose from SLMs and equivalent models such as GPT-4.1 Nano and Phi models. To learn more how Voice Live API pricing works, click here.
VL2You will be charged separately for custom voice model training and hosting. Refer to the ‘Text to Speech – Custom Voice – Professional’ pricing for details. Custom voice is a limited access feature. Learn more about how to create custom voices.
LIThis price includes text output
Kötelezettségvállalási szintek – Azure – Standard
| Kategória | Jellemzők | Ár (egy hónapra) | Kerettúllépés |
|---|---|---|---|
| Speech to Text | Standard | 2,000 $- óránként | $- óránként |
| 10,000 $- óránként | $- óránként | ||
| 50,000 $- óránként | $- óránként | ||
| Egyéni | 2,000 $- óránként | $- óránként | |
| 10,000 $- óránként | $- óránként | ||
| 50,000 $- óránként | $- óránként | ||
Továbbfejlesztett bővítményfunkciók:2
|
2,000 $- óránként | $- óránként | |
| 10,000 $- óránként | $- óránként | ||
| 50,000 $- óránként | $- óránként | ||
| Text to Speech | Neurális1 | $- / 80 millió karakterenként | $- 1 millió karakterenként |
| $- / 400 millió karakterenként | $- 1 millió karakterenként | ||
| $- / 2,000 millió karakterenként | $- 1 millió karakterenként |
1Ez magában foglalja a valós idejű szintetizálást és a kötegelt szintetizálást előre összeállított, nem HD és nem AOAI neurális hangokkal. A HD-hangok, az AOAI-hangok, a egyedi neurális hang és a Személyes hang nem szerepelnek a csomagban.
2Csak valós idejű diktálás, Folyamatos nyelvazonosítás és Diarizálás bővítményfunkciók, amelyek a kötegelt diktálás részét képezik.
Kötelezettségvállalási szintek – Csatlakoztatott tároló
| Kategória | Jellemzők | Ár (egy hónapra) | Kerettúllépés |
|---|---|---|---|
| Speech to Text2 | Standard | 2,000 $- óránként | $- óránként |
| 10,000 $- óránként | $- óránként | ||
| 50,000 $- óránként | $- óránként | ||
| Egyéni | 2,000 $- óránként | $- óránként | |
| 10,000 $- óránként | $- óránként | ||
| 50,000 $- óránként | $- óránként | ||
Továbbfejlesztett bővítményfunkciók:2
|
2,000 $- óránként | $- óránként | |
| 10,000 $- óránként | $- óránként | ||
| 50,000 $- óránként | $- óránként | ||
| Text to Speech | Neurális1 | $- / 80 millió karakterenként | $- 1 millió karakterenként |
| $- / 400 millió karakterenként | $- 1 millió karakterenként | ||
| $- / 2,000 millió karakterenként | $- 1 millió karakterenként |
1Ez magában foglalja a valós idejű szintetizálást előre összeállított, nem HD és nem AOAI neurális hangokkal. A HD-hangok, az AOAI-hangok és az egyéni hangok (mind a professzionális, mind a személyes hangok) nem szerepelnek a csomagban. A kötegelt szintetizálás nincs belefoglalva.
2A díjszabás a valós idejű és kötegelt használati esetekre vonatkozik. A tárolókhoz nem tartozik külön kötegelt díjszabás.
See the documentation for information on Commitment tiers.
Kötelezettségvállalási szintek – Leválasztott tároló
Sign up to access speech in disconnected containers, or learn more
| Kategória | Jellemzők | Díj (éves) | Maximális használat (éves) | Előre jelzett használat (havi) |
|---|---|---|---|---|
| Speech to Text2 | Standard |
$-
$- A hozzáféréshez regisztráljon További információ |
120.000 óra
600.000 óra |
10.000 óra
50.000 óra |
| Egyéni |
$-
$- A hozzáféréshez regisztráljon További információ |
120.000 óra
600.000 óra |
10.000 óra
50.000 óra |
|
Továbbfejlesztett bővítményfunkciók:
|
$-
$- |
120.000 óra
600.000 óra |
10.000 óra
50.000 óra |
|
| Text to Speech | Neurális1 |
$-
$- A hozzáféréshez regisztráljon További információ |
4,8 milliárd karakter
24 milliárd karakter |
400 millió karakter
2000 millió karakter |
1Ez magában foglalja a valós idejű szintetizálást előre összeállított, nem HD és nem AOAI neurális hangokkal. A HD-hangok, az AOAI-hangok és az egyéni hangok (mind a professzionális, mind a személyes hangok) nem szerepelnek a csomagban. A kötegelt szintetizálás nincs belefoglalva.
2A díjszabás a valós idejű és kötegelt használati esetekre vonatkozik. A tárolókhoz nem tartozik külön kötegelt díjszabás.
Ezek a funkciók hamarosan elavulnak, és csak a meglévő ügyfelek használhatják őket. Tekintse meg a részleteket, és ismerje meg, hogyan térhet át az új funkciókra.
| Példány | Kategória | Jellemzők | Ár |
|---|---|---|---|
| Ingyenes - Web/tároló 1 párhuzamos kérés |
Text to Speech | Standard | Havonta 5 million millió karakter ingyenes |
| Egyéni |
Havonta 5 million millió karakter ingyenes Végpont-üzemeltetés: Havonta 1 modell ingyenes |
||
| Standard - Web/Container 100 párhuzamos kérés az alapmodellhez 20 párhuzamos kérés az egyéni modellhez |
Text to Speech | Standard | $- / 1 millió karakter |
| Egyéni |
$- / 1 millió karakter Végpont-üzemeltetés: $- modellenként és óránként |
Az Azure díjszabása és megvásárlási lehetőségei
Vegye fel velünk a kapcsolatot közvetlenül
Ismerje meg az Azure díjszabását. Megismerheti a felhőmegoldásának díjszabását, információt szerezhet a költségoptimalizálásról, és egyéni ajánlatot is kérhet.
Beszéljen egy értékesítési szakértővelVásárlási lehetőségek
Az Azure-szolgáltatásokat megvásárolhatja az Azure webhelyén, egy Microsoft-képviselőn keresztül vagy egy Azure-partnertől.
Tekintse át a lehetőségeketTovábbi források
Azure AI Beszéd
További információ a(z) Azure AI Beszéd funkcióiról és képességeiről.
Díjkalkulátor
Felmérheti az Azure-termékek bármilyen kombinációjának használatával járó várható havi költségeit.
Dokumentáció
Műszaki oktatóanyagok, videók és más Azure AI Beszéd háttéranyagok.
Gyakori kérdések
-
- A beszédfelismerés és a tolmácsolás használatát másodperces alapon számlázzuk.
- For Text to Speech: usage is billed per character. Check the definition of character in the pricing note.
- For custom neural voice hosting: usage is billed per endpoint per second. Check details in the pricing note.
- For personal voice profile storage: usage is billed per voice profile per day. Check details in the pricing note.
- Text to Speech avatar esetében a használatot másodpercenként számlázzuk.
- A beszédfelismerés és a szövegfelolvasás (avatart is beleértve) esetében az egyéni modellek végponti üzemeltetését modellenként másodperces alapon számlázzuk.
-
A beszédszolgáltatással a felhasználók saját akusztikai és nyelvi adataikra épített alapmodelleket alakíthatnak át egyéni beszédmodellekké, amelyek diktálásra és tolmácsolásra is használhatók.
-
A nyelvi modell szószekvenciák valószínűségi eloszlását jelenti. A nyelvi modell segíti a rendszert abban, hogy válasszon a hasonló hangzású szószekvenciák közül. Ehhez maguknak a szószekvenciáknak a valószínűségét használja fel. A „recognize speech” és a „wreck a nice beach” például ugyanúgy hangzik, de az első változat sokkal valószínűbb, ezért magasabb pontszámot kap a nyelvi modellben. Ha az alkalmazáshoz várhatóan érkeznek majd olyan lekérdezések, amelyek speciális szókincset használnak (például termékneveket vagy a tipikus beszédben ritkán előforduló szakkifejezéseket), akkor a nyelvi modell testreszabásával nagy valószínűséggel hatékonyabb működés érhető el. Ha például az alkalmazás hangalapú keresést végez az MSDN-ben, valószínű, hogy az olyan kifejezések, mint az „objektumorientált”, a „névtér” vagy a „dot net” gyakrabban fordulnak majd elő, mint más alkalmazások esetében. A nyelvi modell testreszabásával lehetővé válik, hogy a rendszer megtanulja ezeket.
-
Az akusztikai modell besorolást végez: a hanganyag rövid részleteit egy adott nyelv fonémáiként (hangegységeiként) azonosít be. Ezekből a fonémákból állíthatók össze a szavak. Az angol „speech” (beszéd) szó például négy fonémából áll: „sz, p, í, cs”. Ezek a besorolások másodpercenként százas nagyságrendben zajlanak le. Az akusztikai modell testreszabása lehetővé teszi, hogy a rendszer nem tipikus környezetekben jobb hatékonysággal ismerje fel a beszédet. Egy olyan alkalmazásnál például, amelyet egy raktár vagy egy gyár dolgozói használnak, a testreszabott akusztikai modell pontosabb beszédfelismerést tehet lehetővé az ilyen környezetekben található zajok mellett is.
-
Speech service offers a wide range of text-to-speech (TTS) voice fonts, however custom neural voice allows you to build your own custom voice that suits your needs and your brand. Read the blog for more information.
-
Language identification allows you to identify a switch in spoken language and transcribe speech accordingly. This can be applied in scenarios where the audio language is unknown, or when speaker(s) may speak multiple languages. Single Language Identification is available at no additional cost. Continuous Language Identification is an enhanced add-on feature. Visit docs to learn more.
-
- Pronunciation assessment evaluates speech pronunciation and gives speakers feedback on the accuracy and fluency of spoken audio. With pronunciation assessment, language learners can practice, get instant feedback, and improve their pronunciation so that they can speak and present with confidence. Educators can use the capability to evaluate pronunciation of multiple speakers in real time. Visit docs to learn more.
- It is charged as standard Speech to Text, example:
For evaluation of 8 seconds of speech, you will be charged around $-
Az Azure díjszabásának részleteiről érdeklődjön egy értékesítési szakembernél. Ismerje meg a felhőmegoldásának díjszabását.
Ingyenes felhőszolgáltatásokat és egy $200 értékű kreditet kaphat, mellyel 30 napig ismerkedhet az Azure-ral.