Jednotné hlasové služby pro převod řeči na text, textu na řeč a překlad řeči
Sjednocené hlasové služby poskytují širokou škálu možností rozpoznávání a generování řeči, včetně přepisu řeči, převodu textu na řeč a překladu řeči. Služba Speech poskytuje širokou škálu možností rozpoznávání a generování řeči, včetně přepisu řeči, převodu textu na řeč, překladu řeči a rozpoznávání mluvčího.
Projděte si cenové možnosti
Využijte filtry a přizpůsobte cenové možnosti vašim potřebám.
Ceny jsou pouze odhadované a nepředstavují skutečné cenové nabídky. Skutečné ceny se můžou lišit v závislosti na typu smlouvy uzavírané se společností Microsoft, datu nákupu a měnovém kurzu. Ceny se vypočítávají na základě amerických dolarů a převádí pomocí londýnských uzavíracích spotových kurzů z posledních dvou pracovních dnů předcházejících poslednímu pracovnímu dni předchozího měsíce. Pokud dva pracovní dny před koncem měsíce spadají na státní svátek na hlavních trzích, den nastavení sazby obvykle představuje den bezprostředně předcházející dvěma pracovním dnům. Tato sazba se vztahuje na všechny transakce během nadcházejícího měsíce. Přihlaste se do cenové kalkulačky Azure a prohlédněte si ceny na základě vašeho aktuálního programu nebo nabídky od společnosti Microsoft. Pokud chcete získat více informací o cenách nebo si vyžádat cenovou nabídku, kontaktujte obchodního specialistu Azure. Další informace najdete v častých otázkách týkající se cen Azure.
Entity státní správy USA mají nárok na zakoupení služeb Azure Government od poskytovatele řešení licencí bez jakýchkoli finančních závazků předem nebo přímo prostřednictvím online předplatného s průběžnými platbami.
Důležité – Cena v R$ je jenom referenční. Jde o mezinárodní transakci a konečná cena závisí na směnných kurzech a na tom, jestli se bude účtovat daň IOF. Nebude se vydávat doklad eNF.
Entity státní správy USA mají nárok na zakoupení služeb Azure Government od poskytovatele řešení licencí bez jakýchkoli finančních závazků předem nebo přímo prostřednictvím online předplatného s průběžnými platbami.
Důležité – Cena v R$ je jenom referenční. Jde o mezinárodní transakci a konečná cena závisí na směnných kurzech a na tom, jestli se bude účtovat daň IOF. Nebude se vydávat doklad eNF.
Free (F0)
| Kategorie | Funkce | Cena |
|---|---|---|
| Převod řeči na text (fakturace za sekundu) |
Standard | 5 hodin zvuku zdarma za měsíc3 |
| Vlastní |
5 hodin zvuku zdarma za měsíc3 Hostování koncového bodu: 1 model zdarma za měsíc1 |
|
| Vícekanálový zvuk k přepisu konverzace PREVIEW | 5 hodin zvuku zdarma za měsíc | |
| Převod textu na řeč (fakturace podle znaků) |
Neurální | 0.5 million znaků zdarma za měsíc |
| Překlad řeči (fakturace za sekundu) |
Standard | 5 hodin zvuku zdarma za měsíc |
| Rozpoznávání mluvčího (podle fakturace transakce) |
Ověření mluvčího2 | 10,000 transakcí zdarma za měsíc |
| Identifikace mluvčího2 | 10,000 transakcí zdarma za měsíc | |
| Úložiště hlasového profilu | 10,000 transakcí zdarma za měsíc |
See the documentation for information on quotas, limits and instructions on how to increase concurrent requests.
1Nepoužité modely budou automaticky vyřazeny z provozu po 7 dnech.
2Speaker Recognition is a limited access feature with a need to apply for access.
3Hodiny bezplatného zvuku pro převod řeči na text se sdílí mezi standardem a vlastním. Batch se nepodporuje.
Průběžné platby: Plaťte jen za to, co využijete.
| Kategorie | Cena | |
|---|---|---|
| Voice Live Pro (fakturace tokenů za min.)VL1 | Text |
Vstup: $- Vstup v mezipaměti: $- Výstup: $- |
| Zvuk se službou Azure AI Speech – Standard |
Vstup: $- Vstup v mezipaměti: $- Výstup: $- |
|
| Zvuk se službou Azure AI Speech – vlastníVL2 |
Výstup: $- |
|
| Nativní zvuk s GPT-4o-Realtime |
Vstup: $- Vstup v mezipaměti: $- Výstup: $- |
|
| Voice Live Basic (fakturace tokenů za min.)VL1 | Text |
Vstup: $- Vstup v mezipaměti: $- Výstup: $- |
| Zvuk se službou Azure AI Speech – Standard |
Vstup: $- Vstup v mezipaměti: $- Výstup: $- |
|
| Zvuk se službou Azure AI Speech – vlastníVL2 |
Výstup: $- |
|
| Nativní zvuk s GPT-4o Mini-Realtime |
Vstup: $- Vstup v mezipaměti: $- Výstup: $- |
|
| Voice Live Lite (fakturace tokenů za min.)VL1 | Text |
Vstup: $- Vstup v mezipaměti: $- Výstup: $- |
| Zvuk se službou Azure AI Speech – Standard |
Vstup: $- Vstup v mezipaměti: $- Výstup: $- |
|
| Zvuk se službou Azure AI Speech – vlastníVL2 |
Výstup: $- |
|
| Nativní zvuk s Phi-MM |
Vstup: $- Vstup v mezipaměti: $- |
|
| Převod řeči na text (fakturace za sekundu) |
Standardní přepis |
Přepis v reálném čase: $- za hodinu Rychlý přepis: $- za hodinu9 Dávkový přepis: $- za hodinu1 |
| Vlastní přepis |
Přepis v reálném čase: $- za hodinu Dávkový přepis: $- za hodinu1 Hostování koncového bodu: $- za model a hodinu Trénování služby Custom Speech5: $- za výpočetní hodinu |
|
Vylepšené doplňkové funkce:
|
V reálném čase: $- za hodinu na funkci Dávka (průběžná identifikace jazyka, diarizace): Zahrnuto v: Standard/Vlastní (bez příplatku) |
|
| Vícekanálový zvuk k přepisu konverzace PREVIEW | $- za hodinu2 | |
| Překlad řeči (fakturace za sekundu) |
Překlad řeči v reálném čase | $- za hodinu zvuku3 |
| Live Interpreter |
Input audio: $- za hodinu zvuku Output text: $- za 1 milion znaků Output audio (Standard voice): $- per audio hourLI Output audio (Custom voice): $- per audio hourLI |
|
| Překlad videa |
Vstupní video: $- za hodinu Výstupní video (standardní hlas): $- za hodinu Výstupní video (osobní hlas): $- za hodinu |
|
| Převod textu na řeč8 | Standardní hlas |
Neurální (v reálném čase a dávkové použití): $- za 1 milion znaků Neurální HD (v reálném čase a dávkové použití)4: $- za 1 milion znaků |
| Custom Voice |
Profesionální hlas:
Syntéza (v reálném čase a dávkové použití): $- na 1 milion znaků
Syntéza (neurální HD v reálném čase a dávkově): $- na 1 milion znaků Trénování hlasového modelu: $- za výpočetní hodinu, až $- za natrénování Hostování koncového bodu: $- za model a hodinu |
|
|
Osobní hlas6:
Syntéza (v reálném čase a dávkové použití): $- na 1 milion znaků
Vytváření hlasu: zdarma Úložiště hlasových profilů: $- za 1 000 hlasových profilů za měsíc |
||
| Vylepšené doplňkové funkce: avatar |
Standard:
Interaktivní avatar (v reálném čase): $- za minutu
Interaktivní avatar 4K (v reálném čase): $- za minutu Video avatara (dávkové použití): $- za minutu 4K video avatara (dávkové): $- za minutu |
|
|
Vlastní:
Trénování modelu avatara: $- za výpočetní hodinu
Interaktivní avatar (v reálném čase): $- za minutu Interaktivní avatar 4K (v reálném čase): $- za minutu Video avatara (dávkové použití): $- za minutu 4K video avatara (dávkové): $- za minutu Hostování koncového bodu: $- za model za hodinu |
||
| Rozpoznávání mluvčího (podle fakturace transakce) |
Ověření mluvčího7 | $- za 1,000 transakcí |
| Identifikace mluvčího7 | $- za 1,000 transakcí | |
| Úložiště hlasového profilu | $- za 1,000 hlasových profilů (10,000 hlasových profilů zdarma za měsíc) | |
See the documentation for information on quotas, limits and instructions on how to increase concurrent requests.
Hodiny převodu řeči na text se měří jako hodiny zvuku odeslaného do služby, které se účtují po sekundách.
1To take advantage of this new Batch Transcription pricing you need to use Speech to text REST API V3.2 or later versions. See Speech to text REST API for information.
2To odpovídá cenám verze Public Preview.
3This price includes 1 audio input and output, up to 2 text translation language using standard or custom Speech to Text and standard Translation. For custom Translation or 3+ translation languages, please reference the Azure AI Translator Text Translation pricing page.
4Selected text to speech voices are available via two model variants: Neural and NeuralHD. Learn more here.
5Custom Speech Training se používá při přizpůsobování jakéhokoli základního modelu vydaného 1. října 2023 nebo později.
6Personal Voice is a limited access feature restricted to certain pre-approved use cases only, with a need to applying for access. To learn more about the service, check the document.
7Speaker Recognition is a limited access feature with a need to apply for access.
8Převod textu na řeč: Využití syntézy řeči se účtuje podle znaků. Avatar je účtován za sekundu. Trénování a hostování modelů se účtují za sekundu.
9To use Fast Transcription you need to use Speech to text REST API 2024-05-15-preview or later versions. See Speech to text REST API for information.
VL1With Voice Live Plus, developers can choose from LLMs such as GPT-4o-Realtime, GPT-4o and GPT-4.1 models. With Voice Live Basic, developers can choose from smaller LLMs such as GPT-4o-Mini-Realtime, GPT-4o Mini and GPT-4.1 Mini models. With Voice Live Lite, developers can choose from SLMs and equivalent models such as GPT-4.1 Nano and Phi models. To learn more how Voice Live API pricing works, click here.
VL2You will be charged separately for custom voice model training and hosting. Refer to the ‘Text to Speech – Custom Voice – Professional’ pricing for details. Custom voice is a limited access feature. Learn more about how to create custom voices.
LIThis price includes text output
Vrstvy závazku – Azure – Standard
| Kategorie | Funkce | Cena (za měsíc) | Nadlimitní využití |
|---|---|---|---|
| Převod řeči na text | Standard | $- za 2,000 hod | $- za hodinu |
| $- za 10,000 hod | $- za hodinu | ||
| $- za 50,000 hod | $- za hodinu | ||
| Vlastní | $- za 2,000 hod | $- za hodinu | |
| $- za 10,000 hod | $- za hodinu | ||
| $- za 50,000 hod | $- za hodinu | ||
Vylepšené doplňkové funkce:2
|
$- za 2,000 hod | $- za hodinu | |
| $- za 10,000 hod | $- za hodinu | ||
| $- za 50,000 hod | $- za hodinu | ||
| Převod textu na řeč | Neurální1 | $- za 80 mil. znaků | $- na 1 mil. znaků |
| $- za 400 mil. znaků | $- na 1 mil. znaků | ||
| $- za 2,000 mil. znaků | $- na 1 mil. znaků |
1Zahrnuje syntézu v reálném čase i dávkovou syntézu s předem vytvořenými neurálními hlasy, které nevyužívají HD ani AOAI. Nezahrnuje hlasy HD, hlasy AOAI, vlastní neurální hlas ani osobní hlas.
2Funkce převodu řeči na text pouze v reálném čase, průběžné identifikace jazyka a doplňkové funkce diarizace jsou součástí dávkového převodu řeči na text.
Vrstvy závazku – připojený kontejner
| Kategorie | Funkce | Cena (za měsíc) | Nadlimitní využití |
|---|---|---|---|
| Převod řeči na text2 | Standard | $- za 2,000 hod | $- za hodinu |
| $- za 10,000 hod | $- za hodinu | ||
| $- za 50,000 hod | $- za hodinu | ||
| Vlastní | $- za 2,000 hod | $- za hodinu | |
| $- za 10,000 hod | $- za hodinu | ||
| $- za 50,000 hod | $- za hodinu | ||
Vylepšené doplňkové funkce:2
|
$- za 2,000 hod | $- za hodinu | |
| $- za 10,000 hod | $- za hodinu | ||
| $- za 50,000 hod | $- za hodinu | ||
| Převod textu na řeč | Neurální1 | $- za 80 mil. znaků | $- na 1 mil. znaků |
| $- za 400 mil. znaků | $- na 1 mil. znaků | ||
| $- za 2,000 mil. znaků | $- na 1 mil. znaků |
1Zahrnuje syntézu v reálném čase s předem vytvořenými neurálními hlasy, které nevyužívají HD ani AOAI. Nezahrnuje hlasy HD, hlasy AOAI ani vlastní hlasy (profesionální ani osobní). Nezahrnuje dávkovou syntézu.
2Ceny se vztahují na případy použití v reálném čase a na případy dávkového použití. Pro kontejnery nejsou k dispozici žádné samostatné ceny za dávku.
See the documentation for information on Commitment tiers.
Vrstvy závazku – odpojený kontejner
Sign up to access speech in disconnected containers, or learn more
| Kategorie | Funkce | Cena (za rok) | Maximální využití (za rok) | Předpokládané využití (za měsíc) |
|---|---|---|---|---|
| Převod řeči na text2 | Standard |
$-
$- Zaregistrovat se a získat přístup Další informace |
120 000 hodin
600 000 hodin |
10 000 hodin
50 000 hodin |
| Vlastní |
$-
$- Zaregistrovat se a získat přístup Další informace |
120 000 hodin
600 000 hodin |
10 000 hodin
50 000 hodin |
|
Vylepšené doplňkové funkce:
|
$-
$- |
120 000 hodin
600 000 hodin |
10 000 hodin
50 000 hodin |
|
| Převod textu na řeč | Neurální1 |
$-
$- Zaregistrovat se a získat přístup Další informace |
4,8 mld. znaků
24 mld. znaků |
400 mil. znaků
2 000 mil. znaků |
1Zahrnuje syntézu v reálném čase s předem vytvořenými neurálními hlasy, které nevyužívají HD ani AOAI. Nezahrnuje hlasy HD, hlasy AOAI ani vlastní hlasy (profesionální ani osobní). Nezahrnuje dávkovou syntézu.
2Ceny se vztahují na případy použití v reálném čase a na případy dávkového použití. Pro kontejnery nejsou k dispozici žádné samostatné ceny za dávku.
Tyto funkce jsou zastaralé a dostupné jenom pro stávající zákazníky. Projděte si podrobnosti a zjistěte, jak migrovat na nové funkce..
| Instance | Kategorie | Funkce | Cena |
|---|---|---|---|
| Zdarma - Web/kontejner 1 souběžný požadavek |
Převod textu na řeč | Standard | 5 million znaků zdarma za měsíc |
| Vlastní |
5 million znaků zdarma za měsíc Hostování koncového bodu: 1 model zdarma za měsíc |
||
| Standard – web/kontejner 100 souběžných požadavků pro základní model 20 souběžných požadavků pro vlastní model |
Převod textu na řeč | Standard | $- za 1 milion znaků |
| Vlastní |
$- za 1 milion znaků Hostování koncového bodu: $- za model a hodinu |
Možnosti nákupu a ceny služeb Azure
Spojte se s námi přímo
Projděte si ceny Azure. Projděte si ceny cloudového řešení, seznamte se s optimalizací nákladů a vyžádejte si vlastní návrh.
Spojte se s prodejním specialistouPodívejte se na možnosti nákupu
Služby Azure můžete nakoupit prostřednictvím webu Azure, zástupce Microsoftu nebo partnera Azure.
Projít možnostiDalší prostředky
Azure AI Speech
Další informace o funkcích a možnostech produktu Azure AI Speech
Cenová kalkulačka
Odhadněte očekávané měsíční náklady na používání libovolné kombinace produktů Azure.
Dokumentace
Projděte si technické výukové programy, videa a další materiály k produktu Azure AI Speech
Nejčastější dotazy
-
- V případě převodu řeči na text a překlad řeči se využití účtuje po sekundách.
- For Text to Speech: usage is billed per character. Check the definition of character in the pricing note.
- For custom neural voice hosting: usage is billed per endpoint per second. Check details in the pricing note.
- For personal voice profile storage: usage is billed per voice profile per day. Check details in the pricing note.
- U avatara převodu textu na řeč se využití účtuje po sekundách.
- Pro převod řeči na text a textu na řeč (včetně avatara) se hostování koncových bodů pro vlastní modely účtuje za sekundu a model.
-
Služba Speech umožňuje uživatelům přizpůsobit základní modely na základě vlastních akustických a jazykových dat a vytvářet tak modely řeči, které je možné použít v překladu řeči na text i překladu řeči.
-
Jazykový model je pravděpodobnostní rozdělení přes posloupnosti slov. Jazykový model pomáhá systému zvolit takovou posloupnost slov, která zní podobně, a to na základě pravděpodobnosti jednotlivých posloupností slov. Například posloupnosti „recognize speech“ a „wreck a nice beach“ znějí podobně, ale výskyt první z nich je mnohem pravděpodobnější, takže jí bude jazykovým modelem přiřazené vyšší ohodnocení. Pokud očekáváte, že hlasové dotazy na vaši aplikaci budou obsahovat určité slovníkové položky, jako jsou názvy produktů nebo žargon, který se v běžné řeči vyskytuje zřídka, je pravděpodobné, že úpravou jazykového modelu můžete výkon zlepšit. Pokud například vytváříte aplikaci umožňující hlasové dotazy na web MSDN, je pravděpodobné, že termíny jako „object-oriented“, „namespace“ nebo „dot net“ se budou vyskytovat častěji než v klasických hlasových aplikacích. Přizpůsobení jazykového modelu umožní systému se to naučit.
-
Akustický model je klasifikátor, který označuje krátké zvukové fragmenty jedním z několika fonémů, nebo zvukových jednotek, v každém jazyce. Tyto fonémy lze sestavit tak, aby tvořily slova. Například slovo „speech“ je tvořeno čtyřmi fonémy „s p iy ch“. Tyto klasifikace se provádějí řádově stokrát za sekundu. Přizpůsobení akustického modelu může systému umožnit naučit se lépe rozpoznávat řeč v atypických prostředích. Pokud máte například aplikaci, která je určená pracovníkům ve skladu nebo v továrně, přizpůsobený akustický model může přesněji rozpoznat řeč v přítomnosti dalších zvuků z tohoto prostředí.
-
Speech service offers a wide range of text-to-speech (TTS) voice fonts, however custom neural voice allows you to build your own custom voice that suits your needs and your brand. Read the blog for more information.
-
Language identification allows you to identify a switch in spoken language and transcribe speech accordingly. This can be applied in scenarios where the audio language is unknown, or when speaker(s) may speak multiple languages. Single Language Identification is available at no additional cost. Continuous Language Identification is an enhanced add-on feature. Visit docs to learn more.
-
- Pronunciation assessment evaluates speech pronunciation and gives speakers feedback on the accuracy and fluency of spoken audio. With pronunciation assessment, language learners can practice, get instant feedback, and improve their pronunciation so that they can speak and present with confidence. Educators can use the capability to evaluate pronunciation of multiple speakers in real time. Visit docs to learn more.
- It is charged as standard Speech to Text, example:
For evaluation of 8 seconds of speech, you will be charged around $-
Promluvte si s prodejním specialistou a nechte si ceny Azure vysvětlit podrobně. Seznamte se s principy cen pro cloudová řešení.
Získejte bezplatné cloudové služby a kredit $200, který vám umožní zkoumat Azure po dobu 30 dní.