Ceny za Cognitive Services – Hlasové služby

Využití inteligentních rozhraní API k povolení možností pro zpracování obrazu, jazyka a hledání

Sjednocené hlasové služby poskytují širokou škálu možností rozpoznávání a generování řeči, včetně přepisu řeči, převodu textu na řeč a překladu řeči. Služba Speech poskytuje širokou škálu možností rozpoznávání a generování řeči, včetně přepisu řeči, převodu textu na řeč, překladu řeči a rozpoznávání mluvčího.

Informace o cenách

Instance Kategorie Funkce Cena
Zdarma - Web/kontejner
1 souběžný požadavek1
Převod řeči na text Standard 5 hodin zvuku zdarma za měsíc
Vlastní 5 hodin zvuku zdarma za měsíc
Hostování koncového bodu: 1 model zdarma za měsíc 2
Vícekanálový zvuk k přepisu konverzace PREVIEW 3 5 hodin zvuku zdarma za měsíc
Převod textu na řeč Standard 5 million znaků zdarma za měsíc
Neurální 0.5 million znaků zdarma za měsíc
Vlastní 5 million znaků zdarma za měsíc
Hostování koncového bodu: 1 model zdarma za měsíc
Překlad řeči Standard 5 hodin zvuku zdarma za měsíc
Rozpoznávání mluvčího7 Ověření mluvčího 10,000 transakcí zdarma za měsíc
Identifikace mluvčího 10,000 transakcí zdarma za měsíc
Standard - Web/kontejner
20 souběžný požadavek 1
Převod řeči na text Standard $- za hodinu zvuku
Vlastní $- za hodinu zvuku
Hostování koncového bodu: $- za model a měsíc
Vícekanálový zvuk k přepisu konverzace PREVIEW 3 $- za hodinu zvuku 4
Převod textu na řeč Standard $- za 1 milion znaků
Neurální $- za 1 milion znaků 5
Vytvoření dlouhého zvukového záznamu: $- za 1 milion znaků
Vlastní $- za 1 milion znaků
Hostování koncového bodu: $- za model a měsíc
Vlastní neurální PREVIEW 6 Sestavení hlasu: kontaktujte nás
Syntéza v reálném čase: $- za 1 milion znaků
Hostování koncového bodu: $- za model a měsíc
Vytvoření dlouhého zvukového záznamu: $- za 1 milion znaků
Překlad řeči Standard $- za hodinu zvuku
Rozpoznávání mluvčího7 Ověření mluvčího $- za 1,000 transakcí
Identifikace mluvčího $- za 1,000 transakcí

Další podrobné informace o kvótách a omezeních pro všechny cenové úrovně najdete v dokumentaci.

1Pokud chcete zvýšit počet souběžných požadavků, projděte si pokyny.

2Nepoužité modely budou automaticky vyřazeny z provozu po 7 dnech.

3Pro vícekanálový přepis konverzace se doporučuje zařízení kruhového mikrofonního pole. Další podrobnosti najdete v sadě SDK pro zařízení Microsoft Speech.

4Toto odráží ceny verze Public Preview. Ceny po zavedení obecné dostupnosti oznámíme později.

5Seznam oblastí, ve kterých je neurální převod textu na řeč dostupný, najdete v dokumentaci k neurální verzi.

6Funkce Vlastní neurální hlas je v chráněné verzi Preview. Další informace o ochranném procesu

7Rozpoznávání mluvčího je momentálně k dispozici jenom v oblasti USA – západ. Pokud si chcete prohlédnout ceny pro rozpoznávání mluvčího, jako oblast vyberte USA – západ.

Podpora a SLA

 • Součástí je bezplatná podpora k fakturaci a správě předplatného.
 • U služeb Cognitive Services spuštěných na úrovni Standard garantujeme minimální dostupnost 99,9 %. Pro bezplatnou zkušební verzi neposkytujeme žádnou smlouvu SLA. Přečtěte si smlouvu SLA.

Nejčastější dotazy

  • Překlad řeči, převod řeči na text a převod řeči na text pomocí vlastního modelu řeči: využití se účtuje po sekundách.
  • Převod textu na řeč a převod textu na řeč pomocí vlastního hlasového písma: využití se účtuje po znacích.
  • Využití hostování vlastního modelu řeči se účtuje po hodinách, využití hostování vlastního hlasového písma se účtuje po dnech.
  • Pro vlastní příkazy: fakturace se sleduje jako spotřeba služeb převodu řeči na text, převodu textu na řeč a Language Understanding. Vlastní příkazy nezavádějí nové měřiče fakturace.
  • Za trénování modelů řeči se nic neúčtuje. Jedinými náklady jsou náklady na hostování modelu po natrénování a potom hodinové náklady na přepis řeči.
 • Služba Speech umožňuje uživatelům přizpůsobit základní modely na základě vlastních akustických a jazykových dat a vytvářet tak modely řeči, které je možné použít v překladu řeči na text i překladu řeči.

 • Jazykový model je pravděpodobnostní rozdělení přes posloupnosti slov. Jazykový model pomáhá systému zvolit takovou posloupnost slov, která zní podobně, a to na základě pravděpodobnosti jednotlivých posloupností slov. Například posloupnosti „recognize speech“ a „wreck a nice beach“ znějí podobně, ale výskyt první z nich je mnohem pravděpodobnější, takže jí bude jazykovým modelem přiřazené vyšší ohodnocení. Pokud očekáváte, že hlasové dotazy na vaši aplikaci budou obsahovat určité slovníkové položky, jako jsou názvy produktů nebo žargon, který se v běžné řeči vyskytuje zřídka, je pravděpodobné, že úpravou jazykového modelu můžete výkon zlepšit. Pokud například vytváříte aplikaci umožňující hlasové dotazy na web MSDN, je pravděpodobné, že termíny jako „object-oriented“, „namespace“ nebo „dot net“ se budou vyskytovat častěji než v klasických hlasových aplikacích. Přizpůsobení jazykového modelu umožní systému se to naučit.

 • Akustický model je klasifikátor, který označuje krátké zvukové fragmenty jedním z několika fonémů, nebo zvukových jednotek, v každém jazyce. Tyto fonémy lze sestavit tak, aby tvořily slova. Například slovo „speech“ je tvořeno čtyřmi fonémy „s p iy ch“. Tyto klasifikace se provádějí řádově stokrát za sekundu. Přizpůsobení akustického modelu může systému umožnit naučit se lépe rozpoznávat řeč v atypických prostředích. Pokud máte například aplikaci, která je určená pracovníkům ve skladu nebo v továrně, přizpůsobený akustický model může přesněji rozpoznat řeč v přítomnosti dalších zvuků z tohoto prostředí.

 • Hlasové služby Microsoftu poskytují více než 70 výchozích hlasů (označované také jako hlasová písma) ve více než 40 jazycích, které vám pomůžou převádět text na zvuk. S rozšiřováním virtuálních asistentů a různých aplikací s podporou řeči však řada společností chce mít jedinečný hlas reprezentující jejich obchod a pečlivě navržený pro jejich vlastní identitu značky. Pokud například vyvíjíte chatbot pro vaše služby péče o zákazníky, můžete k němu přidružit jedinečný hlas značky vaší společnosti, abyste si vytvořili pouto se zákazníky. Obdobně může povolením překladu textu na řeč obohatit uživatelské prostředí vývojář softwaru pro navigaci v automobilech.

  Díky vlastnímu portálu pro vytváření hlasů Voice Studio je to snadné. S využitím vlastních zvukových dat (záznam lidského hlasu se souvisejícími skripty) můžete vygenerovat vlastní hlasové písmo, které se pak nasadí do služby Microsoftu pro převod textu na řeč. Následně ho můžete jednoduše připojit ke svým aplikacím pomocí koncového bodu rozhraní API pro vlastní použití.

Materiály

Odhad měsíčních nákladů na služby Azure

Přečtěte si nejčastější dotazy k cenám Azure

Další informace o službě Azure Cognitive Services

Technické výukové programy, videa a další materiály

Přidáno k odhadu. Pro zobrazení v kalkulačce stiskněte klávesu V

Učte se a tvořte s kreditem $200 a pokračujte zdarma