Přeskočit navigaci

Ceny služeb Cognitive Services – Custom Speech Service PREVIEW

Využití inteligentních rozhraní API k povolení možností pro zpracování řeči, jazyka, vidění a znalostí

Custom Speech Service umožňuje vytvářet vlastní modely pro rozpoznávání řeči a nasazovat je na koncový bod pro převod řeči na text, který je upraven pro vaši aplikaci. Pomocí služby Custom Speech Service můžete upravit jazykový model modulu pro rozpoznávání řeči, takže se naučí slovník vaší aplikace a styl mluvy uživatelů. Můžete také upravit akustický model modulu pro rozpoznávání řeči, aby lépe vyhovoval očekávanému prostředí a uživatelům aplikace.

Podrobnosti o cenách

Adaptace modelů je zdarma.

Free S2
Nasazení modelu 1 model $-/model/měsíc
Adaptace modelu 3 hodin za měsíc Bez omezení
Testy přesnosti 2 hodin za měsíc 2 hodin zdarma a pak $- za hodinu
Škálování na více systémů $-/jednotka/den, přičemž každá jednotka umožňuje odeslat pět souběžných požadavků
Bez trasování $-/model/měsíc
Ceny za požadavky 2 hodin za měsíc 2 hodin zdarma a pak $- za hodinu

Podpora a SLA

 • Součástí je bezplatná podpora k fakturaci a správě předplatného.
 • Potřebujete technickou podporu ke službám ve verzi Preview? Využijte naše fóra.
 • U služeb Cognitive Services spuštěných na úrovni Standard garantujeme minimální dostupnost 99,9 %. Pro úroveň Free neposkytujeme žádnou smlouvu SLA. Přečtěte si smlouvu SLA.
 • V období Preview neposkytujeme smlouvu SLA. Další informace.

Nejčastější dotazy

Custom Speech Service

 • Úroveň 1 může zpracovat až čtyři úryvky zvuku (tj. čtyři přepisy) najednou a přitom stále reagovat v reálném čase. Pokud uživatel odešle víc než čtyři souběžné úryvky zvuku, každý další úryvek se odmítne a pošle zpátky s chybovým kódem, který indikuje příliš mnoho souběžných rozpoznávání. Obdobně to platí pro úroveň 2, kde jde zpracovat až 12 souběžných přepisů. Úroveň Free poskytuje jeden souběžný přepis. Předpokládá se, že zvuk se odesílá v reálném čase. Pokud se zvuk odešle rychleji, z hlediska souběžnosti se bude požadavek stále považovat ze probíhající, dokud trvání zvuku neskončí (i když výsledek rozpoznání může být vrácen dříve).

  Poznámka: Pokud potřebujete vyšší úroveň souběžnosti, obraťte se prosím na nás.

 • Jazykový model je pravděpodobnostní rozdělení přes posloupnosti slov. Jazykový model pomáhá systému zvolit takovou posloupnost slov, která zní podobně, a to na základě pravděpodobnosti jednotlivých posloupností slov. Například posloupnosti „recognize speech“ a „wreck a nice beach“ znějí podobně, ale výskyt první z nich je mnohem pravděpodobnější, takže jí bude jazykovým modelem přiřazené vyšší ohodnocení. Pokud očekáváte, že hlasové dotazy na vaši aplikaci budou obsahovat určité slovníkové položky, jako jsou názvy produktů nebo žargon, který se v běžné řeči vyskytuje zřídka, je pravděpodobné, že úpravou jazykového modelu můžete výkon zlepšit. Pokud například vytváříte aplikaci umožňující hlasové dotazy na web MSDN, je pravděpodobné, že termíny jako „object-oriented“, „namespace“ nebo „dot net“ se budou vyskytovat častěji než v klasických hlasových aplikacích. Přizpůsobení jazykového modelu umožní systému se to naučit.

 • Akustický model je klasifikátor, který označuje krátké zvukové fragmenty jedním z několika fonémů, nebo zvukových jednotek, v každém jazyce. Tyto fonémy lze sestavit tak, aby tvořily slova. Například slovo „speech“ je tvořeno čtyřmi fonémy „s p iy ch“. Tyto klasifikace se provádějí řádově stokrát za sekundu. Přizpůsobení akustického modelu může systému umožnit naučit se lépe rozpoznávat řeč v atypických prostředích. Pokud máte například aplikaci, která je určená pracovníkům ve skladu nebo v továrně, přizpůsobený akustický model může přesněji rozpoznat řeč v přítomnosti dalších zvuků z tohoto prostředí.

 • Rozpoznání krátkých frází podporuje promluvy dlouhé do 15 sekund. Při použití s knihovnou řečového klienta obdrží klient po odeslání dat na server několik částečných výsledků a jeden konečný výsledek s několika volbami N-best.

 • Rozpoznávání dlouhých diktátů podporuje promluvy dlouhé až dvě minuty. Při použití s knihovnou řečového klienta obdrží klient po odeslání dat na server několik částečných výsledků a několik konečných výsledků, a to podle toho, kde server označí pomlky mezi větami.

 • Pokud například zákazník používá úroveň S1 pro zpracování jednoho milionu přepisů, bude mu účtována cena za úroveň ($-), prvních 100,000 přepisů bude za cenu $- za 1,000 přepisů a zbývajících 900,000 přepisů bude za cenu $- za 1,000 přepisů. Výsledná účtovaná částka zákazníka je $- + 100,000 * ($- / 1,000) + 900,000 * ($- / 1,000) = $4500.

 • Prohlédněte si informace o službě Custom Speech Service na webové stránce Microsoft Cognitive Services a na webu Custom Speech Service www.cris.ai.

 • Nasazení vlastního modelu je proces zabalení a následného zveřejnění vlastního modelu jako služby. Výsledný nasazený vlastní model vystavuje koncový bod, přes který se k němu dá přistupovat. Uživatelé se můžou rozhodnout nasadit tolik modelů, kolik potřebují.

 • Custom Speech Service uživatelům umožňuje upravit základní modely na základě vlastních akustických a jazykových dat. Tomuto procesu říkáme přizpůsobení modelu.

 • Po vytvoření vlastního modelu mají uživatelé možnost nahrát testovací data pro vyhodnocení nově vytvořeného modelu. Uživatelé můžou k testování vlastních modelů použít tolik dat, kolik potřebují, tj. můžou spouštět neomezený počet testů přesnosti.

 • Po nasazení vlastního modelu může jeho identifikátor URI najednou zpracovávat pouze jeden požadavek na zpracování zvuku. U scénářů, ve kterých se na daný identifikátor URI odesílá víc než jeden požadavek na zpracování zvuku najednou, se uživatelé můžou rozhodnout horizontálně navýšit kapacitu, a to postupně po pěti souběžných požadavcích. To se provádí zakoupením jednotek škálování. Každá jednotka škálování garantuje až pět souběžných požadavků na zpracování zvuku a účtuje se cenou $200 za škálovací jednotku. Pokud například uživatel počítá s tím, že na koncový bod bude odesílat 23 požadavků na zpracování zvuku současně, bude muset zakoupit pět škálovacích jednotek, které garantují až 25 souběžných požadavků.

 • Správa protokolů uživatelům umožňuje vypnutí protokolování nasazených modelů. Uživatelé s obavami o ochranu osobních údajů můžou protokolování nasazeného modelu vypnout, za což se jim bude účtovat $20 za měsíc.

 • Ceny za požadavky se týkají nákladů na požadavky na zpracování zvuku koncovým bodem nasazeného vlastního modelu.

Obecné

 • Rozhraní API pro rozpoznávání emocí, rozhraní API pro rozpoznávání tváře, rozhraní API LUIS (Language Understanding Intelligent Service), rozhraní Bing Speech to Text API a rozhraní API pro převod textu na řeč Bingu se účtují po 1 000 voláních transakcí rozhraní API, když se aktivně zpracovává volání rozhraní API produkčního prostředí. Počty volání API produkčního prostředí se účtují poměrně.

  Služba rozhraní API pro rozpoznávání dlouhých úseků řeči služby Bing se účtuje po hodinách analyzované řeči. Fakturuje se poměrnou částí po minutách.

  Rozhraní Recommendations API a Text Analytics API se dají koupit po jednotkách úrovně Standard za pevnou cenu. Každá jednotka konkrétní úrovně zahrnuje určitý počet transakcí API. Pokud uživatel překročí zahrnutý počet transakcí, překročení limitu se účtuje sazbou uvedenou v tabulce cen výš. Tato nadlimitní využití se účtují poměrně a služba se fakturuje měsíčně. Počty transakcí zahrnuté v jednotlivých úrovních se každý měsíc resetují.

 • Když se u úrovně Free dosáhne limitu transakcí, použití se omezí. U úrovně Free zákazníci nemůžou kumulovat nadlimitní využití.

 • Jakákoli poznámka k dokumentu se počítá jako jedna transakce. Volání dávkového vyhodnocování také zohlední počet dokumentů, které je třeba v transakci zohlednit. Takže pokud se třeba v jednom volání rozhraní API odešle 1 000 dokumentů pro analýzu mínění, počítá se to jako 1 000 transakcí. Zohlední se také, jestli rozhraní API podporuje více než jednu operaci poznámek. Dejme tomu, že volání rozhraní API provádí na 1 000 dokumentech analýzu mínění i extrakci klíčových frází – to se bude počítat jako 2 000 transakcí (2 poznámky × 1 000 dokumentů).

 • Pokud se přesáhne využití u úrovně Standard, účet začne kumulovat nadlimitní využití. Tato nadlimitní využití se účtují po měsících a používají se přitom sazby stanovené pro jednotlivé úrovně.

 • Na vyšší úroveň můžete upgradovat kdykoli. Fakturační sazby a počty transakcí zahrnuté ve vyšší úrovni se začnou uplatňovat okamžitě.

Materiály

Odhad měsíčních nákladů na služby Azure

Přečtěte si nejčastější dotazy k cenám Azure

Další informace o službě Cognitive Services

Technické výukové programy, videa a další materiály

Přidáno k odhadu. Pro zobrazení v kalkulačce stiskněte klávesu V Zobrazit v kalkulačce

Učte se a tvořte s kreditem $200 a pokračujte zdarma

Bezplatný účet