Ceny usług Cognitive Services — Custom Speech Service WERSJA ZAPOZNAWCZA

Dodawanie funkcji analizy obrazu, mowy, języka i informacji przy użyciu interfejsów API analizy

Usługa Custom Speech Service umożliwia tworzenie niestandardowych modeli rozpoznawania mowy i wdrażanie ich w punkcie końcowym zamiany mowy na tekst dopasowanym do aplikacji. Dzięki usłudze Custom Speech Service możesz dostosować model języka aparatu rozpoznawania mowy, aby nauczyć go słownictwa używanego w aplikacji oraz stylu wypowiedzi Twoich użytkowników. Dodatkowo możesz dostosować model akustyczny aparatu rozpoznawania mowy, aby lepiej dopasować go do oczekiwanego środowiska i populacji użytkowników aplikacji.

Szczegóły cennika

Adaptacja modelu jest bezpłatna.

Bezpłatnie S2
Wdrożenia modelu 1 model $-/model/miesiąc
Adaptacja modelu 3 godz. miesięcznie Bez ograniczeń
Testy dokładności 2 godz. miesięcznie 2 godz. bezpłatnie, a następnie $-/godz.
Skalowanie w poziomie ND $-/jednostkę/dzień, gdzie każda jednostka umożliwia wysyłanie pięciu równoczesnych żądań
Bez śledzenia ND $-/model/miesiąc
Cennik żądań 2 godz. miesięcznie 2 godz. bezpłatnie, a następnie $-/godz.

Pomoc techniczna i umowa SLA

 • Oferta obejmuje bezpłatną pomoc techniczną dotyczącą rozliczeń i zarządzania subskrypcją.
 • Potrzebujesz pomocy technicznej dotyczącej usług w wersji zapoznawczej? Skorzystaj z naszych forów.
 • Gwarantujemy, że usługi Cognitive Services działające w warstwie Standardowa będą dostępne przez co najmniej 99,9% czasu. Warstwie Bezpłatna nie towarzyszy umowa SLA. Przeczytaj umowę SLA.
 • W okresie zapoznawczym nie są dostępne umowy SLA. Dowiedz się więcej.

Często zadawane pytania

Custom Speech Service

 • Warstwa 1 może przetwarzać do czterech fragmentów audio (tzn. czterech transkrypcji) równocześnie i nadal odpowiadać w czasie rzeczywistym. Jeśli użytkownik prześle więcej niż cztery fragmenty audio równocześnie, każdy kolejny fragment zostanie odrzucony i zwrócony z kodem błędu wskazującym, że wykonywanych jest zbyt wiele równoczesnych rozpoznań. Warstwa 2 zachowuje się tak samo, przy czym może ona przetwarzać 12 transkrypcji jednocześnie. Warstwa Bezpłatna umożliwia przetwarzanie tylko jednej transkrypcji równocześnie. Zakłada się, że fragment audio będzie przekazywany w czasie rzeczywistym. Jeśli przekazywanie fragmentu audio będzie wykonywane szybciej, na potrzeby określania równoczesności żądanie będzie uznawane za będące w toku przez cały czas trwania fragmentu audio (choć wynik rozpoznawania może zostać odesłany wcześniej).

  Uwaga: jeśli wymagany jest wyższy poziom równoczesności, skontaktuj się z nami.

 • Model języka to rozkład prawdopodobieństwa dla sekwencji słów. Model języka pomaga systemowi wybierać między sekwencjami słów, które brzmią podobnie, na podstawie prawdopodobieństwa wystąpienia danych sekwencji. Na przykład sekwencje „rozpoznawanie mowy” i „ospo zna Wanię nowy” brzmią podobnie, ale pierwsza hipoteza jest znacznie bardziej prawdopodobna i dlatego model języka przypisze jej wyższą ocenę. Jeśli oczekujesz, że do aplikacji będą kierowane zapytania głosowe zawierające konkretne słownictwo, np. nazwy produktów lub żargon, które rzadko występują w typowej mowie, prawdopodobnie uzyskasz lepszą wydajność po dostosowaniu modelu języka. Jeśli na przykład tworzysz aplikację do głosowego przeszukiwania witryny MSDN, najprawdopodobniej terminy takie jak „obiektowe”, „przestrzeń nazw” lub „dot net” będą występować częściej niż w typowych aplikacjach głosowych. Dostosowanie modelu języka umożliwi systemowi nauczenie się tego.

 • Model akustyczny to klasyfikator oznaczający krótkie fragmenty audio jako jeden z kilku fonemów (jednostek dźwięku) w każdym języku. Te fonemy można następnie połączyć w celu utworzenia słów. Na przykład słowo „mowa” składa się z czterech fonemów: m, o, w, a. Te klasyfikacje są dokonywane z szybkością ok. 100 na sekundę. Dostosowanie modelu akustycznego może umożliwić systemowi naukę lepszego rozpoznawania mowy w nietypowych środowiskach. Na przykład w przypadku aplikacji zaprojektowanej do użycia przez pracowników magazynu lub fabryki dostosowany model akustyczny może dokładniej rozpoznawać mowę wśród hałasu typowego dla tych środowisk.

 • Rozpoznawanie krótkich fraz obsługuje wypowiedzi o długości do 15 sekund. W przypadku korzystania z biblioteki klienta mowy w miarę wysyłania danych na serwer klient będzie otrzymywał wiele wyników częściowych oraz otrzyma jeden końcowy wynik zawierający wiele opcji obejmujących N najlepszych hipotez.

 • Rozpoznawanie długiego dyktowania obsługuje wypowiedzi o długości do dwóch minut. W przypadku korzystania z biblioteki klienta mowy w miarę wysyłania danych na serwer klient będzie otrzymywał wiele wyników częściowych i wiele wyników końcowych w zależności od miejsc, w których serwer wykryje pauzy zdaniowe.

 • Jeśli na przykład klient korzysta z warstwy S1 i przetwarza milion transkrypcji, zostanie naliczona opłata za warstwę ($-), opłata za pierwsze transkrypcje (100,000) w wysokości $- za każdą następującą liczbę transkrypcji: 1,000, a także opłata za pozostałe transkrypcje (900,000) w wysokości $- za każdą następującą liczbę transkrypcji: 1,000. Klientowi zostanie naliczona opłata w wysokości $- + 100,000 * ($- / 1,000) + 900,000 * ($- / 1,000) = $4500.

 • Zobacz informacje na temat usługi Custom Speech Service na stronie sieci Web usług Microsoft Cognitive Services i w witrynie sieci Web usługi Custom Speech Service, www.cris.ai.

 • Wdrażanie modelu niestandardowego to proces opakowywania modelu niestandardowego, a następnie uwidaczniania go jako usługi. Wynikowy wdrożony model niestandardowy uwidacznia punkt końcowy umożliwiający dostęp do niego. Użytkownicy mogą wybrać do wdrożenia dowolną liczbę modeli.

 • Usługa Custom Speech Service umożliwia użytkownikom adaptowanie modeli podstawowych w oparciu o własne dane akustyczne i językowe. Ten proces nazywamy dostosowywaniem modelu.

 • W przypadku tworzenia modelu niestandardowego użytkownicy mogą skorzystać z opcji przekazywania danych testowych i ocenić nowo utworzony model. Testowanie nowych modeli niestandardowych może odbywać się przy użyciu dowolnej wymaganej ilości danych, co oznacza, że użytkownicy mogą przeprowadzać testy dokładności bez ograniczeń.

 • Po wdrożeniu modelu niestandardowego jego identyfikator URI może przetwarzać jedno żądanie audio w danym momencie. W przypadku scenariuszy obejmujących równoczesne wysyłanie więcej niż jednego żądania do tego identyfikatora URI użytkownicy mogą skorzystać z opcji jednoczesnego skalowania pięciu współbieżnych żądań na zewnątrz. W tym celu należy zakupić jednostki skalowania. Każda jednostka skalowania gwarantuje jednoczesne przetwarzanie maksymalnie pięciu współbieżnych żądań audio w cenie $200 za jednostkę skalowania. Jeśli na przykład użytkownik przewiduje jednoczesne trafienie punktu końcowego przy użyciu 23 żądań audio, musi zakupić pięć jednostek skalowania, aby otrzymać gwarancję obsługi do 25 współbieżnych żądań.

 • Zarządzanie dziennikami umożliwia użytkownikom wyłączanie rejestrowania we wdrożonych modelach. Użytkownicy, którzy martwią się o zachowanie prywatności, mogą zdecydować się na wyłączenie rejestrowania we wdrożonym modelu za $20 miesięcznie.

 • Cennik żądań odnosi się do kosztów przetwarzania żądań audio w punkcie końcowym wdrożonego modelu niestandardowego.

Ogólne

 • W przypadku interfejsu API rozpoznawania emocji, interfejsu API rozpoznawania twarzy, interfejsu API usługi Language Understanding Intelligent Service, interfejsu API zamiany mowy na tekst Bing oraz interfejsu API zamiany tekstu na mowę Bing są naliczane opłaty za 1 000 wywołań transakcji interfejsu API podczas aktywnego wywoływania interfejsu API produkcji. Opłata jest naliczana proporcjonalnie za liczbę wywołań transakcji interfejsu API produkcji.

  W przypadku usługi interfejsu API rozpoznawania długich fragmentów mowy (Bing) jest naliczana opłata za godzinę analizowanej mowy. Opłaty są naliczane proporcjonalnie do liczby minut.

  Interfejs API zaleceń i interfejs API analizy tekstu można zakupić w stałej cenie jednostek warstwy Standardowa. Każda jednostka warstwy obejmuje pewną liczbę transakcji interfejsu API. Jeśli użytkownik przekroczy tę liczbę, za kolejne transakcje będą naliczane opłaty określone w powyższym cenniku. Opłaty za dodatkowe transakcje są naliczane proporcjonalnie, a za usługę jest naliczana opłata miesięczna. Liczba transakcji dostępnych w ramach danej warstwy jest resetowana co miesiąc.

 • W przypadku osiągnięcia limitu transakcji w ramach warstwy Bezpłatna użycie jest ograniczane. Klienci nie mogą wliczać dodatkowych transakcji do opłat za warstwę Bezpłatna.

 • Każda adnotacja do dokumentu jest uznawana za transakcję. Wywołania wsadowego oceniania będą uwzględniane na podstawie liczby dokumentów, które mają zostać ocenione w ramach transakcji. Na przykład wysłanie 1 000 dokumentów do analizy tonacji w jednym wywołaniu interfejsu API zostanie uznane za 1 000 transakcji. Jeśli interfejs API obsługuje więcej niż jedną operację adnotacji, również zostanie to uwzględnione. Na przykład wywołanie interfejsu API, które przeprowadza analizę tonacji i wyodrębnianie kluczowych fraz w 1 000 dokumentów, jest uznawane za 2 000 transakcji (2 adnotacje × 1 000 dokumentów).

 • W przypadku przekroczenia limitu użycia w ramach warstwy Standardowa na koncie są naliczane opłaty za dodatkowe transakcje. Dodatkowe transakcje są rozliczane miesięcznie zgodnie ze stawką określoną dla danej warstwy.

 • Każde wywołanie interfejsu API (za wyjątkiem wywołań wsadowego oceniania) jest liczone jako transakcja. Wywołania wsadowego oceniania będą liczone na podstawie liczby elementów, które mają zostać ocenione w ramach transakcji.

 • W przypadku osiągnięcia limitu transakcji w ramach warstwy Bezpłatna użycie jest ograniczane. Klienci nie mogą wliczać dodatkowych transakcji do opłat za warstwę Bezpłatna. Wsadowe ocenianie nie jest obsługiwane w ramach warstwy Bezpłatna.

 • Interfejs API zaleceń można zakupić w stałej cenie jednostek warstwy Standardowa. Każda jednostka warstwy obejmuje pewną liczbę transakcji interfejsu API. Jeśli użytkownik przekroczy tę liczbę, za kolejne transakcje będą naliczane opłaty określone w powyższym cenniku. Opłaty za dodatkowe transakcje są naliczane proporcjonalnie, a za usługę jest naliczana opłata miesięczna. Liczba transakcji dostępnych w ramach danej warstwy jest resetowana co miesiąc.

 • Usługi można w dowolnym momencie uaktualnić do wyższej warstwy. Spowoduje to natychmiastowe rozpoczęcie naliczania opłat i korzystania z liczby dostępnych transakcji odpowiadających wybranej wyższej warstwie.

Zasoby

Oszacuj miesięczne koszty usług systemu Azure

Przejrzyj często zadawane pytania na temat cennika systemu Azure

Dowiedz się więcej o Usługi poznawcze

Przejrzyj samouczki techniczne, materiały wideo i inne zasoby

Dodano do oszacowania. Naciśnij klawisz „v”, aby wyświetlić w kalkulatorze Wyświetl w kalkulatorze

Rozpocznij naukę i tworzenie ze środkami w wysokości $200 i kontynuuj korzystanie z bezpłatnych opcji

Bezpłatne konto