Pomiń nawigację

Ceny usług Cognitive Services — Custom Speech Service WERSJA ZAPOZNAWCZA

Dodawanie funkcji analizy obrazu, mowy, języka i informacji przy użyciu interfejsów API analizy

Usługa Custom Speech Service umożliwia tworzenie niestandardowych modeli rozpoznawania mowy i wdrażanie ich w punkcie końcowym zamiany mowy na tekst dopasowanym do aplikacji. Dzięki usłudze Custom Speech Service możesz dostosować model języka aparatu rozpoznawania mowy, aby nauczyć go słownictwa używanego w aplikacji oraz stylu wypowiedzi Twoich użytkowników. Dodatkowo możesz dostosować model akustyczny aparatu rozpoznawania mowy, aby lepiej dopasować go do oczekiwanego środowiska i populacji użytkowników aplikacji.

Szczegóły cennika

Adaptacja modelu jest bezpłatna.

Wystąpienie Funkcje CenaWERSJA ZAPOZNAWCZA
Bezpłatnie Wdrożenia modelu 1 bezpłatny model na miesiąc
Adaptacja modelu 3 bezpł. godz. na miesiąc
Testy dokładności 2 bezpł. godz. na miesiąc
Skalowanie w poziomie ND
Bez śledzenia ND
Cennik żądań 2 bezpł. godz. na miesiąc
S2 Wdrożenia modelu $-/model/miesiąc
Adaptacja modelu Bez ograniczeń
Testy dokładności 2 godz. bezpłatnie, a następnie $-/godz.
Skalowanie w poziomie $-/jednostkę/dzień, gdzie każda jednostka umożliwia wysyłanie pięciu równoczesnych żądań
Bez śledzenia $-/model/miesiąc
Cennik żądań 2 godz. bezpłatnie, a następnie $-/godz.

Pomoc techniczna i umowa SLA

  • Oferta obejmuje bezpłatną pomoc techniczną dotyczącą rozliczeń i zarządzania subskrypcją.
  • Potrzebujesz pomocy technicznej dotyczącej usług w wersji zapoznawczej? Skorzystaj z naszych forów.
  • Gwarantujemy, że usługi Cognitive Services działające w warstwie Standardowa będą dostępne przez co najmniej 99,9% czasu. W bezpłatnej wersji próbnej nie jest dostępna umowa SLA. Przeczytaj umowę SLA.
  • W okresie zapoznawczym nie są dostępne umowy SLA. Dowiedz się więcej.

Często zadawane pytania

Custom Speech Service

  • Warstwa 1 może przetwarzać do czterech fragmentów audio (tzn. czterech transkrypcji) równocześnie i nadal odpowiadać w czasie rzeczywistym. Jeśli użytkownik prześle więcej niż cztery fragmenty audio równocześnie, każdy kolejny fragment zostanie odrzucony i zwrócony z kodem błędu wskazującym, że wykonywanych jest zbyt wiele równoczesnych rozpoznań. Warstwa 2 zachowuje się tak samo, przy czym może ona przetwarzać 12 transkrypcji jednocześnie. Warstwa Bezpłatna umożliwia przetwarzanie tylko jednej transkrypcji równocześnie. Zakłada się, że fragment audio będzie przekazywany w czasie rzeczywistym. Jeśli przekazywanie fragmentu audio będzie wykonywane szybciej, na potrzeby określania równoczesności żądanie będzie uznawane za będące w toku przez cały czas trwania fragmentu audio (choć wynik rozpoznawania może zostać odesłany wcześniej).

    Uwaga: jeśli wymagany jest wyższy poziom równoczesności, skontaktuj się z nami.

  • Model języka to rozkład prawdopodobieństwa dla sekwencji słów. Model języka pomaga systemowi wybierać między sekwencjami słów, które brzmią podobnie, na podstawie prawdopodobieństwa wystąpienia danych sekwencji. Na przykład sekwencje „rozpoznawanie mowy” i „ospo zna Wanię nowy” brzmią podobnie, ale pierwsza hipoteza jest znacznie bardziej prawdopodobna i dlatego model języka przypisze jej wyższą ocenę. Jeśli oczekujesz, że do aplikacji będą kierowane zapytania głosowe zawierające konkretne słownictwo, np. nazwy produktów lub żargon, które rzadko występują w typowej mowie, prawdopodobnie uzyskasz lepszą wydajność po dostosowaniu modelu języka. Jeśli na przykład tworzysz aplikację do głosowego przeszukiwania witryny MSDN, najprawdopodobniej terminy takie jak „obiektowe”, „przestrzeń nazw” lub „dot net” będą występować częściej niż w typowych aplikacjach głosowych. Dostosowanie modelu języka umożliwi systemowi nauczenie się tego.

  • Model akustyczny to klasyfikator oznaczający krótkie fragmenty audio jako jeden z kilku fonemów (jednostek dźwięku) w każdym języku. Te fonemy można następnie połączyć w celu utworzenia słów. Na przykład słowo „mowa” składa się z czterech fonemów: m, o, w, a. Te klasyfikacje są dokonywane z szybkością ok. 100 na sekundę. Dostosowanie modelu akustycznego może umożliwić systemowi naukę lepszego rozpoznawania mowy w nietypowych środowiskach. Na przykład w przypadku aplikacji zaprojektowanej do użycia przez pracowników magazynu lub fabryki dostosowany model akustyczny może dokładniej rozpoznawać mowę wśród hałasu typowego dla tych środowisk.

  • Rozpoznawanie krótkich fraz obsługuje wypowiedzi o długości do 15 sekund. W przypadku korzystania z biblioteki klienta mowy w miarę wysyłania danych na serwer klient będzie otrzymywał wiele wyników częściowych oraz otrzyma jeden końcowy wynik zawierający wiele opcji obejmujących N najlepszych hipotez.

  • Rozpoznawanie długiego dyktowania obsługuje wypowiedzi o długości do dwóch minut. W przypadku korzystania z biblioteki klienta mowy w miarę wysyłania danych na serwer klient będzie otrzymywał wiele wyników częściowych i wiele wyników końcowych w zależności od miejsc, w których serwer wykryje pauzy zdaniowe.

  • Jeśli na przykład klient korzysta z warstwy S1 i przetwarza milion transkrypcji, zostanie naliczona opłata za warstwę ($-), opłata za pierwsze transkrypcje (100,000) w wysokości $- za każdą następującą liczbę transkrypcji: 1,000, a także opłata za pozostałe transkrypcje (900,000) w wysokości $- za każdą następującą liczbę transkrypcji: 1,000. Klientowi zostanie naliczona opłata w wysokości $- + 100,000 * ($- / 1,000) + 900,000 * ($- / 1,000) = $4500.

  • Zobacz informacje na temat usługi Custom Speech Service na stronie sieci Web usług Microsoft Cognitive Services i w witrynie sieci Web usługi Custom Speech Service, www.cris.ai.

  • Wdrażanie modelu niestandardowego to proces opakowywania modelu niestandardowego, a następnie uwidaczniania go jako usługi. Wynikowy wdrożony model niestandardowy uwidacznia punkt końcowy umożliwiający dostęp do niego. Użytkownicy mogą wybrać do wdrożenia dowolną liczbę modeli.

  • Usługa Custom Speech Service umożliwia użytkownikom adaptowanie modeli będących punktem odniesienia w oparciu o własne dane akustyczne i językowe. Ten proces nazywamy dostosowywaniem modelu.

  • W przypadku tworzenia modelu niestandardowego użytkownicy mogą skorzystać z opcji przekazywania danych testowych i ocenić nowo utworzony model. Testowanie nowych modeli niestandardowych może odbywać się przy użyciu dowolnej wymaganej ilości danych, co oznacza, że użytkownicy mogą przeprowadzać testy dokładności bez ograniczeń.

  • Po wdrożeniu modelu niestandardowego jego identyfikator URI może przetwarzać jedno żądanie audio w danym momencie. W przypadku scenariuszy obejmujących równoczesne wysyłanie więcej niż jednego żądania do tego identyfikatora URI użytkownicy mogą skorzystać z opcji jednoczesnego skalowania pięciu współbieżnych żądań na zewnątrz. W tym celu należy zakupić jednostki skalowania. Każda jednostka skalowania gwarantuje jednoczesne przetwarzanie maksymalnie pięciu współbieżnych żądań audio w cenie $200 za jednostkę skalowania. Jeśli na przykład użytkownik przewiduje jednoczesne trafienie punktu końcowego przy użyciu 23 żądań audio, musi zakupić pięć jednostek skalowania, aby otrzymać gwarancję obsługi do 25 współbieżnych żądań.

  • Zarządzanie dziennikami umożliwia użytkownikom wyłączanie rejestrowania we wdrożonych modelach. Użytkownicy, którzy martwią się o zachowanie prywatności, mogą zdecydować się na wyłączenie rejestrowania we wdrożonym modelu za $20 miesięcznie.

  • Cennik żądań odnosi się do kosztów przetwarzania żądań audio w punkcie końcowym wdrożonego modelu niestandardowego.

Ogólne

  • Interfejsy API wyszukiwania Bing są fakturowane zgodnie z liczbą transakcji (nazywanych też wywołaniami interfejsu API). Te plany są rozliczane w ramach modelu płatności zgodnie z rzeczywistym użyciem i nie powodują naliczania dodatkowych opłat za złożone zapytania i więcej niż 10 wyników (w większości przypadków do 50 przypadków).

  • W przypadku przekroczenia dozwolonej liczby transakcji na sekundę (TPS) użycie zostanie ograniczone do określonego limitu. Jeśli potrzebujesz więcej transakcji na sekundę niż podano na tej stronie, skontaktuj się z zespołem pomocy technicznej platformy Azure.

  • Na potrzeby rozliczeń transakcja to pomyśle żądanie wywołania interfejsu API usługi Bing (istnieją jednak zastrzeżenia dotyczące ataków DoS). Na potrzeby rejestrowania i raportowania, na przykład w przypadku dodatku Statystyka Bing, jest to każde wywołanie interfejsu API usługi Bing (pomyślne i zakończone niepowodzeniem).

  • Możesz w dowolnym czasie zmienić warstwę usługi. Upewnij się, że używasz odpowiednich kluczy w wywołaniach interfejsu API. Jeśli masz umowę Enterprise Agreement z firmą Microsoft, skontaktuj się z kierownikiem ds. klientów.

Zasoby

Oszacuj miesięczne koszty usług systemu Azure

Przejrzyj często zadawane pytania na temat cennika systemu Azure

Dowiedz się więcej o Usługi poznawcze

Przejrzyj samouczki techniczne, materiały wideo i inne zasoby

Dodano do oszacowania. Naciśnij klawisz „v”, aby wyświetlić w kalkulatorze Wyświetl w kalkulatorze

Rozpocznij naukę i tworzenie ze środkami w wysokości $200 i kontynuuj korzystanie z bezpłatnych opcji