Pomiń nawigację

Ceny usług Cognitive Services — Custom Speech Service WERSJA ZAPOZNAWCZA

Dodawanie funkcji analizy obrazu, mowy, języka i informacji przy użyciu interfejsów API analizy

Usługa Custom Speech Service umożliwia tworzenie niestandardowych modeli rozpoznawania mowy i wdrażanie ich w punkcie końcowym zamiany mowy na tekst dopasowanym do aplikacji. Dzięki usłudze Custom Speech Service możesz dostosować model języka aparatu rozpoznawania mowy, aby nauczyć go słownictwa używanego w aplikacji oraz stylu wypowiedzi Twoich użytkowników. Dodatkowo możesz dostosować model akustyczny aparatu rozpoznawania mowy, aby lepiej dopasować go do oczekiwanego środowiska i populacji użytkowników aplikacji.

Szczegóły cennika

Adaptacja modelu jest bezpłatna.

Bezpłatnie S2
Wdrożenia modelu 1 model $-/model/miesiąc
Adaptacja modelu 3 godz. miesięcznie Bez ograniczeń
Testy dokładności 2 godz. miesięcznie 2 godz. bezpłatnie, a następnie $-/godz.
Skalowanie w poziomie ND $-/jednostkę/dzień, gdzie każda jednostka umożliwia wysyłanie pięciu równoczesnych żądań
Bez śledzenia ND $-/model/miesiąc
Cennik żądań 2 godz. miesięcznie 2 godz. bezpłatnie, a następnie $-/godz.

Pomoc techniczna i umowa SLA

  • Oferta obejmuje bezpłatną pomoc techniczną dotyczącą rozliczeń i zarządzania subskrypcją.
  • Potrzebujesz pomocy technicznej dotyczącej usług w wersji zapoznawczej? Skorzystaj z naszych forów.
  • Gwarantujemy, że usługi Cognitive Services działające w warstwie Standardowa będą dostępne przez co najmniej 99,9% czasu. Warstwie Bezpłatna nie towarzyszy umowa SLA. Przeczytaj umowę SLA.
  • W okresie zapoznawczym nie są dostępne umowy SLA. Dowiedz się więcej.

Często zadawane pytania

Custom Speech Service

  • Warstwa 1 może przetwarzać do czterech fragmentów audio (tzn. czterech transkrypcji) równocześnie i nadal odpowiadać w czasie rzeczywistym. Jeśli użytkownik prześle więcej niż cztery fragmenty audio równocześnie, każdy kolejny fragment zostanie odrzucony i zwrócony z kodem błędu wskazującym, że wykonywanych jest zbyt wiele równoczesnych rozpoznań. Warstwa 2 zachowuje się tak samo, przy czym może ona przetwarzać 12 transkrypcji jednocześnie. Warstwa Bezpłatna umożliwia przetwarzanie tylko jednej transkrypcji równocześnie. Zakłada się, że fragment audio będzie przekazywany w czasie rzeczywistym. Jeśli przekazywanie fragmentu audio będzie wykonywane szybciej, na potrzeby określania równoczesności żądanie będzie uznawane za będące w toku przez cały czas trwania fragmentu audio (choć wynik rozpoznawania może zostać odesłany wcześniej).

    Uwaga: jeśli wymagany jest wyższy poziom równoczesności, skontaktuj się z nami.

  • Model języka to rozkład prawdopodobieństwa dla sekwencji słów. Model języka pomaga systemowi wybierać między sekwencjami słów, które brzmią podobnie, na podstawie prawdopodobieństwa wystąpienia danych sekwencji. Na przykład sekwencje „rozpoznawanie mowy” i „ospo zna Wanię nowy” brzmią podobnie, ale pierwsza hipoteza jest znacznie bardziej prawdopodobna i dlatego model języka przypisze jej wyższą ocenę. Jeśli oczekujesz, że do aplikacji będą kierowane zapytania głosowe zawierające konkretne słownictwo, np. nazwy produktów lub żargon, które rzadko występują w typowej mowie, prawdopodobnie uzyskasz lepszą wydajność po dostosowaniu modelu języka. Jeśli na przykład tworzysz aplikację do głosowego przeszukiwania witryny MSDN, najprawdopodobniej terminy takie jak „obiektowe”, „przestrzeń nazw” lub „dot net” będą występować częściej niż w typowych aplikacjach głosowych. Dostosowanie modelu języka umożliwi systemowi nauczenie się tego.

  • Model akustyczny to klasyfikator oznaczający krótkie fragmenty audio jako jeden z kilku fonemów (jednostek dźwięku) w każdym języku. Te fonemy można następnie połączyć w celu utworzenia słów. Na przykład słowo „mowa” składa się z czterech fonemów: m, o, w, a. Te klasyfikacje są dokonywane z szybkością ok. 100 na sekundę. Dostosowanie modelu akustycznego może umożliwić systemowi naukę lepszego rozpoznawania mowy w nietypowych środowiskach. Na przykład w przypadku aplikacji zaprojektowanej do użycia przez pracowników magazynu lub fabryki dostosowany model akustyczny może dokładniej rozpoznawać mowę wśród hałasu typowego dla tych środowisk.

  • Rozpoznawanie krótkich fraz obsługuje wypowiedzi o długości do 15 sekund. W przypadku korzystania z biblioteki klienta mowy w miarę wysyłania danych na serwer klient będzie otrzymywał wiele wyników częściowych oraz otrzyma jeden końcowy wynik zawierający wiele opcji obejmujących N najlepszych hipotez.

  • Rozpoznawanie długiego dyktowania obsługuje wypowiedzi o długości do dwóch minut. W przypadku korzystania z biblioteki klienta mowy w miarę wysyłania danych na serwer klient będzie otrzymywał wiele wyników częściowych i wiele wyników końcowych w zależności od miejsc, w których serwer wykryje pauzy zdaniowe.

  • Jeśli na przykład klient korzysta z warstwy S1 i przetwarza milion transkrypcji, zostanie naliczona opłata za warstwę ($-), opłata za pierwsze transkrypcje (100,000) w wysokości $- za każdą następującą liczbę transkrypcji: 1,000, a także opłata za pozostałe transkrypcje (900,000) w wysokości $- za każdą następującą liczbę transkrypcji: 1,000. Klientowi zostanie naliczona opłata w wysokości $- + 100,000 * ($- / 1,000) + 900,000 * ($- / 1,000) = $4500.

  • Zobacz informacje na temat usługi Custom Speech Service na stronie sieci Web usług Microsoft Cognitive Services i w witrynie sieci Web usługi Custom Speech Service, www.cris.ai.

  • Wdrażanie modelu niestandardowego to proces opakowywania modelu niestandardowego, a następnie uwidaczniania go jako usługi. Wynikowy wdrożony model niestandardowy uwidacznia punkt końcowy umożliwiający dostęp do niego. Użytkownicy mogą wybrać do wdrożenia dowolną liczbę modeli.

  • Usługa Custom Speech Service umożliwia użytkownikom adaptowanie modeli podstawowych w oparciu o własne dane akustyczne i językowe. Ten proces nazywamy dostosowywaniem modelu.

  • W przypadku tworzenia modelu niestandardowego użytkownicy mogą skorzystać z opcji przekazywania danych testowych i ocenić nowo utworzony model. Testowanie nowych modeli niestandardowych może odbywać się przy użyciu dowolnej wymaganej ilości danych, co oznacza, że użytkownicy mogą przeprowadzać testy dokładności bez ograniczeń.

  • Po wdrożeniu modelu niestandardowego jego identyfikator URI może przetwarzać jedno żądanie audio w danym momencie. W przypadku scenariuszy obejmujących równoczesne wysyłanie więcej niż jednego żądania do tego identyfikatora URI użytkownicy mogą skorzystać z opcji jednoczesnego skalowania pięciu współbieżnych żądań na zewnątrz. W tym celu należy zakupić jednostki skalowania. Każda jednostka skalowania gwarantuje jednoczesne przetwarzanie maksymalnie pięciu współbieżnych żądań audio w cenie $200 za jednostkę skalowania. Jeśli na przykład użytkownik przewiduje jednoczesne trafienie punktu końcowego przy użyciu 23 żądań audio, musi zakupić pięć jednostek skalowania, aby otrzymać gwarancję obsługi do 25 współbieżnych żądań.

  • Zarządzanie dziennikami umożliwia użytkownikom wyłączanie rejestrowania we wdrożonych modelach. Użytkownicy, którzy martwią się o zachowanie prywatności, mogą zdecydować się na wyłączenie rejestrowania we wdrożonym modelu za $20 miesięcznie.

  • Cennik żądań odnosi się do kosztów przetwarzania żądań audio w punkcie końcowym wdrożonego modelu niestandardowego.

Ogólne

  • Bing Search APIs are invoiced based on number of transactions (also known as API calls). These plans are pay-as-you-go and doesn’t incur additional cost for complex queries and more than 10 results (up to 50 results in most cases).

  • If you happen to exceed the mentioned number of transactions per second (TPS), your usage will be throttled to be within the mentioned limit. If your application needs to have higher TPS than the ones mentioned on this page, please reach out to the Azure support team.

  • For billing purposes, a transaction is a successful Bing API call request (though there are caveats for DoS attacks). For logging and reporting purposes such as for the Bing Statistics Add-in, it is any Bing API call irrespective of whether it is successful or not.

  • You can change the tier of service anytime. Please make sure you use appropriate keys in your API calls. If you are having enterprise agreement with Microsoft, please work with your account executive.

Zasoby

Oszacuj miesięczne koszty usług systemu Azure

Przejrzyj często zadawane pytania na temat cennika systemu Azure

Dowiedz się więcej o Usługi poznawcze

Przejrzyj samouczki techniczne, materiały wideo i inne zasoby

Dodano do oszacowania. Naciśnij klawisz „v”, aby wyświetlić w kalkulatorze Wyświetl w kalkulatorze

Rozpocznij naukę i tworzenie ze środkami w wysokości $200 i kontynuuj korzystanie z bezpłatnych opcji