Pomiń nawigację

Cennik usługi Cognitive Services — usługi mowy

Dodawanie funkcji analizy obrazu, mowy, języka i informacji przy użyciu interfejsów API analizy

Ujednolicone usługi mowy oferują szeroką gamę możliwości generowania i rozpoznawania mowy, takich jak na przykład transkrypcja mowy, zamiana tekstu na mowę i tłumaczenie mowy.

Szczegóły cennika

Wystąpienie Równoczesne żądania Funkcje Cena
Bezpłatnie Równoczesne żądania: 1 Tłumaczenie mowy Bezpłatnie 5 godzin na miesiąc
Zamiana mowy na tekst Bezpłatnie 5 godzin na miesiąc
Zamiana mowy na tekst w modelu mowy niestandardowej Bezpłatnie 5 godzin na miesiąc
Hosting punktów końcowych mowy1 1 bezpłatny model na miesiąc
Text to Speech with Standard Voices Bezpłatnie 5 mln znaków na miesiąc
Zamiana tekstu na mowę przy użyciu niestandardowej czcionki głosowej Bezpłatnie 5 mln znaków na miesiąc
Text to Speech with Neural Voices 0.5M characters free per month
Hostowanie niestandardowej czcionki głosowej1 1 bezpłatny model na miesiąc
Standardowa Równoczesne żądania: 20 Tłumaczenie mowy $- za godzinę
Zamiana mowy na tekst $- za godzinę
Zamiana mowy na tekst w modelu mowy niestandardowej $- za godzinę
Hosting punktów końcowych mowy $-/model/miesiąc
Text to Speech with Standard Voices $- za 1 mln znaków
Zamiana tekstu na mowę przy użyciu niestandardowej czcionki głosowej $- za 1 mln znaków
Text to Speech with Neural Voices $- za 1 mln znaków2
Hostowanie niestandardowej czcionki głosowej $-/model/miesiąc
1Nieużywane modele zostaną automatycznie zlikwidowane po 7 dniach
2This is a public preview price for Text to Speech with Neural Voices.

Pomoc techniczna i umowa SLA

  • Oferta obejmuje bezpłatną pomoc techniczną dotyczącą rozliczeń i zarządzania subskrypcją.
  • Gwarantujemy, że usługi Cognitive Services działające w warstwie Standardowa będą dostępne przez co najmniej 99,9% czasu. W bezpłatnej wersji próbnej nie jest dostępna umowa SLA. Przeczytaj umowę SLA.

Często zadawane pytania

Usługi mowy

    • Opcje Tłumaczenie mowy, Zamiana mowy na tekst i Zamiana mowy na tekst w modelu mowy niestandardowej: opłaty za użycie są naliczane z zastosowaniem jednosekundowych przyrostów
    • Opcje Zamiana tekstu na mowę i Zamiana tekstu na mowę przy użyciu niestandardowej czcionki głosowej: opłaty za użycie są naliczane za znak
    • Opcja Hostowanie niestandardowego modelu mowy i Hostowanie niestandardowej czcionki głosowej: opłaty za użycie są naliczane dziennie
  • Usługa mowy umożliwia użytkownikom adaptowanie modeli będących punktem odniesienia w oparciu o własne dane akustyczne i dotyczące języka, co prowadzi do opracowywania niestandardowych modeli mowy, których można używać względem opcji Zamiana mowy na tekst i Tłumaczenie mowy.

  • Model języka to rozkład prawdopodobieństwa dla sekwencji słów. Model języka pomaga systemowi wybierać między sekwencjami słów, które brzmią podobnie, na podstawie prawdopodobieństwa wystąpienia danych sekwencji. Na przykład sekwencje „rozpoznawanie mowy” i „ospo zna Wanię nowy” brzmią podobnie, ale pierwsza hipoteza jest znacznie bardziej prawdopodobna i dlatego model języka przypisze jej wyższą ocenę. Jeśli oczekujesz, że do aplikacji będą kierowane zapytania głosowe zawierające konkretne słownictwo, np. nazwy produktów lub żargon, które rzadko występują w typowej mowie, prawdopodobnie uzyskasz lepszą wydajność po dostosowaniu modelu języka. Jeśli na przykład tworzysz aplikację do głosowego przeszukiwania witryny MSDN, najprawdopodobniej terminy takie jak „obiektowe”, „przestrzeń nazw” lub „dot net” będą występować częściej niż w typowych aplikacjach głosowych. Dostosowanie modelu języka umożliwi systemowi nauczenie się tego.

  • Model akustyczny to klasyfikator oznaczający krótkie fragmenty audio jako jeden z kilku fonemów (jednostek dźwięku) w każdym języku. Te fonemy można następnie połączyć w celu utworzenia słów. Na przykład słowo „mowa” składa się z czterech fonemów: m, o, w, a. Te klasyfikacje są dokonywane z szybkością ok. 100 na sekundę. Dostosowanie modelu akustycznego może umożliwić systemowi naukę lepszego rozpoznawania mowy w nietypowych środowiskach. Na przykład w przypadku aplikacji zaprojektowanej do użycia przez pracowników magazynu lub fabryki dostosowany model akustyczny może dokładniej rozpoznawać mowę wśród hałasu typowego dla tych środowisk.

  • Oferowane przez firmę Microsoft usługi mowy obsługują ponad 70 głosów domyślnych (znanych również jako czcionki głosowe) w ponad 40 językach, co ułatwia konwertowanie tekstu na dźwięk. Jednak wraz ze wzrostem popularności asystenta wirtualnego i różnych aplikacji obsługujących mowę wiele firm chciałoby mieć reprezentujący ją, unikatowy głos, który zaprojektowano specjalnie z myślą o jej tożsamości. Na przykład w przypadku opracowywania czatbota dla usługi obsługi klientów można powiązać go z unikatowym głosem marki firmy, aby zwiększyć stopień przywiązania klientów. Podobnie deweloper wbudowanego w samochodzie oprogramowania do nawigacji może włączyć funkcję zamiany tekstu na mowę w różnych głosach niestandardowych w celu zwiększenia atrakcyjności środowiska użytkownika.

    Dzięki portalowi do tworzenia głosów niestandardowych Voice Studio można w prosty sposób wykonywać takie zadania. Korzystając z własnych danych audio (nagrany głos ludzki z powiązanymi skryptami), można wygenerować niestandardową czcionkę głosową, która następnie zostanie wdrożona w usłudze zamiany tekstu na mowę firmy Microsoft i którą można łatwo dołączać do aplikacji przy użyciu punktu końcowego interfejsu API do użytku własnego.

Ogólne

  • Interfejsy API wyszukiwania Bing są fakturowane zgodnie z liczbą transakcji (nazywanych też wywołaniami interfejsu API). Te plany są rozliczane w ramach modelu płatności zgodnie z rzeczywistym użyciem i nie powodują naliczania dodatkowych opłat za złożone zapytania i więcej niż 10 wyników (w większości przypadków do 50 przypadków).

  • W przypadku przekroczenia dozwolonej liczby transakcji na sekundę (TPS) użycie zostanie ograniczone do określonego limitu. Jeśli potrzebujesz więcej transakcji na sekundę niż podano na tej stronie, skontaktuj się z zespołem pomocy technicznej platformy Azure.

  • Na potrzeby rozliczeń transakcja to pomyśle żądanie wywołania interfejsu API usługi Bing (istnieją jednak zastrzeżenia dotyczące ataków DoS). Na potrzeby rejestrowania i raportowania, na przykład w przypadku dodatku Statystyka Bing, jest to każde wywołanie interfejsu API usługi Bing (pomyślne i zakończone niepowodzeniem).

  • Możesz w dowolnym czasie zmienić warstwę usługi. Upewnij się, że używasz odpowiednich kluczy w wywołaniach interfejsu API. Jeśli masz umowę Enterprise Agreement z firmą Microsoft, skontaktuj się z kierownikiem ds. klientów.

Zasoby

Oszacuj miesięczne koszty usług systemu Azure

Przejrzyj często zadawane pytania na temat cennika systemu Azure

Dowiedz się więcej o Usługi poznawcze

Przejrzyj samouczki techniczne, materiały wideo i inne zasoby

Dodano do oszacowania. Naciśnij klawisz „v”, aby wyświetlić w kalkulatorze Wyświetl w kalkulatorze

Rozpocznij naukę i tworzenie ze środkami w wysokości $200 i kontynuuj korzystanie z bezpłatnych opcji