Cennik usługi Cognitive Services — usługi mowy

Używaj interfejsów API analizy, aby dodawać funkcje analizy obrazu, języka i wyszukiwania

Ujednolicone usługi mowy oferują szeroką gamę możliwości generowania i rozpoznawania mowy, takich jak na przykład transkrypcja mowy, zamiana tekstu na mowę i tłumaczenie mowy. Usługi mowy oferują szeroką gamę możliwości generowania i rozpoznawania mowy, takich jak na przykład transkrypcja mowy, zamiana tekstu na mowę, tłumaczenie mowy i rozpoznawanie osoby mówiącej.

Szczegóły cennika

Wystąpienie Kategoria Funkcje Cena
Bezpłatnie - Internet/kontener
Równoczesne żądania: 11
Zamiana mowy na tekst Standard Bezpłatne godziny audio na miesiąc: 5
Niestandardowe Bezpłatne godziny audio na miesiąc: 5
Hosting punktów końcowych: 1 bezpłatny model na miesiąc 2
Transkrypcja konwersacji — wielokanałowe audio WERSJA ZAPOZNAWCZA 3 Bezpłatne godziny audio na miesiąc: 5
Zamiana tekstu na mowę Standard Bezpłatne znaki na miesiąc: 5 million
Neuronowa Bezpłatne znaki na miesiąc: 0.5 million
Niestandardowe Bezpłatne znaki na miesiąc: 5 million
Hosting punktów końcowych: 1 bezpłatny model na miesiąc
Tłumaczenie mowy Standardowa Bezpłatne godziny audio na miesiąc: 5
Rozpoznawanie osoby mówiącej7 Weryfikacja osoby mówiącej Bezpłatne transakcje miesięcznie: 10,000
Identyfikacja osoby mówiącej Bezpłatne transakcje miesięcznie: 10,000
Standardowa - Internet/kontener
Równoczesne żądania: 20 1
Zamiana mowy na tekst Standard $- za godzinę audio
Niestandardowe $- za godzinę audio
Hosting punktów końcowych: $- za model na godzinę
Transkrypcja konwersacji — wielokanałowe audio WERSJA ZAPOZNAWCZA 3 $- za godzinę audio 4
Zamiana tekstu na mowę Standard $- za 1 mln znaków
Neuronowa $- za 1 mln znaków 5
Tworzenie długich materiałów dźwiękowych: $- za 1 mln znaków
Niestandardowe $- za 1 mln znaków
Hosting punktów końcowych: $- za model na godzinę
Niestandardowe sieci neuronowe WERSJA ZAPOZNAWCZA 6 Tworzenie głosu: kontakt z nami
Synteza w czasie rzeczywistym: $- za 1 mln znaków
Hosting punktów końcowych: $- za model na godzinę
Tworzenie długich materiałów dźwiękowych: $- za 1 mln znaków
Tłumaczenie mowy Standardowa $- za godzinę audio
Rozpoznawanie osoby mówiącej7 Weryfikacja osoby mówiącej $- za 1,000 transakcji
Identyfikacja osoby mówiącej $- za 1,000 transakcji

Więcej szczegółowych informacji na temat limitów przydziałów i ograniczeń dla wszystkich warstw cenowych można znaleźć w dokumentacji.

1Aby zwiększyć liczbę współbieżnych żądań, zobacz instrukcje.

2Nieużywane modele zostaną automatycznie zlikwidowane po 7 dniach.

3Na potrzeby wielokanałowej transkrypcji konwersacji zaleca się używanie macierzy mikrofonowej typu Circular Microphone Array. Więcej informacji można znaleźć w dokumentacji zestawu Microsoft Speech Device SDK.

4Są to ceny publicznej wersji zapoznawczej. Cena usługi ogólnie dostępnej zostanie podana później, po ogłoszeniu ogólnej dostępności.

5Regiony, w których jest dostępna Neuronowa zamiana tekstu na mowę, wymieniono w dokumentacji usługi neuronowej.

6Funkcja niestandardowego neuronowego modelu głosu jest w ograniczonej wersji zapoznawczej. Dowiedz się więcej o tym procesie ograniczania.

7Rozpoznawanie osoby mówiącej jest obecnie dostępne tylko w regionie Zachodnie stany USA. Wybierz region „Zachodnie stany USA”, aby zobaczyć cennik rozpoznawania osoby mówiącej.

Pomoc techniczna i umowa SLA

 • Oferta obejmuje bezpłatną pomoc techniczną dotyczącą rozliczeń i zarządzania subskrypcją.
 • Gwarantujemy, że usługi Cognitive Services działające w warstwie Standardowa będą dostępne przez co najmniej 99,9% czasu. W bezpłatnej wersji próbnej nie jest dostępna umowa SLA. Przeczytaj umowę SLA.

Często zadawane pytania

  • Opcje Tłumaczenie mowy, Zamiana mowy na tekst i Zamiana mowy na tekst w modelu mowy niestandardowej: opłaty za użycie są naliczane z zastosowaniem jednosekundowych przyrostów.
  • Opcje Zamiana tekstu na mowę i Zamiana tekstu na mowę przy użyciu niestandardowej czcionki głosowej: opłaty za użycie są naliczane za znak.
  • Opcja Hostowanie niestandardowego modelu mowy: opłaty za użycie są naliczane godzinowo. Opcja Hostowanie niestandardowej czcionki głosowej: opłaty za użycie są naliczane dziennie.
  • W przypadku poleceń niestandardowych: rozliczenia są śledzone jako użycie funkcji Zamiana mowy na tekst, Zamiana tekstu na mowę i Language Understanding. Polecenia niestandardowe nie wprowadzają nowych mierników rozliczeń.
  • Za trenowanie modeli mowy nie jest naliczana opłata. Jedyny koszt dotyczy hostowania modelu po wytrenowaniu, a następnie naliczane są opłaty za godzinę transkrypcji mowy.
 • Usługa mowy umożliwia użytkownikom adaptowanie modeli będących punktem odniesienia w oparciu o własne dane akustyczne i dotyczące języka, co prowadzi do opracowywania niestandardowych modeli mowy, których można używać względem opcji Zamiana mowy na tekst i Tłumaczenie mowy.

 • Model języka to rozkład prawdopodobieństwa dla sekwencji słów. Model języka pomaga systemowi wybierać między sekwencjami słów, które brzmią podobnie, na podstawie prawdopodobieństwa wystąpienia danych sekwencji. Na przykład sekwencje „rozpoznawanie mowy” i „ospo zna Wanię nowy” brzmią podobnie, ale pierwsza hipoteza jest znacznie bardziej prawdopodobna i dlatego model języka przypisze jej wyższą ocenę. Jeśli oczekujesz, że do aplikacji będą kierowane zapytania głosowe zawierające konkretne słownictwo, np. nazwy produktów lub żargon, które rzadko występują w typowej mowie, prawdopodobnie uzyskasz lepszą wydajność po dostosowaniu modelu języka. Jeśli na przykład tworzysz aplikację do głosowego przeszukiwania witryny MSDN, najprawdopodobniej terminy takie jak „obiektowe”, „przestrzeń nazw” lub „dot net” będą występować częściej niż w typowych aplikacjach głosowych. Dostosowanie modelu języka umożliwi systemowi nauczenie się tego.

 • Model akustyczny to klasyfikator oznaczający krótkie fragmenty audio jako jeden z kilku fonemów (jednostek dźwięku) w każdym języku. Te fonemy można następnie połączyć w celu utworzenia słów. Na przykład słowo „mowa” składa się z czterech fonemów: m, o, w, a. Te klasyfikacje są dokonywane z szybkością ok. 100 na sekundę. Dostosowanie modelu akustycznego może umożliwić systemowi naukę lepszego rozpoznawania mowy w nietypowych środowiskach. Na przykład w przypadku aplikacji zaprojektowanej do użycia przez pracowników magazynu lub fabryki dostosowany model akustyczny może dokładniej rozpoznawać mowę wśród hałasu typowego dla tych środowisk.

 • Oferowane przez firmę Microsoft usługi mowy obsługują ponad 70 głosów domyślnych (znanych również jako czcionki głosowe) w ponad 40 językach, co ułatwia konwertowanie tekstu na dźwięk. Jednak wraz ze wzrostem popularności asystenta wirtualnego i różnych aplikacji obsługujących mowę wiele firm chciałoby mieć reprezentujący ją, unikatowy głos, który zaprojektowano specjalnie z myślą o jej tożsamości. Na przykład w przypadku opracowywania czatbota dla usługi obsługi klientów można powiązać go z unikatowym głosem marki firmy, aby zwiększyć stopień przywiązania klientów. Podobnie deweloper wbudowanego w samochodzie oprogramowania do nawigacji może włączyć funkcję zamiany tekstu na mowę w różnych głosach niestandardowych w celu zwiększenia atrakcyjności środowiska użytkownika.

  Dzięki portalowi do tworzenia głosów niestandardowych Voice Studio można w prosty sposób wykonywać takie zadania. Korzystając z własnych danych audio (nagrany głos ludzki z powiązanymi skryptami), można wygenerować niestandardową czcionkę głosową, która następnie zostanie wdrożona w usłudze zamiany tekstu na mowę firmy Microsoft i którą można łatwo dołączać do aplikacji przy użyciu punktu końcowego interfejsu API do użytku własnego.

Zasoby

Oszacuj miesięczne koszty usług systemu Azure

Przejrzyj często zadawane pytania na temat cennika platformy Azure

Dowiedz się więcej o Azure Cognitive Services

Przejrzyj samouczki techniczne, materiały wideo i inne zasoby

Dodano do oszacowania. Naciśnij klawisz „v”, aby wyświetlić w kalkulatorze

Porozmawiaj ze specjalistą ds. sprzedaży, który przedstawi Ci cennik platformy Azure. Zapoznaj się z informacjami o cenach swojego rozwiązania w chmurze.

Uzyskaj bezpłatne usługi online i $200 środków na eksplorowanie platformy Azure przez 30 dni.