Cennik usługi Cognitive Services — usługi mowy

Używaj interfejsów API analizy, aby dodawać funkcje analizy obrazu, języka i wyszukiwania.

Ujednolicone usługi mowy oferują szeroką gamę możliwości generowania i rozpoznawania mowy, takich jak na przykład transkrypcja mowy, zamiana tekstu na mowę i tłumaczenie mowy.

Szczegóły cennika

Neuronowa zamiana tekstu na mowę jest teraz ogólnie dostępna. Pokazane ceny są cenami wersji ogólnie dostępnej, obowiązującymi od 1 lipca 2019 r. Do 30 czerwca 2019 r. opłata będzie naliczana z rabatem równym 50%.

Kontener usługi Mowa jest w publicznej wersji zapoznawczej.

Wystąpienie Kategoria Funkcje Cena
Bezpłatnie - Internet/kontener
Równoczesne żądania: 11
Zamiana mowy na tekst Standardowa Bezpłatne godziny audio na miesiąc: 5
Niestandardowe Bezpłatne godziny audio na miesiąc: 5
Hosting punktów końcowych: 1 bezpłatny model na miesiąc 2
Transkrypcja konwersacji — wielokanałowe audio WERSJA ZAPOZNAWCZA 3 Bezpłatne godziny audio na miesiąc: 5
Zamiana tekstu na mowę Standardowa Bezpłatnie 5 mln znaków na miesiąc
Neuronowa Bezpłatnie 0.5 mln znaków na miesiąc
Niestandardowe Bezpłatnie 5 mln znaków na miesiąc
Hosting punktów końcowych: 1 bezpłatny model na miesiąc
Tłumaczenie mowy Standardowa Bezpłatne godziny audio na miesiąc: 5
Standardowa - Internet/kontener
Równoczesne żądania: 20 1
Zamiana mowy na tekst Standardowa $- za godzinę audio
Niestandardowe $- za godzinę audio
Hosting punktów końcowych: $- za model na godzinę
Transkrypcja konwersacji — wielokanałowe audio WERSJA ZAPOZNAWCZA 3 $- za godzinę audio 4
Zamiana tekstu na mowę Standardowa $- za 1 mln znaków
Neuronowa $- za 1 mln znaków 5
Niestandardowe $- za 1 mln znaków
Hosting punktów końcowych: $- za model miesięcznie
Niestandardowe sieci neuronowe WERSJA ZAPOZNAWCZA 6 Synteza w czasie rzeczywistym: $- za 1 mln znaków
Tworzenie głosu: kontakt z nami
Hosting punktów końcowych: $- za model na godzinę
Tworzenie długich materiałów dźwiękowych: $- za 1 mln znaków
Tłumaczenie mowy Standardowa $- za godzinę audio

1Równoczesne żądania zastosowane tylko do internetowych punktów końcowych.

2Nieużywane modele zostaną automatycznie zlikwidowane po 7 dniach.

3Na potrzeby wielokanałowej transkrypcji konwersacji zaleca się używanie macierzy mikrofonowej typu Circular Microphone Array. Więcej informacji można znaleźć w dokumentacji zestawu Microsoft Speech Device SDK.

4Są to ceny publicznej wersji zapoznawczej. Cena usługi ogólnie dostępnej zostanie podana później, po ogłoszeniu ogólnej dostępności.

5Pokazane ceny są cenami wersji ogólnie dostępnej, obowiązującymi od 1 lipca 2019 r. Do 30 czerwca 2019 r. opłata za funkcję Neuronowa zamiana tekstu na mowę będzie naliczana z 50% zniżką. Regiony, w których jest dostępna Neuronowa zamiana tekstu na mowę, wymieniono w dokumentacji usługi neuronowej.

6Funkcja niestandardowego neuronowego modelu głosu jest w ograniczonej wersji zapoznawczej. Dowiedz się więcej o tym procesie ograniczania.

Pomoc techniczna i umowa SLA

  • Oferta obejmuje bezpłatną pomoc techniczną dotyczącą rozliczeń i zarządzania subskrypcją.
  • Gwarantujemy, że usługi Cognitive Services działające w warstwie Standardowa będą dostępne przez co najmniej 99,9% czasu. W bezpłatnej wersji próbnej nie jest dostępna umowa SLA. Przeczytaj umowę SLA.

Często zadawane pytania

    • Opcje Tłumaczenie mowy, Zamiana mowy na tekst i Zamiana mowy na tekst w modelu mowy niestandardowej: opłaty za użycie są naliczane z zastosowaniem jednosekundowych przyrostów
    • Opcje Zamiana tekstu na mowę i Zamiana tekstu na mowę przy użyciu niestandardowej czcionki głosowej: opłaty za użycie są naliczane za znak
    • Opcja Hostowanie niestandardowego modelu mowy: opłaty za użycie są naliczane godzinowo. Opcja Hostowanie niestandardowej czcionki głosowej: opłaty za użycie są naliczane dziennie.
  • Usługa mowy umożliwia użytkownikom adaptowanie modeli będących punktem odniesienia w oparciu o własne dane akustyczne i dotyczące języka, co prowadzi do opracowywania niestandardowych modeli mowy, których można używać względem opcji Zamiana mowy na tekst i Tłumaczenie mowy.

  • Model języka to rozkład prawdopodobieństwa dla sekwencji słów. Model języka pomaga systemowi wybierać między sekwencjami słów, które brzmią podobnie, na podstawie prawdopodobieństwa wystąpienia danych sekwencji. Na przykład sekwencje „rozpoznawanie mowy” i „ospo zna Wanię nowy” brzmią podobnie, ale pierwsza hipoteza jest znacznie bardziej prawdopodobna i dlatego model języka przypisze jej wyższą ocenę. Jeśli oczekujesz, że do aplikacji będą kierowane zapytania głosowe zawierające konkretne słownictwo, np. nazwy produktów lub żargon, które rzadko występują w typowej mowie, prawdopodobnie uzyskasz lepszą wydajność po dostosowaniu modelu języka. Jeśli na przykład tworzysz aplikację do głosowego przeszukiwania witryny MSDN, najprawdopodobniej terminy takie jak „obiektowe”, „przestrzeń nazw” lub „dot net” będą występować częściej niż w typowych aplikacjach głosowych. Dostosowanie modelu języka umożliwi systemowi nauczenie się tego.

  • Model akustyczny to klasyfikator oznaczający krótkie fragmenty audio jako jeden z kilku fonemów (jednostek dźwięku) w każdym języku. Te fonemy można następnie połączyć w celu utworzenia słów. Na przykład słowo „mowa” składa się z czterech fonemów: m, o, w, a. Te klasyfikacje są dokonywane z szybkością ok. 100 na sekundę. Dostosowanie modelu akustycznego może umożliwić systemowi naukę lepszego rozpoznawania mowy w nietypowych środowiskach. Na przykład w przypadku aplikacji zaprojektowanej do użycia przez pracowników magazynu lub fabryki dostosowany model akustyczny może dokładniej rozpoznawać mowę wśród hałasu typowego dla tych środowisk.

  • Oferowane przez firmę Microsoft usługi mowy obsługują ponad 70 głosów domyślnych (znanych również jako czcionki głosowe) w ponad 40 językach, co ułatwia konwertowanie tekstu na dźwięk. Jednak wraz ze wzrostem popularności asystenta wirtualnego i różnych aplikacji obsługujących mowę wiele firm chciałoby mieć reprezentujący ją, unikatowy głos, który zaprojektowano specjalnie z myślą o jej tożsamości. Na przykład w przypadku opracowywania czatbota dla usługi obsługi klientów można powiązać go z unikatowym głosem marki firmy, aby zwiększyć stopień przywiązania klientów. Podobnie deweloper wbudowanego w samochodzie oprogramowania do nawigacji może włączyć funkcję zamiany tekstu na mowę w różnych głosach niestandardowych w celu zwiększenia atrakcyjności środowiska użytkownika.

    Dzięki portalowi do tworzenia głosów niestandardowych Voice Studio można w prosty sposób wykonywać takie zadania. Korzystając z własnych danych audio (nagrany głos ludzki z powiązanymi skryptami), można wygenerować niestandardową czcionkę głosową, która następnie zostanie wdrożona w usłudze zamiany tekstu na mowę firmy Microsoft i którą można łatwo dołączać do aplikacji przy użyciu punktu końcowego interfejsu API do użytku własnego.

Zasoby

Oszacuj miesięczne koszty usług systemu Azure

Przejrzyj często zadawane pytania na temat cennika platformy Azure

Dowiedz się więcej o Cognitive Services

Przejrzyj samouczki techniczne, materiały wideo i inne zasoby

Dodano do oszacowania. Naciśnij klawisz „v”, aby wyświetlić w kalkulatorze

Rozpocznij naukę i tworzenie ze środkami w wysokości $200 i kontynuuj korzystanie z bezpłatnych opcji