Pomiń nawigację

Usługi mowy — cennik

Ujednolicone usługi przetwarzania mowy umożliwiające zamianę mowy na tekst i tekstu na mowę oraz tłumaczenie mowy

Ujednolicone usługi mowy oferują szeroką gamę możliwości generowania i rozpoznawania mowy, takich jak na przykład transkrypcja mowy, zamiana tekstu na mowę i tłumaczenie mowy. Usługi mowy oferują szeroką gamę możliwości generowania i rozpoznawania mowy, takich jak na przykład transkrypcja mowy, zamiana tekstu na mowę, tłumaczenie mowy i rozpoznawanie osoby mówiącej.

Eksplorowanie opcji cennika

Zastosuj filtry, aby dostosować opcje cennika do własnych potrzeb.

Ceny mają tylko charakter szacunkowy i nie stanowią rzeczywistych ofert cenowych. Rzeczywiste ceny mogą się różnić w zależności od typu umowy zawartej z firmą Microsoft, daty zakupu i kursu wymiany walut. Ceny są obliczane na podstawie wartości w dolarach amerykańskich i przeliczane przy użyciu stawek referencyjnych agencji Thomson Reuters, odświeżanych pierwszego dnia każdego miesiąca kalendarzowego. Zaloguj się do kalkulatora cen platformy Azure, aby zobaczyć ceny na podstawie bieżącego programu/oferty firmy Microsoft. Skontaktuj się ze specjalistą ds. sprzedaży platformy Azure, aby uzyskać więcej informacji na temat cen lub poprosić o ofertę cenową. Aby uzyskać więcej informacji na temat cen platformy Azure, zobacz często zadawane pytania.

Bezpłatna (F0)

Kategoria Funkcje Cena
Zamiana mowy na tekst
(rozliczenia za sekundę)
Standard Bezpłatne godziny audio na miesiąc: 5
Niestandardowe Bezpłatne godziny audio na miesiąc: 5
Hosting punktów końcowych: 1 bezpłatny model na miesiąc1
Transkrypcja konwersacji — wielokanałowe audio WERSJA ZAPOZNAWCZA Bezpłatne godziny audio na miesiąc: 5
Zamiana tekstu na mowę
(rozliczenia za znak)
Neuronowa Bezpłatne znaki na miesiąc: 0.5 million
Tłumaczenie mowy
(rozliczenia za sekundę)
Standardowa Bezpłatne godziny audio na miesiąc: 5
Rozpoznawanie osoby mówiącej
(rozliczanie za transakcję)
Weryfikacja osoby mówiącej2 Bezpłatne transakcje miesięcznie: 10,000
Identyfikacja osoby mówiącej2 Bezpłatne transakcje miesięcznie: 10,000
Magazyn profilu usługi Voice Bezpłatne transakcje miesięcznie: 10,000

Sprawdź dokumentację, aby uzyskać informacje dotyczące przydziałów, limitów i instrukcje dotyczące sposobu zwiększania liczby równoczesnych żądań.

1Nieużywane modele zostaną automatycznie zlikwidowane po 7 dniach.

2Rozpoznawanie osoby mówiącej jest funkcją z ograniczonym dostępem wymagającą składania wniosku w celu uzyskania dostępu.

Płać zgodnie z rzeczywistym użyciem: płać tylko za to, czego używasz.

Wystąpienie Kategoria Funkcje Cena
Standardowa — internet/kontener
100 współbieżnych żądań dla modelu podstawowego
20 współbieżnych żądań dla modelu niestandardowego1
Zamiana mowy na tekst Standard2 $- za godzinę audio
Niestandardowe $- za godzinę audio
Hosting punktów końcowych: $- za model na godzinę
Rozszerzone funkcje dodatku:
  • Identyfikacja języka
  • Diaryzacja wsadowa dla ponad 3 osób mówiących
$- per audio hour per feature
Transkrypcja konwersacji — wielokanałowe audio WERSJA ZAPOZNAWCZA $- za godzinę audio1
Zamiana tekstu na mowę
(rozliczenia za znak)
Neuronowa Synteza w czasie rzeczywistym: $- za 1M znaki
Tworzenie długich materiałów dźwiękowych: $- za 1 mln znaków
Niestandardowe sieci neuronowe2 Trenowanie: $- za godzinę obliczeniową, do $- za trenowanie
Synteza w czasie rzeczywistym: $- za 1 mln znaków
Hosting punktów końcowych: $- za model na godzinę
Tworzenie długich materiałów dźwiękowych: $- za 1 mln znaków
Tłumaczenie mowy
(rozliczenia za sekundę)
Standardowa $- za godzinę audio
Rozpoznawanie osoby mówiącej
(rozliczanie za transakcję)
Weryfikacja osoby mówiącej3 $- za 1,000 transakcji
Identyfikacja osoby mówiącej3 $- za 1,000 transakcji
Magazyn profilu usługi Voice $- za następującą liczbę profili głosu: 1,000 (liczba bezpłatnych profili głosu miesięcznie: 10,000)

Sprawdź dokumentację, aby uzyskać informacje dotyczące przydziałów, limitów i instrukcje dotyczące sposobu zwiększania liczby równoczesnych żądań.

1 Są to ceny publicznej wersji zapoznawczej. Cena usługi ogólnie dostępnej zostanie podana później, po ogłoszeniu ogólnej dostępności.

2 Niestandardowy neuronowy model głosu (CNV) jest rozwiązaniem o ograniczonym dostępie w wersjach Pro i Lite. Za pomocą wersji CNV Lite (publiczna wersja zapoznawcza) klienci mogą nagrywać własne głosy i tworzyć model na potrzeby prezentacji/oceny, zanim złożą wniosek o dostęp do wersji Pro. Sprawdź, gdzie jest dostępne rozwiązanie CNV.

3 Rozpoznawanie osoby mówiącej jest funkcją z ograniczonym dostępem wymagającą składania wniosku w celu uzyskania dostępu.

Warstwy zobowiązań

Dostęp do tego cennika jest ograniczony. Zawnioskuj tutaj.

Wystąpienie Kategoria Funkcje Cena (miesięcznie) Nadwyżka
Azure — warstwa Standardowa Zamiana mowy na tekst Standard $- za 2,000 godz. $- za godzinę
$- za 10,000 godz. $- za godzinę
$- za 50,000 godz. $- za godzinę
Niestandardowe $- za 2,000 godz. $- za godzinę
$- za 10,000 godz. $- za godzinę
$- za 50,000 godz. $- za godzinę
Zamiana tekstu na mowę Neuronowa1 $- za 80 mln znaków $- na 1 mln znaków
$- za 400 mln znaków $- na 1 mln znaków
$- za 2,000 mln znaków $- na 1 mln znaków
Połączony kontener — warstwa Standardowa Zamiana mowy na tekst Standard $- za 2,000 godz. $- za godzinę
$- za 10,000 godz. $- za godzinę
$- za 50,000 godz. $- za godzinę
Niestandardowe $- za 2,000 godz. $- za godzinę
$- za 10,000 godz. $- za godzinę
$- za 50,000 godz. $- za godzinę
Zamiana tekstu na mowę Neuronowa1 $- za 80 mln znaków $- na 1 mln znaków
$- za 400 mln znaków $- na 1 mln znaków
$- za 2,000 mln znaków $- na 1 mln znaków
Odłączony kontener Zamiana mowy na tekst Standard Zarejestruj się, aby uzyskać dostęp
Dowiedz się więcej
Zamiana tekstu na mowę Neuronowa1 Zarejestruj się, aby uzyskać dostęp
Dowiedz się więcej
1 Tylko synteza w czasie rzeczywistym, nie obejmuje to długiego tworzenia dźwięku.

Te funkcje są przestarzałe i pozostają dostępne tylko dla istniejących klientów. Sprawdź szczegóły i dowiedz się, jak przeprowadzić migrację do nowych funkcji.

Wystąpienie Kategoria Funkcje Cena
Bezpłatnie - Internet/kontener
Równoczesne żądania: 1
Zamiana tekstu na mowę Standard Bezpłatne znaki na miesiąc: 5 million
Niestandardowe Bezpłatne znaki na miesiąc: 5 million
Hosting punktów końcowych: 1 bezpłatny model na miesiąc
Standardowa — internet/kontener
100 współbieżnych żądań dla modelu podstawowego
20 współbieżnych żądań dla modelu niestandardowego
Zamiana tekstu na mowę Standard $- za 1 mln znaków
Niestandardowe $- za 1 mln znaków
Hosting punktów końcowych: $- za model na godzinę

Opcje cen i zakupu platformy Azure

Skontaktuj się z nami bezpośrednio

Zapoznaj się z przewodnikiem dotyczącym cen platformy Azure. Poznaj ceny rozwiązania w chmurze, dowiedz się więcej o optymalizacji kosztów i poproś o ofertę niestandardową.

Rozmowa ze specjalistą ds. sprzedaży

Zobacz sposoby zakupu

Kup usługi platformy Azure za pośrednictwem witryny internetowej platformy Azure, przedstawiciela firmy Microsoft lub partnera platformy Azure.

Poznaj swoje opcje

Dodatkowe zasoby

Usługi mowy

Dowiedz się więcej o funkcjach i możliwościach produktu Usługi mowy.

Kalkulator cen

Oszacuj oczekiwane miesięczne koszty używania dowolnej kombinacji produktów platformy Azure.

Dokumentacja

Przejrzyj samouczki techniczne, materiały wideo i inne zasoby dotyczące produktu Usługi mowy.

    • W przypadku funkcji Zamiana mowy na tekst i Tłumaczenie mowy użycie jest rozliczane w jednosekundowych przyrostach.
    • W przypadku zamiany tekstu na mowę: użycie jest rozliczane za znak. Sprawdź definicję znaku w notatce o cenach.
    • W przypadku zamiana mowy na tekst i zamiany tekstu na mowę hosting punktów końcowych na potrzeby modeli niestandardowych jest rozliczany za sekundę dla każdego modelu.
    • W przypadku poleceń niestandardowych: rozliczenia są śledzone jako użycie funkcji Zamiana mowy na tekst, Zamiana tekstu na mowę i Language Understanding. Polecenia niestandardowe nie wprowadzają nowych mierników rozliczeń.
    • Za trenowanie modeli zamiany mowy na tekst nie są naliczane żadne opłaty. Jedyne koszty to hosting punktów końcowych za model po wdrożeniu, a następnie koszt za godzinę audio usługi Niestandardowa zamiana mowy na tekst.
  • Usługa mowy umożliwia użytkownikom adaptowanie modeli będących punktem odniesienia w oparciu o własne dane akustyczne i dotyczące języka, co prowadzi do opracowywania niestandardowych modeli mowy, których można używać względem opcji Zamiana mowy na tekst i Tłumaczenie mowy.

  • Model języka to rozkład prawdopodobieństwa dla sekwencji słów. Model języka pomaga systemowi wybierać między sekwencjami słów, które brzmią podobnie, na podstawie prawdopodobieństwa wystąpienia danych sekwencji. Na przykład sekwencje „rozpoznawanie mowy” i „ospo zna Wanię nowy” brzmią podobnie, ale pierwsza hipoteza jest znacznie bardziej prawdopodobna i dlatego model języka przypisze jej wyższą ocenę. Jeśli oczekujesz, że do aplikacji będą kierowane zapytania głosowe zawierające konkretne słownictwo, np. nazwy produktów lub żargon, które rzadko występują w typowej mowie, prawdopodobnie uzyskasz lepszą wydajność po dostosowaniu modelu języka. Jeśli na przykład tworzysz aplikację do głosowego przeszukiwania witryny MSDN, najprawdopodobniej terminy takie jak „obiektowe”, „przestrzeń nazw” lub „dot net” będą występować częściej niż w typowych aplikacjach głosowych. Dostosowanie modelu języka umożliwi systemowi nauczenie się tego.

  • Model akustyczny to klasyfikator oznaczający krótkie fragmenty audio jako jeden z kilku fonemów (jednostek dźwięku) w każdym języku. Te fonemy można następnie połączyć w celu utworzenia słów. Na przykład słowo „mowa” składa się z czterech fonemów: m, o, w, a. Te klasyfikacje są dokonywane z szybkością ok. 100 na sekundę. Dostosowanie modelu akustycznego może umożliwić systemowi naukę lepszego rozpoznawania mowy w nietypowych środowiskach. Na przykład w przypadku aplikacji zaprojektowanej do użycia przez pracowników magazynu lub fabryki dostosowany model akustyczny może dokładniej rozpoznawać mowę wśród hałasu typowego dla tych środowisk.

  • Usługa Mowa oferuje szeroką gamę czcionek głosowych zamiany tekstu na mowę (TTS), natomiast niestandardowy neuronowy model głosu umożliwia tworzenie własnego niestandardowego głosu, który pasuje do Twoich potrzeb i Twojej marki. Przeczytaj blog, aby uzyskać więcej informacji.

  • Istnieją scenariusze, w których osoby mówiące lub wiele osób mówiących może mówić w wielu językach za pośrednictwem tego samego pliku dźwiękowego lub prezentacji na żywo. Ciągłe wykrywanie języka umożliwia zidentyfikowanie zmiany w języku mówionym i dokładną transkrypcję mowy. Ta funkcja będzie bezpłatna w ramach prywatnej wersji zapoznawczej, a dostęp do niej będzie można uzyskać za pośrednictwem zestawu SDK usługi Mowa. Przejdź do dokumentacji, aby dowiedzieć się więcej.

Porozmawiaj ze specjalistą ds. sprzedaży, który przedstawi Ci cennik platformy Azure. Zapoznaj się z informacjami o cenach swojego rozwiązania w chmurze.

Uzyskaj bezpłatne usługi online i $200 środków na eksplorowanie platformy Azure przez 30 dni.

Dodano do oszacowania. Naciśnij klawisz „v”, aby wyświetlić w kalkulatorze