Przejdź do głównej zawartości

Mowa platformy Azure AI — cennik

Ujednolicone usługi przetwarzania mowy umożliwiające zamianę mowy na tekst i tekstu na mowę oraz tłumaczenie mowy

Ujednolicone usługi mowy oferują szeroką gamę możliwości generowania i rozpoznawania mowy, takich jak na przykład transkrypcja mowy, zamiana tekstu na mowę i tłumaczenie mowy. Usługi mowy oferują szeroką gamę możliwości generowania i rozpoznawania mowy, takich jak na przykład transkrypcja mowy, zamiana tekstu na mowę, tłumaczenie mowy i rozpoznawanie osoby mówiącej.

Eksplorowanie opcji cennika

Zastosuj filtry, aby dostosować opcje cennika do własnych potrzeb.

Ceny są jedynie szacunkowe i nie stanowią rzeczywistych ofert cenowych. Rzeczywiste ceny mogą się różnić w zależności od typu umowy zawartej z firmą Microsoft, daty zakupu i kursu wymiany walut. Ceny są obliczane na podstawie kursu dolara amerykańskiego i przeliczane przy użyciu londyńskich kursów zamknięcia typu spot z dwóch dni roboczych przed ostatnim dniem roboczym końca poprzedniego miesiąca. Jeżeli dwa dni robocze poprzedzające koniec miesiąca przypadają na dni świąteczne na głównych rynkach, dniem ustalenia kursu jest zazwyczaj dzień bezpośrednio poprzedzający te dwa dni robocze. Ten kurs dotyczy wszystkich transakcji w nadchodzącym miesiącu. Zaloguj się do kalkulatora cen platformy Azure, aby zobaczyć ceny na podstawie bieżącego programu/oferty firmy Microsoft. Skontaktuj się ze specjalistą ds. sprzedaży platformy Azure, aby uzyskać więcej informacji na temat cen lub poprosić o wycenę. Zobacz często zadawane pytania dotyczące cen platformy Azure.

Bezpłatna (F0)

Kategoria Funkcje Cena
Zamiana mowy na tekst
(rozliczenia za sekundę)
Standard Bezpłatne godziny audio na miesiąc: 53
Niestandardowe Bezpłatne godziny audio na miesiąc: 53
Hosting punktów końcowych: 1 bezpłatny model na miesiąc1
Transkrypcja konwersacji — wielokanałowe audio WERSJA ZAPOZNAWCZA Bezpłatne godziny audio na miesiąc: 5
Zamiana tekstu na mowę
(rozliczenia za znak)
Neuronowa Bezpłatne znaki na miesiąc: 0.5 million
Tłumaczenie mowy
(rozliczenia za sekundę)
Standardowa Bezpłatne godziny audio na miesiąc: 5
Rozpoznawanie osoby mówiącej
(rozliczanie za transakcję)
Weryfikacja osoby mówiącej2 Bezpłatne transakcje miesięcznie: 10,000
Identyfikacja osoby mówiącej2 Bezpłatne transakcje miesięcznie: 10,000
Magazyn profilu usługi Voice Bezpłatne transakcje miesięcznie: 10,000

Sprawdź dokumentację, aby uzyskać informacje dotyczące przydziałów, limitów i instrukcje dotyczące sposobu zwiększania liczby równoczesnych żądań.

1Nieużywane modele zostaną automatycznie zlikwidowane po 7 dniach.

2Rozpoznawanie osoby mówiącej jest funkcją z ograniczonym dostępem wymagającą składania wniosku w celu uzyskania dostępu.

3Bezpłatne godziny audio dla zamiany mowy na tekst są współużytkowane między warstwami Standardowa i Niestandardowa. Usługa Batch nie jest obsługiwana.

Płać zgodnie z rzeczywistym użyciem: płać tylko za to, czego używasz.

Kategoria Funkcje Cena
Zamiana mowy na tekst
(rozliczenia za sekundę)
Czas rzeczywisty Interfejs API usługi Batch
w wersji 3.2 lub nowszej4
Standard $- za godz. $- za godz.
Niestandardowe $- za godz.
Hosting punktów końcowych: $- za model na godzinę
$- za godz.
Hosting punktów końcowych: nie dotyczy
Niestandardowe trenowanie mowy6 $- za godzinę obliczeniową
Rozszerzone funkcje dodatku:
 • Ciągła identyfikacja języka
 • Diaryzacja
 • Ocena wymowy (prozodia, gramatyka, słownictwo, temat)
$- na godzinę na funkcję Uwzględniono funkcje Ciągła identyfikacja języka i Diaryzacja5
Transkrypcja konwersacji — wielokanałowe audio WERSJA ZAPOZNAWCZA $- za godz.1 ND
Zamiana tekstu na mowę
(rozliczenia za znak)
Neuronowa Synteza w czasie rzeczywistym i synteza wsadowa: $- za 1 mln znaków
Neuronowy HD Synteza partii i w czasie rzeczywistym: $- za 1 mln znaków
Niestandardowe sieci neuronowe2 Trenowanie: $- za godzinę obliczeniową, do $- za trenowanie
Synteza w czasie rzeczywistym i synteza wsadowa: $- za 1 mln znaków
Hosting punktów końcowych: $- za model na godzinę
Głos osobisty8 Tworzenie modelu głosu: bezpłatnie
Magazyn profilów głosowych: $- na 1000 profilów głosowych miesięcznie
Synteza: $- za 1 mln znaków
Awatar zamiany tekstu na mowę (rozliczenia za sekundę) Awatar Synteza w czasie rzeczywistym i partii: $- na minutę
Awatar niestandardowy9 Synteza w czasie rzeczywistym: $- za minutę
Synteza partii: $- na minutę
Hosting punktów końcowych: $- na model na godzinę
Tłumaczenie mowy
(rozliczenia za sekundę)
Standardowa $- za godzinę audio7
Rozpoznawanie osoby mówiącej
(rozliczanie za transakcję)
Weryfikacja osoby mówiącej3 $- za 1,000 transakcji
Identyfikacja osoby mówiącej3 $- za 1,000 transakcji
Magazyn profilu usługi Voice $- za następującą liczbę profili głosu: 1,000 (liczba bezpłatnych profili głosu miesięcznie: 10,000)

Sprawdź dokumentację, aby uzyskać informacje dotyczące przydziałów, limitów i instrukcje dotyczące sposobu zwiększania liczby równoczesnych żądań.

Godziny zamiany mowy na tekst są mierzone jako godziny audio wysyłanego do usługi, rozliczane w przyrostach sekundowych.

1 Są to ceny publicznej wersji zapoznawczej. Cena usługi ogólnie dostępnej zostanie podana później, po ogłoszeniu ogólnej dostępności.

2 Niestandardowy neuronowy model głosu (CNV) jest rozwiązaniem o ograniczonym dostępie w wersjach Pro i Lite. Za pomocą wersji CNV Lite (publiczna wersja zapoznawcza) klienci mogą nagrywać własne głosy i tworzyć model na potrzeby prezentacji/oceny, zanim złożą wniosek o dostęp do wersji Pro. Sprawdź, gdzie jest dostępne rozwiązanie CNV.

3 Rozpoznawanie osoby mówiącej jest funkcją z ograniczonym dostępem wymagającą składania wniosku w celu uzyskania dostępu.

4 Aby skorzystać z tych nowych cen, musisz użyć nowej wersji zapoznawczej V3.2 interfejsu API REST zamiany mowy na tekst. Zobacz Tworzenie transkrypcji partii — usługa rozpoznawania mowy — usługi platformy Azure AI | Microsoft Learn, aby uzyskać informacje na temat korzystania z nowego interfejsu API v3.2 w wersji zapoznawczej.

5 Ulepszone funkcje dodatków są uwzględniane w cenie usługi Batch dla wszystkich wersji interfejsu API usługi Batch.

6 Niestandardowe trenowanie mowy ma zastosowanie podczas dostosowywania dowolnego modelu podstawowego wydanego 1 października 2023 r. lub później.

7 Ta cena obejmuje 1 wejście i wyjście audio, maksymalnie 2 języki tłumaczenia tekstu przy użyciu standardowej lub niestandardowej zamiany mowy na tekst i standardowego tłumaczenia. W przypadku tłumaczenia niestandardowego lub ponad 3 języków tłumaczenia zapoznaj się ze stroną cen tłumaczenia tekstu w Tłumaczu platformy Azure AI..

8 Odzwierciedla to ceny publicznej wersji zapoznawczej. Cena ogólnej dostępności zostanie ogłoszona później w ogólnej dostępności. Głos osobisty to funkcja ograniczonego dostępu dedykowana wyłącznie określonym wstępnie zatwierdzonym przypadkom użycia, co wymaga składania wniosku o dostęp. Aby dowiedzieć się więcej o usłudze, sprawdź dokumentację.

9 Awatar niestandardowy jest funkcją możliwości z ograniczonym dostępem wymagającą składania wniosku w celu uzyskania dostępu

Warstwy zobowiązania — Azure — Standardowa

Kategoria Funkcje Cena (miesięcznie) Nadwyżka
Zamiana mowy na tekst Standard $- za 2,000 godz. $- za godzinę
$- za 10,000 godz. $- za godzinę
$- za 50,000 godz. $- za godzinę
Niestandardowe $- za 2,000 godz. $- za godzinę
$- za 10,000 godz. $- za godzinę
$- za 50,000 godz. $- za godzinę
Rozszerzone funkcje dodatku:2
 • Ciągła identyfikacja języka
 • Diaryzacja
 • Ocena wymowy (prozodia, gramatyka, słownictwo, temat)
$- za 2,000 godz. $- za godzinę
$- za 10,000 godz. $- za godzinę
$- za 50,000 godz. $- za godzinę
Zamiana tekstu na mowę Neuronowa1 $- za 80 mln znaków $- na 1 mln znaków
$- za 400 mln znaków $- na 1 mln znaków
$- za 2,000 mln znaków $- na 1 mln znaków

1Tylko synteza w czasie rzeczywistym, nie obejmuje to długiego tworzenia dźwięku.

2Funkcje dodatku Zamiana mowy na tekst w czasie rzeczywistym, Ciągła identyfikacja języka i Diaryzacja zawarte w funkcji zamiany mowy na tekst partii.

Warstwy zobowiązania — połączony kontener

Kategoria Funkcje Cena (miesięcznie) Nadwyżka
Zamiana mowy na tekst2 Standard $- za 2,000 godz. $- za godzinę
$- za 10,000 godz. $- za godzinę
$- za 50,000 godz. $- za godzinę
Niestandardowe $- za 2,000 godz. $- za godzinę
$- za 10,000 godz. $- za godzinę
$- za 50,000 godz. $- za godzinę
Rozszerzone funkcje dodatku:2
 • Identyfikacja języka
 • Diaryzacja
$- za 2,000 godz. $- za godzinę
$- za 10,000 godz. $- za godzinę
$- za 50,000 godz. $- za godzinę
Zamiana tekstu na mowę Neuronowa1 $- za 80 mln znaków $- na 1 mln znaków
$- za 400 mln znaków $- na 1 mln znaków
$- za 2,000 mln znaków $- na 1 mln znaków

1Tylko synteza w czasie rzeczywistym, nie obejmuje to długiego tworzenia dźwięku.

2Ceny dotyczą przypadków użycia w czasie rzeczywistym i w partiach. Brak oddzielnych cen partii dla kontenerów.

Zobacz dokumentację, aby uzyskać informacje na temat warstw zobowiązań.

Warstwy zobowiązania — odłączony kontener

Zarejestruj się, aby uzyskać dostęp do mowy w odłączonych kontenerach, lub dowiedz się więcej

Kategoria Funkcje Cena (na rok) Maksymalne użycie (na rok) Przewidywane użycie (na miesiąc)
Zamiana mowy na tekst2 Standard $-
$-
Zarejestruj się, aby uzyskać dostęp
Dowiedz się więcej
120 000 godzin
600 000 godzin
10 000 godzin
50 000 godzin
Niestandardowe $-
$-
Zarejestruj się, aby uzyskać dostęp
Dowiedz się więcej
120 000 godzin
600 000 godzin
10 000 godzin
50 000 godzin
Rozszerzone funkcje dodatku:
 • Identyfikacja języka
 • Diaryzacja
$-
$-
120 000 godzin
600 000 godzin
10 000 godzin
50 000 godzin
Zamiana tekstu na mowę Neuronowa1 $-
$-
Zarejestruj się, aby uzyskać dostęp
Dowiedz się więcej
4,8 mld znaków
24 mld znaków
400 mln znaków
2000 mln znaków

1Tylko synteza w czasie rzeczywistym, nie obejmuje to długiego tworzenia dźwięku.

2Ceny dotyczą przypadków użycia w czasie rzeczywistym i w partiach. Brak oddzielnych cen partii dla kontenerów.

Te funkcje są przestarzałe i pozostają dostępne tylko dla istniejących klientów. Sprawdź szczegóły i dowiedz się, jak przeprowadzić migrację do nowych funkcji.

Wystąpienie Kategoria Funkcje Cena
Bezpłatnie - Internet/kontener
Równoczesne żądania: 1
Zamiana tekstu na mowę Standard Bezpłatne znaki na miesiąc: 5 million
Niestandardowe Bezpłatne znaki na miesiąc: 5 million
Hosting punktów końcowych: 1 bezpłatny model na miesiąc
Standardowa — internet/kontener
100 współbieżnych żądań dla modelu podstawowego
20 współbieżnych żądań dla modelu niestandardowego
Zamiana tekstu na mowę Standard $- za 1 mln znaków
Niestandardowe $- za 1 mln znaków
Hosting punktów końcowych: $- za model na godzinę

Opcje cen i zakupu platformy Azure

Skontaktuj się z nami bezpośrednio

Zapoznaj się z przewodnikiem dotyczącym cen platformy Azure. Poznaj ceny rozwiązania w chmurze, dowiedz się więcej o optymalizacji kosztów i poproś o ofertę niestandardową.

Rozmowa ze specjalistą ds. sprzedaży

Zobacz sposoby zakupu

Kup usługi platformy Azure za pośrednictwem witryny internetowej platformy Azure, przedstawiciela firmy Microsoft lub partnera platformy Azure.

Poznaj swoje opcje

Dodatkowe zasoby

Mowa platformy Azure AI

Dowiedz się więcej o funkcjach i możliwościach produktu Mowa platformy Azure AI.

Kalkulator cen

Oszacuj oczekiwane miesięczne koszty używania dowolnej kombinacji produktów platformy Azure.

Dokumentacja

Przejrzyj samouczki techniczne, materiały wideo i inne zasoby dotyczące produktu Mowa platformy Azure AI.

  • W przypadku funkcji Zamiana mowy na tekst i Tłumaczenie mowy użycie jest rozliczane w jednosekundowych przyrostach.
  • W przypadku zamiany tekstu na mowę: użycie jest rozliczane za znak. Sprawdź definicję znaku w notatce o cenach.
  • W przypadku hostowania niestandardowego neuronowego modelu głosu: opłaty za użycie są naliczane za punkt końcowy na sekundę. Sprawdź szczegóły w uwagach dotyczących cen.
  • W przypadku osobistego magazynu profilów głosowych: opłaty za użycie są naliczane dziennie za profil głosowy. Sprawdź szczegóły w uwagach dotyczących cen.
  • W przypadku awatara zamiany tekstu na mowę użycie jest rozliczane na sekundę.
  • W przypadku zamiana mowy na tekst i zamiany tekstu na mowę (w tym Awatara) hosting punktów końcowych na potrzeby modeli niestandardowych jest rozliczany za sekundę dla danego modelu.
 • Usługa mowy umożliwia użytkownikom adaptowanie modeli będących punktem odniesienia w oparciu o własne dane akustyczne i dotyczące języka, co prowadzi do opracowywania niestandardowych modeli mowy, których można używać względem opcji Zamiana mowy na tekst i Tłumaczenie mowy.

 • Model języka to rozkład prawdopodobieństwa dla sekwencji słów. Model języka pomaga systemowi wybierać między sekwencjami słów, które brzmią podobnie, na podstawie prawdopodobieństwa wystąpienia danych sekwencji. Na przykład sekwencje „rozpoznawanie mowy” i „ospo zna Wanię nowy” brzmią podobnie, ale pierwsza hipoteza jest znacznie bardziej prawdopodobna i dlatego model języka przypisze jej wyższą ocenę. Jeśli oczekujesz, że do aplikacji będą kierowane zapytania głosowe zawierające konkretne słownictwo, np. nazwy produktów lub żargon, które rzadko występują w typowej mowie, prawdopodobnie uzyskasz lepszą wydajność po dostosowaniu modelu języka. Jeśli na przykład tworzysz aplikację do głosowego przeszukiwania witryny MSDN, najprawdopodobniej terminy takie jak „obiektowe”, „przestrzeń nazw” lub „dot net” będą występować częściej niż w typowych aplikacjach głosowych. Dostosowanie modelu języka umożliwi systemowi nauczenie się tego.

 • Model akustyczny to klasyfikator oznaczający krótkie fragmenty audio jako jeden z kilku fonemów (jednostek dźwięku) w każdym języku. Te fonemy można następnie połączyć w celu utworzenia słów. Na przykład słowo „mowa” składa się z czterech fonemów: m, o, w, a. Te klasyfikacje są dokonywane z szybkością ok. 100 na sekundę. Dostosowanie modelu akustycznego może umożliwić systemowi naukę lepszego rozpoznawania mowy w nietypowych środowiskach. Na przykład w przypadku aplikacji zaprojektowanej do użycia przez pracowników magazynu lub fabryki dostosowany model akustyczny może dokładniej rozpoznawać mowę wśród hałasu typowego dla tych środowisk.

 • Usługa Mowa oferuje szeroką gamę czcionek głosowych zamiany tekstu na mowę (TTS), natomiast niestandardowy neuronowy model głosu umożliwia tworzenie własnego niestandardowego głosu, który pasuje do Twoich potrzeb i Twojej marki. Przeczytaj blog, aby uzyskać więcej informacji.

 • Identyfikacja języka umożliwia zidentyfikowanie przełącznika w języku mówionym i odpowiednie transkrybowanie mowy. Można to zastosować w scenariuszach, w których język audio jest nieznany lub gdy osoby mówiące mogą mówić w wielu językach. Identyfikacja pojedynczego języka jest dostępna bez dodatkowych kosztów. Ciągła identyfikacja języka to ulepszona funkcja dodatku. Zobacz dokumenty, aby dowiedzieć się więcej.

  • Ocena wymowy ocenia wymowę i przekazuje osobom mówiącym opinie na temat dokładności i płynności mówionego dźwięku. Dzięki ocenie wymowy osoby uczące się języka mogą ćwiczyć, uzyskiwać błyskawiczne opinie i ulepszać swoją wymowę, dzięki czemu mogą mówić i prezentować bez obaw. Nauczyciele mogą korzystać z możliwości oceny wymowy wielu osób mówiących w czasie rzeczywistym. Sprawdź dokumentację aby dowiedzieć się więcej.
  • Naliczana jest opłata jako standardowa zamiana mowy na tekst, na przykład:
   w przypadku oceny 8 sekund mowy zostanie naliczona opłata w wysokości około $-

Porozmawiaj ze specjalistą ds. sprzedaży, który przedstawi Ci cennik platformy Azure. Zapoznaj się z informacjami o cenach swojego rozwiązania w chmurze.

Uzyskaj bezpłatne usługi online i $200 środków na eksplorowanie platformy Azure przez 30 dni.

Dodano do oszacowania. Naciśnij klawisz „v”, aby wyświetlić w kalkulatorze