Ujednolicone usługi przetwarzania mowy umożliwiające zamianę mowy na tekst i tekstu na mowę oraz tłumaczenie mowy
Ujednolicone usługi mowy oferują szeroką gamę możliwości generowania i rozpoznawania mowy, takich jak na przykład transkrypcja mowy, zamiana tekstu na mowę i tłumaczenie mowy. Usługi mowy oferują szeroką gamę możliwości generowania i rozpoznawania mowy, takich jak na przykład transkrypcja mowy, zamiana tekstu na mowę, tłumaczenie mowy i rozpoznawanie osoby mówiącej.
Eksplorowanie opcji cennika
Zastosuj filtry, aby dostosować opcje cennika do własnych potrzeb.
Prices are estimates only and are not intended as actual price quotes. Actual pricing may vary depending on the type of agreement entered with Microsoft, date of purchase, and the currency exchange rate. Prices are calculated based on US dollars and converted using London closing spot rates that are captured in the two business days prior to the last business day of the previous month end. If the two business days prior to the end of the month fall on a bank holiday in major markets, the rate setting day is generally the day immediately preceding the two business days. This rate applies to all transactions during the upcoming month. Sign in to the Azure pricing calculator to see pricing based on your current program/offer with Microsoft. Contact an Azure sales specialist for more information on pricing or to request a price quote. See frequently asked questions about Azure pricing.
Instytucje rządowe USA mogą zakupić usługi platformy Azure Government u dostawcy rozwiązań licencjonowania bez zobowiązań finansowych z góry lub bezpośrednio w ramach subskrypcji w modelu płatności zgodnie z rzeczywistym użyciem.
Ważne: cena w R$ jest ceną orientacyjną; jest to transakcja międzynarodowa, a cena ostateczna jest uzależniona od kursów walut i podatku transakcyjnego (IOF). Dokument eNF nie zostanie wystawiony.
Instytucje rządowe USA mogą zakupić usługi platformy Azure Government u dostawcy rozwiązań licencjonowania bez zobowiązań finansowych z góry lub bezpośrednio w ramach subskrypcji w modelu płatności zgodnie z rzeczywistym użyciem.
Ważne: cena w R$ jest ceną orientacyjną; jest to transakcja międzynarodowa, a cena ostateczna jest uzależniona od kursów walut i podatku transakcyjnego (IOF). Dokument eNF nie zostanie wystawiony.
Bezpłatna (F0)
Kategoria | Funkcje | Cena |
---|---|---|
Zamiana mowy na tekst (rozliczenia za sekundę) |
Standard | Bezpłatne godziny audio na miesiąc: 53 |
Niestandardowe |
Bezpłatne godziny audio na miesiąc: 53 Hosting punktów końcowych: 1 bezpłatny model na miesiąc1 |
|
Transkrypcja konwersacji — wielokanałowe audio WERSJA ZAPOZNAWCZA | Bezpłatne godziny audio na miesiąc: 5 | |
Zamiana tekstu na mowę (rozliczenia za znak) |
Neuronowa | Bezpłatne znaki na miesiąc: 0.5 million |
Tłumaczenie mowy (rozliczenia za sekundę) |
Standardowa | Bezpłatne godziny audio na miesiąc: 5 |
Rozpoznawanie osoby mówiącej (rozliczanie za transakcję) |
Weryfikacja osoby mówiącej2 | Bezpłatne transakcje miesięcznie: 10,000 |
Identyfikacja osoby mówiącej2 | Bezpłatne transakcje miesięcznie: 10,000 | |
Magazyn profilu usługi Voice | Bezpłatne transakcje miesięcznie: 10,000 |
Płać zgodnie z rzeczywistym użyciem: płać tylko za to, czego używasz.
Kategoria | Funkcje | Cena | |
---|---|---|---|
Zamiana mowy na tekst (rozliczenia za sekundę) |
Czas rzeczywisty | Interfejs API usługi Batch w wersji 3.2 lub nowszej4 |
|
Standard | $- za godz. | $- za godz. | |
Niestandardowe |
$- za godz. Hosting punktów końcowych: $- za model na godzinę |
$- za godz. Hosting punktów końcowych: nie dotyczy |
|
Niestandardowe trenowanie mowy6 | $- za godzinę obliczeniową | ||
Rozszerzone funkcje dodatku:
|
$- na godzinę na funkcję | Uwzględniono funkcje Ciągła identyfikacja języka i Diaryzacja5 | |
Transkrypcja konwersacji — wielokanałowe audio WERSJA ZAPOZNAWCZA | $- za godz.1 | ND | |
Zamiana tekstu na mowę (rozliczenia za znak) |
Neuronowa |
Synteza w czasie rzeczywistym i synteza wsadowa: $- za 1M
znaki Tworzenie długich materiałów dźwiękowych: $- za 1 mln znaków |
|
Niestandardowe sieci neuronowe2 |
Trenowanie: $- za godzinę obliczeniową, do $- za trenowanie Synteza w czasie rzeczywistym i synteza wsadowa: $- za 1 mln znaków Hosting punktów końcowych: $- za model na godzinę Tworzenie długich materiałów dźwiękowych: $- za 1 mln znaków |
||
Tłumaczenie mowy (rozliczenia za sekundę) |
Standardowa | $- za godzinę audio7 | |
Rozpoznawanie osoby mówiącej (rozliczanie za transakcję) |
Weryfikacja osoby mówiącej3 | $- za 1,000 transakcji | |
Identyfikacja osoby mówiącej3 | $- za 1,000 transakcji | ||
Magazyn profilu usługi Voice | $- za następującą liczbę profili głosu: 1,000 (liczba bezpłatnych profili głosu miesięcznie: 10,000) |
Warstwy zobowiązania — Azure — Standardowa
Kategoria | Funkcje | Cena (miesięcznie) | Nadwyżka |
---|---|---|---|
Zamiana mowy na tekst | Standard | $- za 2,000 godz. | $- za godzinę |
$- za 10,000 godz. | $- za godzinę | ||
$- za 50,000 godz. | $- za godzinę | ||
Niestandardowe | $- za 2,000 godz. | $- za godzinę | |
$- za 10,000 godz. | $- za godzinę | ||
$- za 50,000 godz. | $- za godzinę | ||
Rozszerzone funkcje dodatku:2
|
$- za 2,000 godz. | $- za godzinę | |
$- za 10,000 godz. | $- za godzinę | ||
$- za 50,000 godz. | $- za godzinę | ||
Zamiana tekstu na mowę | Neuronowa1 | $- za 80 mln znaków | $- na 1 mln znaków |
$- za 400 mln znaków | $- na 1 mln znaków | ||
$- za 2,000 mln znaków | $- na 1 mln znaków |
1Tylko synteza w czasie rzeczywistym, nie obejmuje to długiego tworzenia dźwięku.
2Funkcje dodatku Zamiana mowy na tekst w czasie rzeczywistym, Ciągła identyfikacja języka i Diaryzacja zawarte w funkcji zamiany mowy na tekst partii.
Warstwy zobowiązania — połączony kontener
Kategoria | Funkcje | Cena (miesięcznie) | Nadwyżka |
---|---|---|---|
Zamiana mowy na tekst2 | Standard | $- za 2,000 godz. | $- za godzinę |
$- za 10,000 godz. | $- za godzinę | ||
$- za 50,000 godz. | $- za godzinę | ||
Niestandardowe | $- za 2,000 godz. | $- za godzinę | |
$- za 10,000 godz. | $- za godzinę | ||
$- za 50,000 godz. | $- za godzinę | ||
Rozszerzone funkcje dodatku:2
|
$- za 2,000 godz. | $- za godzinę | |
$- za 10,000 godz. | $- za godzinę | ||
$- za 50,000 godz. | $- za godzinę | ||
Zamiana tekstu na mowę | Neuronowa1 | $- za 80 mln znaków | $- na 1 mln znaków |
$- za 400 mln znaków | $- na 1 mln znaków | ||
$- za 2,000 mln znaków | $- na 1 mln znaków |
1Tylko synteza w czasie rzeczywistym, nie obejmuje to długiego tworzenia dźwięku.
2Ceny dotyczą przypadków użycia w czasie rzeczywistym i w partiach. Brak oddzielnych cen partii dla kontenerów.
Zobacz dokumentację, aby uzyskać informacje na temat warstw zobowiązań.
Warstwy zobowiązania — odłączony kontener
Zarejestruj się, aby uzyskać dostęp do mowy w odłączonych kontenerach, lub dowiedz się więcej
Kategoria | Funkcje | Cena (na rok) | Maksymalne użycie (na rok) | Przewidywane użycie (na miesiąc) |
---|---|---|---|---|
Zamiana mowy na tekst2 | Standard |
$-
$- Zarejestruj się, aby uzyskać dostęp Dowiedz się więcej |
120 000 godzin
600 000 godzin |
10 000 godzin
50 000 godzin |
Niestandardowe |
$-
$- Zarejestruj się, aby uzyskać dostęp Dowiedz się więcej |
120 000 godzin
600 000 godzin |
10 000 godzin
50 000 godzin |
|
Zamiana tekstu na mowę | Neuronowa1 |
$-
$- Zarejestruj się, aby uzyskać dostęp Dowiedz się więcej |
4,8 mld znaków
24 mld znaków |
400 mln znaków
2000 mln znaków |
1Tylko synteza w czasie rzeczywistym, nie obejmuje to długiego tworzenia dźwięku.
2Ceny dotyczą przypadków użycia w czasie rzeczywistym i w partiach. Brak oddzielnych cen partii dla kontenerów.
Te funkcje są przestarzałe i pozostają dostępne tylko dla istniejących klientów. Sprawdź szczegóły i dowiedz się, jak przeprowadzić migrację do nowych funkcji.
Wystąpienie | Kategoria | Funkcje | Cena |
---|---|---|---|
Bezpłatnie - Internet/kontener Równoczesne żądania: 1 |
Zamiana tekstu na mowę | Standard | Bezpłatne znaki na miesiąc: 5 million |
Niestandardowe |
Bezpłatne znaki na miesiąc: 5 million Hosting punktów końcowych: 1 bezpłatny model na miesiąc |
||
Standardowa — internet/kontener 100 współbieżnych żądań dla modelu podstawowego 20 współbieżnych żądań dla modelu niestandardowego |
Zamiana tekstu na mowę | Standard | $- za 1 mln znaków |
Niestandardowe |
$- za 1 mln znaków Hosting punktów końcowych: $- za model na godzinę |
Opcje cen i zakupu platformy Azure

Skontaktuj się z nami bezpośrednio
Zapoznaj się z przewodnikiem dotyczącym cen platformy Azure. Poznaj ceny rozwiązania w chmurze, dowiedz się więcej o optymalizacji kosztów i poproś o ofertę niestandardową.
Rozmowa ze specjalistą ds. sprzedażyZobacz sposoby zakupu
Kup usługi platformy Azure za pośrednictwem witryny internetowej platformy Azure, przedstawiciela firmy Microsoft lub partnera platformy Azure.
Poznaj swoje opcjeDodatkowe zasoby
Mowa platformy Azure AI
Dowiedz się więcej o funkcjach i możliwościach produktu Mowa platformy Azure AI.
Kalkulator cen
Oszacuj oczekiwane miesięczne koszty używania dowolnej kombinacji produktów platformy Azure.
Dokumentacja
Przejrzyj samouczki techniczne, materiały wideo i inne zasoby dotyczące produktu Mowa platformy Azure AI.
Często zadawane pytania
-
- W przypadku funkcji Zamiana mowy na tekst i Tłumaczenie mowy użycie jest rozliczane w jednosekundowych przyrostach.
- W przypadku zamiany tekstu na mowę: użycie jest rozliczane za znak. Sprawdź definicję znaku w notatce o cenach.
- W przypadku zamiana mowy na tekst i zamiany tekstu na mowę hosting punktów końcowych na potrzeby modeli niestandardowych jest rozliczany za sekundę dla każdego modelu.
- W przypadku poleceń niestandardowych: rozliczenia są śledzone jako użycie funkcji Zamiana mowy na tekst, Zamiana tekstu na mowę i Language Understanding. Polecenia niestandardowe nie wprowadzają nowych mierników rozliczeń.
- Za trenowanie modeli zamiany mowy na tekst nie są naliczane żadne opłaty. Jedyne koszty to hosting punktów końcowych za model po wdrożeniu, a następnie koszt za godzinę audio usługi Niestandardowa zamiana mowy na tekst.
-
Usługa mowy umożliwia użytkownikom adaptowanie modeli będących punktem odniesienia w oparciu o własne dane akustyczne i dotyczące języka, co prowadzi do opracowywania niestandardowych modeli mowy, których można używać względem opcji Zamiana mowy na tekst i Tłumaczenie mowy.
-
Model języka to rozkład prawdopodobieństwa dla sekwencji słów. Model języka pomaga systemowi wybierać między sekwencjami słów, które brzmią podobnie, na podstawie prawdopodobieństwa wystąpienia danych sekwencji. Na przykład sekwencje „rozpoznawanie mowy” i „ospo zna Wanię nowy” brzmią podobnie, ale pierwsza hipoteza jest znacznie bardziej prawdopodobna i dlatego model języka przypisze jej wyższą ocenę. Jeśli oczekujesz, że do aplikacji będą kierowane zapytania głosowe zawierające konkretne słownictwo, np. nazwy produktów lub żargon, które rzadko występują w typowej mowie, prawdopodobnie uzyskasz lepszą wydajność po dostosowaniu modelu języka. Jeśli na przykład tworzysz aplikację do głosowego przeszukiwania witryny MSDN, najprawdopodobniej terminy takie jak „obiektowe”, „przestrzeń nazw” lub „dot net” będą występować częściej niż w typowych aplikacjach głosowych. Dostosowanie modelu języka umożliwi systemowi nauczenie się tego.
-
Model akustyczny to klasyfikator oznaczający krótkie fragmenty audio jako jeden z kilku fonemów (jednostek dźwięku) w każdym języku. Te fonemy można następnie połączyć w celu utworzenia słów. Na przykład słowo „mowa” składa się z czterech fonemów: m, o, w, a. Te klasyfikacje są dokonywane z szybkością ok. 100 na sekundę. Dostosowanie modelu akustycznego może umożliwić systemowi naukę lepszego rozpoznawania mowy w nietypowych środowiskach. Na przykład w przypadku aplikacji zaprojektowanej do użycia przez pracowników magazynu lub fabryki dostosowany model akustyczny może dokładniej rozpoznawać mowę wśród hałasu typowego dla tych środowisk.
-
Usługa Mowa oferuje szeroką gamę czcionek głosowych zamiany tekstu na mowę (TTS), natomiast niestandardowy neuronowy model głosu umożliwia tworzenie własnego niestandardowego głosu, który pasuje do Twoich potrzeb i Twojej marki. Przeczytaj blog, aby uzyskać więcej informacji.
-
Identyfikacja języka umożliwia zidentyfikowanie przełącznika w języku mówionym i odpowiednie transkrybowanie mowy. Można to zastosować w scenariuszach, w których język audio jest nieznany lub gdy osoby mówiące mogą mówić w wielu językach. Identyfikacja pojedynczego języka jest dostępna bez dodatkowych kosztów. Ciągła identyfikacja języka to ulepszona funkcja dodatku. Zobacz dokumenty, aby dowiedzieć się więcej.
-
- Ocena wymowy ocenia wymowę i przekazuje osobom mówiącym opinie na temat dokładności i płynności mówionego dźwięku. Dzięki ocenie wymowy osoby uczące się języka mogą ćwiczyć, uzyskiwać błyskawiczne opinie i ulepszać swoją wymowę, dzięki czemu mogą mówić i prezentować bez obaw. Nauczyciele mogą korzystać z możliwości oceny wymowy wielu osób mówiących w czasie rzeczywistym. Sprawdź dokumentację aby dowiedzieć się więcej.
- Naliczana jest opłata jako standardowa zamiana mowy na tekst, na przykład:
w przypadku oceny 8 sekund mowy zostanie naliczona opłata w wysokości około $-
Porozmawiaj ze specjalistą ds. sprzedaży, który przedstawi Ci cennik platformy Azure. Zapoznaj się z informacjami o cenach swojego rozwiązania w chmurze.
Uzyskaj bezpłatne usługi online i $200 środków na eksplorowanie platformy Azure przez 30 dni.