Ujednolicone usługi przetwarzania mowy umożliwiające zamianę mowy na tekst i tekstu na mowę oraz tłumaczenie mowy
Ujednolicone usługi mowy oferują szeroką gamę możliwości generowania i rozpoznawania mowy, takich jak na przykład transkrypcja mowy, zamiana tekstu na mowę i tłumaczenie mowy. Usługi mowy oferują szeroką gamę możliwości generowania i rozpoznawania mowy, takich jak na przykład transkrypcja mowy, zamiana tekstu na mowę, tłumaczenie mowy i rozpoznawanie osoby mówiącej.
Eksplorowanie opcji cennika
Zastosuj filtry, aby dostosować opcje cennika do własnych potrzeb.
Ceny są jedynie szacunkowe i nie stanowią rzeczywistych ofert cenowych. Rzeczywiste ceny mogą się różnić w zależności od typu umowy zawartej z firmą Microsoft, daty zakupu i kursu wymiany walut. Ceny są obliczane na podstawie kursu dolara amerykańskiego i przeliczane przy użyciu londyńskich kursów zamknięcia typu spot z dwóch dni roboczych przed ostatnim dniem roboczym końca poprzedniego miesiąca. Jeżeli dwa dni robocze poprzedzające koniec miesiąca przypadają na dni świąteczne na głównych rynkach, dniem ustalenia kursu jest zazwyczaj dzień bezpośrednio poprzedzający te dwa dni robocze. Ten kurs dotyczy wszystkich transakcji w nadchodzącym miesiącu. Zaloguj się do kalkulatora cen platformy Azure, aby zobaczyć ceny na podstawie bieżącego programu/oferty firmy Microsoft. Skontaktuj się ze specjalistą ds. sprzedaży platformy Azure, aby uzyskać więcej informacji na temat cen lub poprosić o wycenę. Zobacz często zadawane pytania dotyczące cen platformy Azure.
Instytucje rządowe USA mogą zakupić usługi platformy Azure Government u dostawcy rozwiązań licencjonowania bez zobowiązań finansowych z góry lub bezpośrednio w ramach subskrypcji w modelu płatności zgodnie z rzeczywistym użyciem.
Ważne: cena w R$ jest ceną orientacyjną; jest to transakcja międzynarodowa, a cena ostateczna jest uzależniona od kursów walut i podatku transakcyjnego (IOF). Dokument eNF nie zostanie wystawiony.
Instytucje rządowe USA mogą zakupić usługi platformy Azure Government u dostawcy rozwiązań licencjonowania bez zobowiązań finansowych z góry lub bezpośrednio w ramach subskrypcji w modelu płatności zgodnie z rzeczywistym użyciem.
Ważne: cena w R$ jest ceną orientacyjną; jest to transakcja międzynarodowa, a cena ostateczna jest uzależniona od kursów walut i podatku transakcyjnego (IOF). Dokument eNF nie zostanie wystawiony.
Bezpłatna (F0)
| Kategoria | Funkcje | Cena |
|---|---|---|
| Zamiana mowy na tekst (rozliczenia za sekundę) |
Standard | Bezpłatne godziny audio na miesiąc: 53 |
| Niestandardowe |
Bezpłatne godziny audio na miesiąc: 53 Hosting punktów końcowych: 1 bezpłatny model na miesiąc1 |
|
| Transkrypcja konwersacji — wielokanałowe audio WERSJA ZAPOZNAWCZA | Bezpłatne godziny audio na miesiąc: 5 | |
| Zamiana tekstu na mowę (rozliczenia za znak) |
Neuronowa | Bezpłatne znaki na miesiąc: 0.5 million |
| Tłumaczenie mowy (rozliczenia za sekundę) |
Standardowa | Bezpłatne godziny audio na miesiąc: 5 |
| Rozpoznawanie osoby mówiącej (rozliczanie za transakcję) |
Weryfikacja osoby mówiącej2 | Bezpłatne transakcje miesięcznie: 10,000 |
| Identyfikacja osoby mówiącej2 | Bezpłatne transakcje miesięcznie: 10,000 | |
| Magazyn profilu usługi Voice | Bezpłatne transakcje miesięcznie: 10,000 |
See the documentation for information on quotas, limits and instructions on how to increase concurrent requests.
1Nieużywane modele zostaną automatycznie zlikwidowane po 7 dniach.
2Speaker Recognition is a limited access feature with a need to apply for access.
3Bezpłatne godziny audio dla zamiany mowy na tekst są współużytkowane między warstwami Standardowa i Niestandardowa. Usługa Batch nie jest obsługiwana.
Płać zgodnie z rzeczywistym użyciem: płać tylko za to, czego używasz.
| Kategoria | Cena | |
|---|---|---|
| Voice Live Pro (rozliczanie tokenów na mln)VL1 | Tekst |
Dane wejściowe: $- Buforowane dane wejściowe: $- Dane wyjściowe: $- |
| Audio with Azure Speech in Foundry Tools - Standard |
Dane wejściowe: $- Buforowane dane wejściowe: $- Dane wyjściowe: $- |
|
| Audio with Azure Speech in Foundry Tools - CustomVL2 |
Dane wejściowe: $- Buforowane dane wejściowe: $- Dane wyjściowe: $- |
|
| Native audio with speech-to-speech real-time model |
Dane wejściowe: $- Buforowane dane wejściowe: $- Dane wyjściowe: $- |
|
| Voice Live Standard (per m token billing)VL1 | Tekst |
Dane wejściowe: $- Buforowane dane wejściowe: $- Dane wyjściowe: $- |
| Audio with Azure Speech in Foundry Tools - Standard |
Dane wejściowe: $- Buforowane dane wejściowe: $- Dane wyjściowe: $- |
|
| Audio with Azure Speech in Foundry Tools - CustomVL2 |
Dane wejściowe: $- Buforowane dane wejściowe: $- Dane wyjściowe: $- |
|
| Native audio with speech-to-speech real-time model |
Dane wejściowe: $- Buforowane dane wejściowe: $- Dane wyjściowe: $- |
|
| Voice Live Lite (rozliczanie tokenów na mln)VL1 | Tekst |
Dane wejściowe: $- Buforowane dane wejściowe: $- Dane wyjściowe: $- |
| Audio with Azure Speech in Foundry Tools - Standard |
Dane wejściowe: $- Buforowane dane wejściowe: $- Dane wyjściowe: $- |
|
| Audio with Azure Speech in Foundry Tools - CustomVL2 |
Buforowane dane wejściowe: $- Dane wyjściowe: $- |
|
| Native audio with speech-to-speech real-time model |
Dane wejściowe: $- Buforowane dane wejściowe: $- |
|
| Voice Live BYO (per m token billing)VL1 | Audio with Azure AI Speech - Standard |
Dane wejściowe: $- Dane wyjściowe: $- |
| Audio with Azure AI Speech - CustomVL2 |
Dane wejściowe: $- Dane wyjściowe: $- |
|
| Voice Live Avatar (per minute billing) | Avatar output with Voice Live | Charged through Text to Speech Avatar ‘interactive avatar (real-time)’. See below Text to Speech pricing table for details. |
| Zamiana mowy na tekst (rozliczenia za sekundę) |
Transkrypcja standardowa |
Transkrypcja w czasie rzeczywistym: $- za godz. Szybka transkrypcja: $- za godz.9 Transkrypcja wsadowa: $- za godz.1 |
| Transkrypcja niestandardowa |
Transkrypcja w czasie rzeczywistym: $- za godz. Transkrypcja wsadowa: $- za godz.1 Hosting punktów końcowych: $- za model na godzinę Niestandardowe trenowanie mowy5: $- za godzinę obliczeniową |
|
Rozszerzone funkcje dodatku:
|
Czas rzeczywisty: $- na godzinę na funkcję Partia zadań (ciągła identyfikacja języka, integracja): uwzględniona w warstwie Standardowa/Niestandardowa (bez dodatkowych opłat) |
|
| Transkrypcja konwersacji — wielokanałowe audio WERSJA ZAPOZNAWCZA | $- za godz.2 | |
| Tłumaczenie mowy (rozliczenia za sekundę) |
Tłumaczenie mowy w czasie rzeczywistym | $- za godzinę audio3 |
| Live Interpreter |
Input audio: $- za godzinę audio Output text: $- za 1 mln znaków Output audio (Standard voice): $- per audio hourLI Output audio (Custom voice): $- per audio hourLI |
|
| Tłumaczenie wideo |
Dane wejściowe wideo: $- za godz. Dane wyjściowe wideo (głos standardowy): $- za godz. Dane wyjściowe wideo (własny głos): $- za godz. |
|
| Zamiana tekstu na mowę8 | Głos standardowy |
Neuronowe (w czasie rzeczywistym i partia): $- za 1 mln znaków Neuronowy HD (w czasie rzeczywistym i partia)4: $- za 1 mln znaków |
| Custom Voice |
Profesjonalny głos:
Synteza (w czasie rzeczywistym i partia): $- na 1 mln znaków
Synteza (głos Neuronowy HD w czasie rzeczywistym i partia): $- na 1 mln znaków Trenowanie modelu głosu: $- za godzinę obliczeniową do $- za trenowanie Hosting punktów końcowych: $- za model na godzinę |
|
|
Głos osobisty6:
Synteza (w czasie rzeczywistym i partia): $- na 1 mln znaków
Tworzenie modelu głosu: bezpłatnie Magazyn profilów głosowych: $- na 1000 profilów głosowych miesięcznie |
||
| Rozszerzone funkcje dodatku: awatar |
Standard:
Awatar interakcyjny (w czasie rzeczywistym): $- na minutę
Interaktywny awatar 4K (w czasie rzeczywistym): $- na minutę Wideo awatara (partia): $- na minutę Wideo awatara 4K (partia): $- na minutę |
|
|
Niestandardowe:
Trenowanie modelu awatarów: $- za godzinę obliczeniową
Awatar interakcyjny (w czasie rzeczywistym): $- na minutę Interaktywny awatar 4K (w czasie rzeczywistym): $- na minutę Wideo awatara (partia): $- na minutę Wideo awatara 4K (partia): $- na minutę Hosting punktów końcowych: $- na model na godzinę |
||
| Rozpoznawanie osoby mówiącej (rozliczanie za transakcję) |
Weryfikacja osoby mówiącej7 | $- za 1,000 transakcji |
| Identyfikacja osoby mówiącej7 | $- za 1,000 transakcji | |
| Magazyn profilu usługi Voice | $- za następującą liczbę profili głosu: 1,000 (liczba bezpłatnych profili głosu miesięcznie: 10,000) | |
See the documentation for information on quotas, limits and instructions on how to increase concurrent requests.
Godziny zamiany mowy na tekst są mierzone jako godziny audio wysyłanego do usługi, rozliczane w przyrostach sekundowych.
1To take advantage of this new Batch Transcription pricing you need to use Speech to text REST API V3.2 or later versions. See Speech to text REST API for information.
2Odzwierciedla to ceny publicznej wersji zapoznawczej.
3This price includes 1 audio input and output, up to 2 text translation language using standard or custom Speech to Text and standard Translation. For custom Translation or 3+ translation languages, please reference the Azure Translator in Foundry Tools Text Translation pricing page.
4Selected text to speech voices are available via two model variants: Neural and NeuralHD. Learn more here.
5Niestandardowe trenowanie mowy ma zastosowanie podczas dostosowywania dowolnego modelu podstawowego wydanego 1 października 2023 r. lub później.
6Personal Voice is a limited access feature restricted to certain pre-approved use cases only, with a need to applying for access. To learn more about the service, check the document.
7Speaker Recognition is a limited access feature with a need to apply for access.
8Zamiana tekstu na mowę: opłaty za użycie syntezy mowy są naliczane za znak. Opłaty za awatara są naliczane na sekundę. Opłaty za szkolenie i hosting modelu są naliczane na sekundę.
9To use Fast Transcription you need to use Speech to text REST API 2024-05-15-preview or later versions. See Speech to text REST API for information.
VL1With Voice Live Pro, developers can choose from larger LLMs such as GPT-Realtime, GPT-4o and GPT-4.1 models. With Voice Live Standard, developers can choose from smaller LLMs such as GPT-4o-Mini-Realtime, GPT-4o Mini and GPT-4.1 Mini models. With Voice Live Lite, developers can choose from SLMs and equivalent models such as GPT-4.1 Nano and Phi models. Models for each tier will be updated or retired as they become available. To learn more how Voice Live API pricing works, click here.
VL2You will be charged separately for custom speech and custom voice model training and hosting. Refer to the ‘Speech to Text – Custom Transcription’ and ‘Text to Speech – Custom Voice – Professional’ pricing for details. Custom voice is a limited access feature. Learn more about how to create custom voices.
LIThis price includes text output
Warstwy zobowiązania — Azure — Standardowa
| Kategoria | Funkcje | Cena (miesięcznie) | Nadwyżka |
|---|---|---|---|
| Zamiana mowy na tekst | Standard | $- za 2,000 godz. | $- za godzinę |
| $- za 10,000 godz. | $- za godzinę | ||
| $- za 50,000 godz. | $- za godzinę | ||
| Niestandardowe | $- za 2,000 godz. | $- za godzinę | |
| $- za 10,000 godz. | $- za godzinę | ||
| $- za 50,000 godz. | $- za godzinę | ||
Rozszerzone funkcje dodatku:2
|
$- za 2,000 godz. | $- za godzinę | |
| $- za 10,000 godz. | $- za godzinę | ||
| $- za 50,000 godz. | $- za godzinę | ||
| Zamiana tekstu na mowę | Neuronowa1 | $- za 80 mln znaków | $- na 1 mln znaków |
| $- za 400 mln znaków | $- na 1 mln znaków | ||
| $- za 2,000 mln znaków | $- na 1 mln znaków |
1Obejmuje to zarówno syntezę w czasie rzeczywistym, jak i syntezę partii z wstępnie utworzonymi głosami neuronowymi innymi niż HD i AOAI. Głosy HD, głosy AOAI, niestandardowy neuronowy model głosu i głos osobisty nie są dołączone.
2Funkcje dodatku Zamiana mowy na tekst w czasie rzeczywistym, Ciągła identyfikacja języka i Diaryzacja zawarte w funkcji zamiany mowy na tekst partii.
Warstwy zobowiązania — połączony kontener
| Kategoria | Funkcje | Cena (miesięcznie) | Nadwyżka |
|---|---|---|---|
| Zamiana mowy na tekst2 | Standard | $- za 2,000 godz. | $- za godzinę |
| $- za 10,000 godz. | $- za godzinę | ||
| $- za 50,000 godz. | $- za godzinę | ||
| Niestandardowe | $- za 2,000 godz. | $- za godzinę | |
| $- za 10,000 godz. | $- za godzinę | ||
| $- za 50,000 godz. | $- za godzinę | ||
Rozszerzone funkcje dodatku:2
|
$- za 2,000 godz. | $- za godzinę | |
| $- za 10,000 godz. | $- za godzinę | ||
| $- za 50,000 godz. | $- za godzinę | ||
| Zamiana tekstu na mowę | Neuronowa1 | $- za 80 mln znaków | $- na 1 mln znaków |
| $- za 400 mln znaków | $- na 1 mln znaków | ||
| $- za 2,000 mln znaków | $- na 1 mln znaków |
1Obejmuje to syntezę w czasie rzeczywistym za pomocą wstępnie utworzonych głosów neuronowych innych niż HD i AOAI. Głosy HD, głosy AOAI i głosy niestandardowe (zarówno głosy profesjonalne, jak i osobiste) nie są dołączone. Synteza partii nie jest uwzględniona.
2Ceny dotyczą przypadków użycia w czasie rzeczywistym i w partiach. Brak oddzielnych cen partii dla kontenerów.
See the documentation for information on Commitment tiers.
Warstwy zobowiązania — odłączony kontener
Sign up to access speech in disconnected containers, or learn more
| Kategoria | Funkcje | Cena (na rok) | Maksymalne użycie (na rok) | Przewidywane użycie (na miesiąc) |
|---|---|---|---|---|
| Zamiana mowy na tekst2 | Standard |
$-
$- Zarejestruj się, aby uzyskać dostęp Dowiedz się więcej |
120 000 godzin
600 000 godzin |
10 000 godzin
50 000 godzin |
| Niestandardowe |
$-
$- Zarejestruj się, aby uzyskać dostęp Dowiedz się więcej |
120 000 godzin
600 000 godzin |
10 000 godzin
50 000 godzin |
|
Rozszerzone funkcje dodatku:
|
$-
$- |
120 000 godzin
600 000 godzin |
10 000 godzin
50 000 godzin |
|
| Zamiana tekstu na mowę | Neuronowa1 |
$-
$- Zarejestruj się, aby uzyskać dostęp Dowiedz się więcej |
4,8 mld znaków
24 mld znaków |
400 mln znaków
2000 mln znaków |
1Obejmuje to syntezę w czasie rzeczywistym za pomocą wstępnie utworzonych głosów neuronowych innych niż HD i AOAI. Głosy HD, głosy AOAI i głosy niestandardowe (zarówno głosy profesjonalne, jak i osobiste) nie są dołączone. Synteza partii nie jest uwzględniona.
2Ceny dotyczą przypadków użycia w czasie rzeczywistym i w partiach. Brak oddzielnych cen partii dla kontenerów.
Te funkcje są przestarzałe i pozostają dostępne tylko dla istniejących klientów. Sprawdź szczegóły i dowiedz się, jak przeprowadzić migrację do nowych funkcji.
| Wystąpienie | Kategoria | Funkcje | Cena |
|---|---|---|---|
| Bezpłatnie - Internet/kontener Równoczesne żądania: 1 |
Zamiana tekstu na mowę | Standard | Bezpłatne znaki na miesiąc: 5 million |
| Niestandardowe |
Bezpłatne znaki na miesiąc: 5 million Hosting punktów końcowych: 1 bezpłatny model na miesiąc |
||
| Standardowa — internet/kontener 100 współbieżnych żądań dla modelu podstawowego 20 współbieżnych żądań dla modelu niestandardowego |
Zamiana tekstu na mowę | Standard | $- za 1 mln znaków |
| Niestandardowe |
$- za 1 mln znaków Hosting punktów końcowych: $- za model na godzinę |
Opcje cen i zakupu platformy Azure
Skontaktuj się z nami bezpośrednio
Zapoznaj się z przewodnikiem dotyczącym cen platformy Azure. Poznaj ceny rozwiązania w chmurze, dowiedz się więcej o optymalizacji kosztów i poproś o ofertę niestandardową.
Rozmowa ze specjalistą ds. sprzedażyZobacz sposoby zakupu
Kup usługi platformy Azure za pośrednictwem witryny internetowej platformy Azure, przedstawiciela firmy Microsoft lub partnera platformy Azure.
Poznaj swoje opcjeDodatkowe zasoby
Mowa platformy Azure AI
Dowiedz się więcej o funkcjach i możliwościach produktu Mowa platformy Azure AI.
Kalkulator cen
Oszacuj oczekiwane miesięczne koszty używania dowolnej kombinacji produktów platformy Azure.
Dokumentacja
Przejrzyj samouczki techniczne, materiały wideo i inne zasoby dotyczące produktu Mowa platformy Azure AI.
Często zadawane pytania
-
- W przypadku funkcji Zamiana mowy na tekst i Tłumaczenie mowy użycie jest rozliczane w jednosekundowych przyrostach.
- For Text to Speech: usage is billed per character. Check the definition of character in the pricing note.
- For custom neural voice hosting: usage is billed per endpoint per second. Check details in the pricing note.
- For personal voice profile storage: usage is billed per voice profile per day. Check details in the pricing note.
- W przypadku awatara zamiany tekstu na mowę użycie jest rozliczane na sekundę.
- W przypadku zamiana mowy na tekst i zamiany tekstu na mowę (w tym Awatara) hosting punktów końcowych na potrzeby modeli niestandardowych jest rozliczany za sekundę dla danego modelu.
-
Usługa mowy umożliwia użytkownikom adaptowanie modeli będących punktem odniesienia w oparciu o własne dane akustyczne i dotyczące języka, co prowadzi do opracowywania niestandardowych modeli mowy, których można używać względem opcji Zamiana mowy na tekst i Tłumaczenie mowy.
-
Model języka to rozkład prawdopodobieństwa dla sekwencji słów. Model języka pomaga systemowi wybierać między sekwencjami słów, które brzmią podobnie, na podstawie prawdopodobieństwa wystąpienia danych sekwencji. Na przykład sekwencje „rozpoznawanie mowy” i „ospo zna Wanię nowy” brzmią podobnie, ale pierwsza hipoteza jest znacznie bardziej prawdopodobna i dlatego model języka przypisze jej wyższą ocenę. Jeśli oczekujesz, że do aplikacji będą kierowane zapytania głosowe zawierające konkretne słownictwo, np. nazwy produktów lub żargon, które rzadko występują w typowej mowie, prawdopodobnie uzyskasz lepszą wydajność po dostosowaniu modelu języka. Jeśli na przykład tworzysz aplikację do głosowego przeszukiwania witryny MSDN, najprawdopodobniej terminy takie jak „obiektowe”, „przestrzeń nazw” lub „dot net” będą występować częściej niż w typowych aplikacjach głosowych. Dostosowanie modelu języka umożliwi systemowi nauczenie się tego.
-
Model akustyczny to klasyfikator oznaczający krótkie fragmenty audio jako jeden z kilku fonemów (jednostek dźwięku) w każdym języku. Te fonemy można następnie połączyć w celu utworzenia słów. Na przykład słowo „mowa” składa się z czterech fonemów: m, o, w, a. Te klasyfikacje są dokonywane z szybkością ok. 100 na sekundę. Dostosowanie modelu akustycznego może umożliwić systemowi naukę lepszego rozpoznawania mowy w nietypowych środowiskach. Na przykład w przypadku aplikacji zaprojektowanej do użycia przez pracowników magazynu lub fabryki dostosowany model akustyczny może dokładniej rozpoznawać mowę wśród hałasu typowego dla tych środowisk.
-
Speech service offers a wide range of text-to-speech (TTS) voice fonts, however custom neural voice allows you to build your own custom voice that suits your needs and your brand. Read the blog for more information.
-
Language identification allows you to identify a switch in spoken language and transcribe speech accordingly. This can be applied in scenarios where the audio language is unknown, or when speaker(s) may speak multiple languages. Single Language Identification is available at no additional cost. Continuous Language Identification is an enhanced add-on feature. Visit docs to learn more.
-
- Pronunciation assessment evaluates speech pronunciation and gives speakers feedback on the accuracy and fluency of spoken audio. With pronunciation assessment, language learners can practice, get instant feedback, and improve their pronunciation so that they can speak and present with confidence. Educators can use the capability to evaluate pronunciation of multiple speakers in real time. Visit docs to learn more.
- It is charged as standard Speech to Text, example:
For evaluation of 8 seconds of speech, you will be charged around $-
Porozmawiaj ze specjalistą ds. sprzedaży, który przedstawi Ci cennik platformy Azure. Zapoznaj się z informacjami o cenach swojego rozwiązania w chmurze.
Uzyskaj bezpłatne usługi online i $200 środków na eksplorowanie platformy Azure przez 30 dni.