Przejdź do głównej zawartości
Azure

Mowa platformy Azure AI — cennik

Ujednolicone usługi przetwarzania mowy umożliwiające zamianę mowy na tekst i tekstu na mowę oraz tłumaczenie mowy

Ujednolicone usługi mowy oferują szeroką gamę możliwości generowania i rozpoznawania mowy, takich jak na przykład transkrypcja mowy, zamiana tekstu na mowę i tłumaczenie mowy. Usługi mowy oferują szeroką gamę możliwości generowania i rozpoznawania mowy, takich jak na przykład transkrypcja mowy, zamiana tekstu na mowę, tłumaczenie mowy i rozpoznawanie osoby mówiącej.

Eksplorowanie opcji cennika

Zastosuj filtry, aby dostosować opcje cennika do własnych potrzeb.

Ceny są jedynie szacunkowe i nie stanowią rzeczywistych ofert cenowych. Rzeczywiste ceny mogą się różnić w zależności od typu umowy zawartej z firmą Microsoft, daty zakupu i kursu wymiany walut. Ceny są obliczane na podstawie kursu dolara amerykańskiego i przeliczane przy użyciu londyńskich kursów zamknięcia typu spot z dwóch dni roboczych przed ostatnim dniem roboczym końca poprzedniego miesiąca. Jeżeli dwa dni robocze poprzedzające koniec miesiąca przypadają na dni świąteczne na głównych rynkach, dniem ustalenia kursu jest zazwyczaj dzień bezpośrednio poprzedzający te dwa dni robocze. Ten kurs dotyczy wszystkich transakcji w nadchodzącym miesiącu. Zaloguj się do kalkulatora cen platformy Azure, aby zobaczyć ceny na podstawie bieżącego programu/oferty firmy Microsoft. Skontaktuj się ze specjalistą ds. sprzedaży platformy Azure, aby uzyskać więcej informacji na temat cen lub poprosić o wycenę. Zobacz często zadawane pytania dotyczące cen platformy Azure.

Bezpłatna (F0)

Kategoria Funkcje Cena
Zamiana mowy na tekst
(rozliczenia za sekundę)
Standard Bezpłatne godziny audio na miesiąc: 53
Niestandardowe Bezpłatne godziny audio na miesiąc: 53
Hosting punktów końcowych: 1 bezpłatny model na miesiąc1
Transkrypcja konwersacji — wielokanałowe audio WERSJA ZAPOZNAWCZA Bezpłatne godziny audio na miesiąc: 5
Zamiana tekstu na mowę
(rozliczenia za znak)
Neuronowa Bezpłatne znaki na miesiąc: 0.5 million
Tłumaczenie mowy
(rozliczenia za sekundę)
Standardowa Bezpłatne godziny audio na miesiąc: 5
Rozpoznawanie osoby mówiącej
(rozliczanie za transakcję)
Weryfikacja osoby mówiącej2 Bezpłatne transakcje miesięcznie: 10,000
Identyfikacja osoby mówiącej2 Bezpłatne transakcje miesięcznie: 10,000
Magazyn profilu usługi Voice Bezpłatne transakcje miesięcznie: 10,000
Speech services quotas and limits by tier (Free F0)

See the documentation for information on quotas, limits and instructions on how to increase concurrent requests.

1Nieużywane modele zostaną automatycznie zlikwidowane po 7 dniach.

2Speaker Recognition is a limited access feature with a need to apply for access.

3Bezpłatne godziny audio dla zamiany mowy na tekst są współużytkowane między warstwami Standardowa i Niestandardowa. Usługa Batch nie jest obsługiwana.

Płać zgodnie z rzeczywistym użyciem: płać tylko za to, czego używasz.

Kategoria Cena
Voice Live Pro (rozliczanie tokenów na mln)VL1 Tekst Dane wejściowe: $-
Buforowane dane wejściowe: $-
Dane wyjściowe: $-
Audio with Azure Speech in Foundry Tools - Standard Dane wejściowe: $-
Buforowane dane wejściowe: $-
Dane wyjściowe: $-
Audio with Azure Speech in Foundry Tools - CustomVL2 Dane wejściowe: $-
Buforowane dane wejściowe: $-
Dane wyjściowe: $-
Native audio with speech-to-speech real-time model Dane wejściowe: $-
Buforowane dane wejściowe: $-
Dane wyjściowe: $-
Voice Live Standard (per m token billing)VL1 Tekst Dane wejściowe: $-
Buforowane dane wejściowe: $-
Dane wyjściowe: $-
Audio with Azure Speech in Foundry Tools - Standard Dane wejściowe: $-
Buforowane dane wejściowe: $-
Dane wyjściowe: $-
Audio with Azure Speech in Foundry Tools - CustomVL2 Dane wejściowe: $-
Buforowane dane wejściowe: $-
Dane wyjściowe: $-
Native audio with speech-to-speech real-time model Dane wejściowe: $-
Buforowane dane wejściowe: $-
Dane wyjściowe: $-
Voice Live Lite (rozliczanie tokenów na mln)VL1 Tekst Dane wejściowe: $-
Buforowane dane wejściowe: $-
Dane wyjściowe: $-
Audio with Azure Speech in Foundry Tools - Standard Dane wejściowe: $-
Buforowane dane wejściowe: $-
Dane wyjściowe: $-
Audio with Azure Speech in Foundry Tools - CustomVL2 Buforowane dane wejściowe: $-
Dane wyjściowe: $-
Native audio with speech-to-speech real-time model Dane wejściowe: $-
Buforowane dane wejściowe: $-
Voice Live BYO (per m token billing)VL1 Audio with Azure AI Speech - Standard Dane wejściowe: $-
Dane wyjściowe: $-
Audio with Azure AI Speech - CustomVL2 Dane wejściowe: $-
Dane wyjściowe: $-
Voice Live Avatar (per minute billing) Avatar output with Voice Live Charged through Text to Speech Avatar ‘interactive avatar (real-time)’. See below Text to Speech pricing table for details.
Zamiana mowy na tekst
(rozliczenia za sekundę)
Transkrypcja standardowa Transkrypcja w czasie rzeczywistym: $- za godz.
Szybka transkrypcja: $- za godz.9
Transkrypcja wsadowa: $- za godz.1
Transkrypcja niestandardowa Transkrypcja w czasie rzeczywistym: $- za godz.
Transkrypcja wsadowa: $- za godz.1
Hosting punktów końcowych: $- za model na godzinę
Niestandardowe trenowanie mowy5: $- za godzinę obliczeniową
Rozszerzone funkcje dodatku:
  • Ciągła identyfikacja języka
  • Diaryzacja
  • Ocena wymowy (prozodia, gramatyka, słownictwo, temat)
Czas rzeczywisty: $- na godzinę na funkcję
Partia zadań (ciągła identyfikacja języka, integracja): uwzględniona w warstwie Standardowa/Niestandardowa (bez dodatkowych opłat)
Transkrypcja konwersacji — wielokanałowe audio WERSJA ZAPOZNAWCZA $- za godz.2
Tłumaczenie mowy
(rozliczenia za sekundę)
Tłumaczenie mowy w czasie rzeczywistym $- za godzinę audio3
Live Interpreter Input audio: $- za godzinę audio
Output text: $- za 1 mln znaków
Output audio (Standard voice): $- per audio hourLI
Output audio (Custom voice): $- per audio hourLI
Tłumaczenie wideo Dane wejściowe wideo: $- za godz.
Dane wyjściowe wideo (głos standardowy): $- za godz.
Dane wyjściowe wideo (własny głos): $- za godz.
Zamiana tekstu na mowę8 Głos standardowy Neuronowe (w czasie rzeczywistym i partia): $- za 1 mln znaków
Neuronowy HD (w czasie rzeczywistym i partia)4: $- za 1 mln znaków
Custom Voice Profesjonalny głos:
Synteza (w czasie rzeczywistym i partia): $- na 1 mln znaków
Synteza (głos Neuronowy HD w czasie rzeczywistym i partia): $- na 1 mln znaków
Trenowanie modelu głosu: $- za godzinę obliczeniową do $- za trenowanie
Hosting punktów końcowych: $- za model na godzinę
Głos osobisty6:
Synteza (w czasie rzeczywistym i partia): $- na 1 mln znaków
Tworzenie modelu głosu: bezpłatnie
Magazyn profilów głosowych: $- na 1000 profilów głosowych miesięcznie
Rozszerzone funkcje dodatku: awatar Standard:
Awatar interakcyjny (w czasie rzeczywistym): $- na minutę
Interaktywny awatar 4K (w czasie rzeczywistym): $- na minutę
Wideo awatara (partia): $- na minutę
Wideo awatara 4K (partia): $- na minutę
Niestandardowe:
Trenowanie modelu awatarów: $- za godzinę obliczeniową
Awatar interakcyjny (w czasie rzeczywistym): $- na minutę
Interaktywny awatar 4K (w czasie rzeczywistym): $- na minutę
Wideo awatara (partia): $- na minutę
Wideo awatara 4K (partia): $- na minutę
Hosting punktów końcowych: $- na model na godzinę
Rozpoznawanie osoby mówiącej
(rozliczanie za transakcję)
Weryfikacja osoby mówiącej7 $- za 1,000 transakcji
Identyfikacja osoby mówiącej7 $- za 1,000 transakcji
Magazyn profilu usługi Voice $- za następującą liczbę profili głosu: 1,000 (liczba bezpłatnych profili głosu miesięcznie: 10,000)
Speech-to-Text pricing details and features by tier

See the documentation for information on quotas, limits and instructions on how to increase concurrent requests.

Godziny zamiany mowy na tekst są mierzone jako godziny audio wysyłanego do usługi, rozliczane w przyrostach sekundowych.

1To take advantage of this new Batch Transcription pricing you need to use Speech to text REST API V3.2 or later versions. See Speech to text REST API for information.

2Odzwierciedla to ceny publicznej wersji zapoznawczej.

3This price includes 1 audio input and output, up to 2 text translation language using standard or custom Speech to Text and standard Translation. For custom Translation or 3+ translation languages, please reference the Azure Translator in Foundry Tools Text Translation pricing page.

4Selected text to speech voices are available via two model variants: Neural and NeuralHD. Learn more here.

5Niestandardowe trenowanie mowy ma zastosowanie podczas dostosowywania dowolnego modelu podstawowego wydanego 1 października 2023 r. lub później.

6Personal Voice is a limited access feature restricted to certain pre-approved use cases only, with a need to applying for access. To learn more about the service, check the document.

7Speaker Recognition is a limited access feature with a need to apply for access.

8Zamiana tekstu na mowę: opłaty za użycie syntezy mowy są naliczane za znak. Opłaty za awatara są naliczane na sekundę. Opłaty za szkolenie i hosting modelu są naliczane na sekundę.

9To use Fast Transcription you need to use Speech to text REST API 2024-05-15-preview or later versions. See Speech to text REST API for information.

VL1With Voice Live Pro, developers can choose from larger LLMs such as GPT-Realtime, GPT-4o and GPT-4.1 models. With Voice Live Standard, developers can choose from smaller LLMs such as GPT-4o-Mini-Realtime, GPT-4o Mini and GPT-4.1 Mini models. With Voice Live Lite, developers can choose from SLMs and equivalent models such as GPT-4.1 Nano and Phi models. Models for each tier will be updated or retired as they become available. To learn more how Voice Live API pricing works, click here.

VL2You will be charged separately for custom speech and custom voice model training and hosting. Refer to the ‘Speech to Text – Custom Transcription’ and ‘Text to Speech – Custom Voice – Professional’ pricing for details. Custom voice is a limited access feature. Learn more about how to create custom voices.

LIThis price includes text output

Warstwy zobowiązania — Azure — Standardowa

Kategoria Funkcje Cena (miesięcznie) Nadwyżka
Zamiana mowy na tekst Standard $- za 2,000 godz. $- za godzinę
$- za 10,000 godz. $- za godzinę
$- za 50,000 godz. $- za godzinę
Niestandardowe $- za 2,000 godz. $- za godzinę
$- za 10,000 godz. $- za godzinę
$- za 50,000 godz. $- za godzinę
Rozszerzone funkcje dodatku:2
  • Ciągła identyfikacja języka
  • Diaryzacja
  • Ocena wymowy (prozodia, gramatyka, słownictwo, temat)
$- za 2,000 godz. $- za godzinę
$- za 10,000 godz. $- za godzinę
$- za 50,000 godz. $- za godzinę
Zamiana tekstu na mowę Neuronowa1 $- za 80 mln znaków $- na 1 mln znaków
$- za 400 mln znaków $- na 1 mln znaków
$- za 2,000 mln znaków $- na 1 mln znaków

1Obejmuje to zarówno syntezę w czasie rzeczywistym, jak i syntezę partii z wstępnie utworzonymi głosami neuronowymi innymi niż HD i AOAI. Głosy HD, głosy AOAI, niestandardowy neuronowy model głosu i głos osobisty nie są dołączone.

2Funkcje dodatku Zamiana mowy na tekst w czasie rzeczywistym, Ciągła identyfikacja języka i Diaryzacja zawarte w funkcji zamiany mowy na tekst partii.

Warstwy zobowiązania — połączony kontener

Kategoria Funkcje Cena (miesięcznie) Nadwyżka
Zamiana mowy na tekst2 Standard $- za 2,000 godz. $- za godzinę
$- za 10,000 godz. $- za godzinę
$- za 50,000 godz. $- za godzinę
Niestandardowe $- za 2,000 godz. $- za godzinę
$- za 10,000 godz. $- za godzinę
$- za 50,000 godz. $- za godzinę
Rozszerzone funkcje dodatku:2
  • Identyfikacja języka
  • Diaryzacja
$- za 2,000 godz. $- za godzinę
$- za 10,000 godz. $- za godzinę
$- za 50,000 godz. $- za godzinę
Zamiana tekstu na mowę Neuronowa1 $- za 80 mln znaków $- na 1 mln znaków
$- za 400 mln znaków $- na 1 mln znaków
$- za 2,000 mln znaków $- na 1 mln znaków

1Obejmuje to syntezę w czasie rzeczywistym za pomocą wstępnie utworzonych głosów neuronowych innych niż HD i AOAI. Głosy HD, głosy AOAI i głosy niestandardowe (zarówno głosy profesjonalne, jak i osobiste) nie są dołączone. Synteza partii nie jest uwzględniona.

2Ceny dotyczą przypadków użycia w czasie rzeczywistym i w partiach. Brak oddzielnych cen partii dla kontenerów.

See the documentation for information on Commitment tiers.

Warstwy zobowiązania — odłączony kontener

Sign up to access speech in disconnected containers, or learn more

Kategoria Funkcje Cena (na rok) Maksymalne użycie (na rok) Przewidywane użycie (na miesiąc)
Zamiana mowy na tekst2 Standard $-
$-
Zarejestruj się, aby uzyskać dostęp
Dowiedz się więcej
120 000 godzin
600 000 godzin
10 000 godzin
50 000 godzin
Niestandardowe $-
$-
Zarejestruj się, aby uzyskać dostęp
Dowiedz się więcej
120 000 godzin
600 000 godzin
10 000 godzin
50 000 godzin
Rozszerzone funkcje dodatku:
  • Identyfikacja języka
  • Diaryzacja
$-
$-
120 000 godzin
600 000 godzin
10 000 godzin
50 000 godzin
Zamiana tekstu na mowę Neuronowa1 $-
$-
Zarejestruj się, aby uzyskać dostęp
Dowiedz się więcej
4,8 mld znaków
24 mld znaków
400 mln znaków
2000 mln znaków

1Obejmuje to syntezę w czasie rzeczywistym za pomocą wstępnie utworzonych głosów neuronowych innych niż HD i AOAI. Głosy HD, głosy AOAI i głosy niestandardowe (zarówno głosy profesjonalne, jak i osobiste) nie są dołączone. Synteza partii nie jest uwzględniona.

2Ceny dotyczą przypadków użycia w czasie rzeczywistym i w partiach. Brak oddzielnych cen partii dla kontenerów.

Te funkcje są przestarzałe i pozostają dostępne tylko dla istniejących klientów. Sprawdź szczegóły i dowiedz się, jak przeprowadzić migrację do nowych funkcji.

Wystąpienie Kategoria Funkcje Cena
Bezpłatnie - Internet/kontener
Równoczesne żądania: 1
Zamiana tekstu na mowę Standard Bezpłatne znaki na miesiąc: 5 million
Niestandardowe Bezpłatne znaki na miesiąc: 5 million
Hosting punktów końcowych: 1 bezpłatny model na miesiąc
Standardowa — internet/kontener
100 współbieżnych żądań dla modelu podstawowego
20 współbieżnych żądań dla modelu niestandardowego
Zamiana tekstu na mowę Standard $- za 1 mln znaków
Niestandardowe $- za 1 mln znaków
Hosting punktów końcowych: $- za model na godzinę

Opcje cen i zakupu platformy Azure

Skontaktuj się z nami bezpośrednio

Zapoznaj się z przewodnikiem dotyczącym cen platformy Azure. Poznaj ceny rozwiązania w chmurze, dowiedz się więcej o optymalizacji kosztów i poproś o ofertę niestandardową.

Rozmowa ze specjalistą ds. sprzedaży

Zobacz sposoby zakupu

Kup usługi platformy Azure za pośrednictwem witryny internetowej platformy Azure, przedstawiciela firmy Microsoft lub partnera platformy Azure.

Poznaj swoje opcje

Dodatkowe zasoby

Mowa platformy Azure AI

Dowiedz się więcej o funkcjach i możliwościach produktu Mowa platformy Azure AI.

Kalkulator cen

Oszacuj oczekiwane miesięczne koszty używania dowolnej kombinacji produktów platformy Azure.

Dokumentacja

Przejrzyj samouczki techniczne, materiały wideo i inne zasoby dotyczące produktu Mowa platformy Azure AI.

    • W przypadku funkcji Zamiana mowy na tekst i Tłumaczenie mowy użycie jest rozliczane w jednosekundowych przyrostach.
    • For Text to Speech: usage is billed per character. Check the definition of character in the pricing note.
    • For custom neural voice hosting: usage is billed per endpoint per second. Check details in the pricing note.
    • For personal voice profile storage: usage is billed per voice profile per day. Check details in the pricing note.
    • W przypadku awatara zamiany tekstu na mowę użycie jest rozliczane na sekundę.
    • W przypadku zamiana mowy na tekst i zamiany tekstu na mowę (w tym Awatara) hosting punktów końcowych na potrzeby modeli niestandardowych jest rozliczany za sekundę dla danego modelu.
  • Usługa mowy umożliwia użytkownikom adaptowanie modeli będących punktem odniesienia w oparciu o własne dane akustyczne i dotyczące języka, co prowadzi do opracowywania niestandardowych modeli mowy, których można używać względem opcji Zamiana mowy na tekst i Tłumaczenie mowy.

  • Model języka to rozkład prawdopodobieństwa dla sekwencji słów. Model języka pomaga systemowi wybierać między sekwencjami słów, które brzmią podobnie, na podstawie prawdopodobieństwa wystąpienia danych sekwencji. Na przykład sekwencje „rozpoznawanie mowy” i „ospo zna Wanię nowy” brzmią podobnie, ale pierwsza hipoteza jest znacznie bardziej prawdopodobna i dlatego model języka przypisze jej wyższą ocenę. Jeśli oczekujesz, że do aplikacji będą kierowane zapytania głosowe zawierające konkretne słownictwo, np. nazwy produktów lub żargon, które rzadko występują w typowej mowie, prawdopodobnie uzyskasz lepszą wydajność po dostosowaniu modelu języka. Jeśli na przykład tworzysz aplikację do głosowego przeszukiwania witryny MSDN, najprawdopodobniej terminy takie jak „obiektowe”, „przestrzeń nazw” lub „dot net” będą występować częściej niż w typowych aplikacjach głosowych. Dostosowanie modelu języka umożliwi systemowi nauczenie się tego.

  • Model akustyczny to klasyfikator oznaczający krótkie fragmenty audio jako jeden z kilku fonemów (jednostek dźwięku) w każdym języku. Te fonemy można następnie połączyć w celu utworzenia słów. Na przykład słowo „mowa” składa się z czterech fonemów: m, o, w, a. Te klasyfikacje są dokonywane z szybkością ok. 100 na sekundę. Dostosowanie modelu akustycznego może umożliwić systemowi naukę lepszego rozpoznawania mowy w nietypowych środowiskach. Na przykład w przypadku aplikacji zaprojektowanej do użycia przez pracowników magazynu lub fabryki dostosowany model akustyczny może dokładniej rozpoznawać mowę wśród hałasu typowego dla tych środowisk.

  • Speech service offers a wide range of text-to-speech (TTS) voice fonts, however custom neural voice allows you to build your own custom voice that suits your needs and your brand. Read the blog for more information.

  • Language identification allows you to identify a switch in spoken language and transcribe speech accordingly. This can be applied in scenarios where the audio language is unknown, or when speaker(s) may speak multiple languages. Single Language Identification is available at no additional cost. Continuous Language Identification is an enhanced add-on feature. Visit docs to learn more.

    • Pronunciation assessment evaluates speech pronunciation and gives speakers feedback on the accuracy and fluency of spoken audio. With pronunciation assessment, language learners can practice, get instant feedback, and improve their pronunciation so that they can speak and present with confidence. Educators can use the capability to evaluate pronunciation of multiple speakers in real time. Visit docs to learn more.
    • It is charged as standard Speech to Text, example:
      For evaluation of 8 seconds of speech, you will be charged around $-

Porozmawiaj ze specjalistą ds. sprzedaży, który przedstawi Ci cennik platformy Azure. Zapoznaj się z informacjami o cenach swojego rozwiązania w chmurze.

Uzyskaj bezpłatne usługi online i $200 środków na eksplorowanie platformy Azure przez 30 dni.

Dodano do oszacowania. Naciśnij klawisz „v”, aby wyświetlić w kalkulatorze