Ujednolicone usługi przetwarzania mowy umożliwiające zamianę mowy na tekst i tekstu na mowę oraz tłumaczenie mowy
Ujednolicone usługi mowy oferują szeroką gamę możliwości generowania i rozpoznawania mowy, takich jak na przykład transkrypcja mowy, zamiana tekstu na mowę i tłumaczenie mowy. Usługi mowy oferują szeroką gamę możliwości generowania i rozpoznawania mowy, takich jak na przykład transkrypcja mowy, zamiana tekstu na mowę, tłumaczenie mowy i rozpoznawanie osoby mówiącej.
Eksplorowanie opcji cennika
Zastosuj filtry, aby dostosować opcje cennika do własnych potrzeb.
Ceny są jedynie szacunkowe i nie stanowią rzeczywistych ofert cenowych. Rzeczywiste ceny mogą się różnić w zależności od typu umowy zawartej z firmą Microsoft, daty zakupu i kursu wymiany walut. Ceny są obliczane na podstawie kursu dolara amerykańskiego i przeliczane przy użyciu londyńskich kursów zamknięcia typu spot z dwóch dni roboczych przed ostatnim dniem roboczym końca poprzedniego miesiąca. Jeżeli dwa dni robocze poprzedzające koniec miesiąca przypadają na dni świąteczne na głównych rynkach, dniem ustalenia kursu jest zazwyczaj dzień bezpośrednio poprzedzający te dwa dni robocze. Ten kurs dotyczy wszystkich transakcji w nadchodzącym miesiącu. Zaloguj się do kalkulatora cen platformy Azure, aby zobaczyć ceny na podstawie bieżącego programu/oferty firmy Microsoft. Skontaktuj się ze specjalistą ds. sprzedaży platformy Azure, aby uzyskać więcej informacji na temat cen lub poprosić o wycenę. Zobacz często zadawane pytania dotyczące cen platformy Azure.
Instytucje rządowe USA mogą zakupić usługi platformy Azure Government u dostawcy rozwiązań licencjonowania bez zobowiązań finansowych z góry lub bezpośrednio w ramach subskrypcji w modelu płatności zgodnie z rzeczywistym użyciem.
Ważne: cena w R$ jest ceną orientacyjną; jest to transakcja międzynarodowa, a cena ostateczna jest uzależniona od kursów walut i podatku transakcyjnego (IOF). Dokument eNF nie zostanie wystawiony.
Instytucje rządowe USA mogą zakupić usługi platformy Azure Government u dostawcy rozwiązań licencjonowania bez zobowiązań finansowych z góry lub bezpośrednio w ramach subskrypcji w modelu płatności zgodnie z rzeczywistym użyciem.
Ważne: cena w R$ jest ceną orientacyjną; jest to transakcja międzynarodowa, a cena ostateczna jest uzależniona od kursów walut i podatku transakcyjnego (IOF). Dokument eNF nie zostanie wystawiony.
Bezpłatna (F0)
Kategoria | Funkcje | Cena |
---|---|---|
Zamiana mowy na tekst (rozliczenia za sekundę) |
Standard | Bezpłatne godziny audio na miesiąc: 53 |
Niestandardowe |
Bezpłatne godziny audio na miesiąc: 53 Hosting punktów końcowych: 1 bezpłatny model na miesiąc1 |
|
Transkrypcja konwersacji — wielokanałowe audio WERSJA ZAPOZNAWCZA | Bezpłatne godziny audio na miesiąc: 5 | |
Zamiana tekstu na mowę (rozliczenia za znak) |
Neuronowa | Bezpłatne znaki na miesiąc: 0.5 million |
Tłumaczenie mowy (rozliczenia za sekundę) |
Standardowa | Bezpłatne godziny audio na miesiąc: 5 |
Rozpoznawanie osoby mówiącej (rozliczanie za transakcję) |
Weryfikacja osoby mówiącej2 | Bezpłatne transakcje miesięcznie: 10,000 |
Identyfikacja osoby mówiącej2 | Bezpłatne transakcje miesięcznie: 10,000 | |
Magazyn profilu usługi Voice | Bezpłatne transakcje miesięcznie: 10,000 |
Płać zgodnie z rzeczywistym użyciem: płać tylko za to, czego używasz.
Kategoria | Cena | |
---|---|---|
Zamiana mowy na tekst (rozliczenia za sekundę) |
Standard |
Transkrypcja w czasie rzeczywistym: $- za godz. Szybka transkrypcjaWersja zapoznawcza: $- za godz.9 Transkrypcja wsadowa: $- za godz.1 |
Niestandardowe |
Transkrypcja w czasie rzeczywistym: $- za godz. Transkrypcja wsadowa: $- za godz.1 Hosting punktów końcowych: $- za model na godzinę Niestandardowe trenowanie mowy5: $- za godzinę obliczeniową |
|
Rozszerzone funkcje dodatku:
|
Czas rzeczywisty: $- na godzinę na funkcję Partia zadań (ciągła identyfikacja języka, integracja): uwzględniona w warstwie Standardowa/Niestandardowa (bez dodatkowych opłat) |
|
Transkrypcja konwersacji — wielokanałowe audio WERSJA ZAPOZNAWCZA | $- za godz.2 | |
Tłumaczenie mowy (rozliczenia za sekundę) |
Tłumaczenie mowy w czasie rzeczywistym | $- za godzinę audio3 |
Tłumaczenie wideoWersja zapoznawcza |
Partia: $- na minutę wideo wyjściowego Edytowanie zawartości: $- na minutę wideo wyjściowego Głos osobisty: $- na minutę wideo wyjściowego |
|
Zamiana tekstu na mowę8 | Głos standardowy |
Neuronowa: $- za 1 mln znaków Neuronowy HD4: $- za 1 mln znaków |
Custom Voice |
Profesjonalny głos:
Synteza: $- za 1 mln znaków
Trenowanie modelu głosu: $- za godzinę obliczeniową do $- za trenowanie Hosting punktów końcowych: $- za model na godzinę |
|
Głos osobisty6:
Synteza: $- za 1 mln znaków
Tworzenie modelu głosu: bezpłatnie Magazyn profilów głosowych: $- na 1000 profilów głosowych miesięcznie |
||
Rozszerzone funkcje dodatku: awatar | Standard: $- na minutę | |
Niestandardowe:
Synteza w czasie rzeczywistym: $- za minutę
Synteza partii: $- na minutę Hosting punktów końcowych: $- na model na godzinę |
||
Rozpoznawanie osoby mówiącej (rozliczanie za transakcję) |
Weryfikacja osoby mówiącej7 | $- za 1,000 transakcji |
Identyfikacja osoby mówiącej7 | $- za 1,000 transakcji | |
Magazyn profilu usługi Voice | $- za następującą liczbę profili głosu: 1,000 (liczba bezpłatnych profili głosu miesięcznie: 10,000) |
Warstwy zobowiązania — Azure — Standardowa
Kategoria | Funkcje | Cena (miesięcznie) | Nadwyżka |
---|---|---|---|
Zamiana mowy na tekst | Standard | $- za 2,000 godz. | $- za godzinę |
$- za 10,000 godz. | $- za godzinę | ||
$- za 50,000 godz. | $- za godzinę | ||
Niestandardowe | $- za 2,000 godz. | $- za godzinę | |
$- za 10,000 godz. | $- za godzinę | ||
$- za 50,000 godz. | $- za godzinę | ||
Rozszerzone funkcje dodatku:2
|
$- za 2,000 godz. | $- za godzinę | |
$- za 10,000 godz. | $- za godzinę | ||
$- za 50,000 godz. | $- za godzinę | ||
Zamiana tekstu na mowę | Neuronowa1 | $- za 80 mln znaków | $- na 1 mln znaków |
$- za 400 mln znaków | $- na 1 mln znaków | ||
$- za 2,000 mln znaków | $- na 1 mln znaków |
1Tylko synteza w czasie rzeczywistym, nie obejmuje to długiego tworzenia dźwięku.
2Funkcje dodatku Zamiana mowy na tekst w czasie rzeczywistym, Ciągła identyfikacja języka i Diaryzacja zawarte w funkcji zamiany mowy na tekst partii.
Warstwy zobowiązania — połączony kontener
Kategoria | Funkcje | Cena (miesięcznie) | Nadwyżka |
---|---|---|---|
Zamiana mowy na tekst2 | Standard | $- za 2,000 godz. | $- za godzinę |
$- za 10,000 godz. | $- za godzinę | ||
$- za 50,000 godz. | $- za godzinę | ||
Niestandardowe | $- za 2,000 godz. | $- za godzinę | |
$- za 10,000 godz. | $- za godzinę | ||
$- za 50,000 godz. | $- za godzinę | ||
Rozszerzone funkcje dodatku:2
|
$- za 2,000 godz. | $- za godzinę | |
$- za 10,000 godz. | $- za godzinę | ||
$- za 50,000 godz. | $- za godzinę | ||
Zamiana tekstu na mowę | Neuronowa1 | $- za 80 mln znaków | $- na 1 mln znaków |
$- za 400 mln znaków | $- na 1 mln znaków | ||
$- za 2,000 mln znaków | $- na 1 mln znaków |
1Tylko synteza w czasie rzeczywistym, nie obejmuje to długiego tworzenia dźwięku.
2Ceny dotyczą przypadków użycia w czasie rzeczywistym i w partiach. Brak oddzielnych cen partii dla kontenerów.
Zobacz dokumentację, aby uzyskać informacje na temat warstw zobowiązań.
Warstwy zobowiązania — odłączony kontener
Zarejestruj się, aby uzyskać dostęp do mowy w odłączonych kontenerach, lub dowiedz się więcej
Kategoria | Funkcje | Cena (na rok) | Maksymalne użycie (na rok) | Przewidywane użycie (na miesiąc) |
---|---|---|---|---|
Zamiana mowy na tekst2 | Standard |
$-
$- Zarejestruj się, aby uzyskać dostęp Dowiedz się więcej |
120 000 godzin
600 000 godzin |
10 000 godzin
50 000 godzin |
Niestandardowe |
$-
$- Zarejestruj się, aby uzyskać dostęp Dowiedz się więcej |
120 000 godzin
600 000 godzin |
10 000 godzin
50 000 godzin |
|
Rozszerzone funkcje dodatku:
|
$-
$- |
120 000 godzin
600 000 godzin |
10 000 godzin
50 000 godzin |
|
Zamiana tekstu na mowę | Neuronowa1 |
$-
$- Zarejestruj się, aby uzyskać dostęp Dowiedz się więcej |
4,8 mld znaków
24 mld znaków |
400 mln znaków
2000 mln znaków |
1Tylko synteza w czasie rzeczywistym, nie obejmuje to długiego tworzenia dźwięku.
2Ceny dotyczą przypadków użycia w czasie rzeczywistym i w partiach. Brak oddzielnych cen partii dla kontenerów.
Te funkcje są przestarzałe i pozostają dostępne tylko dla istniejących klientów. Sprawdź szczegóły i dowiedz się, jak przeprowadzić migrację do nowych funkcji.
Wystąpienie | Kategoria | Funkcje | Cena |
---|---|---|---|
Bezpłatnie - Internet/kontener Równoczesne żądania: 1 |
Zamiana tekstu na mowę | Standard | Bezpłatne znaki na miesiąc: 5 million |
Niestandardowe |
Bezpłatne znaki na miesiąc: 5 million Hosting punktów końcowych: 1 bezpłatny model na miesiąc |
||
Standardowa — internet/kontener 100 współbieżnych żądań dla modelu podstawowego 20 współbieżnych żądań dla modelu niestandardowego |
Zamiana tekstu na mowę | Standard | $- za 1 mln znaków |
Niestandardowe |
$- za 1 mln znaków Hosting punktów końcowych: $- za model na godzinę |
Opcje cen i zakupu platformy Azure
Skontaktuj się z nami bezpośrednio
Zapoznaj się z przewodnikiem dotyczącym cen platformy Azure. Poznaj ceny rozwiązania w chmurze, dowiedz się więcej o optymalizacji kosztów i poproś o ofertę niestandardową.
Rozmowa ze specjalistą ds. sprzedażyZobacz sposoby zakupu
Kup usługi platformy Azure za pośrednictwem witryny internetowej platformy Azure, przedstawiciela firmy Microsoft lub partnera platformy Azure.
Poznaj swoje opcjeDodatkowe zasoby
Mowa platformy Azure AI
Dowiedz się więcej o funkcjach i możliwościach produktu Mowa platformy Azure AI.
Kalkulator cen
Oszacuj oczekiwane miesięczne koszty używania dowolnej kombinacji produktów platformy Azure.
Dokumentacja
Przejrzyj samouczki techniczne, materiały wideo i inne zasoby dotyczące produktu Mowa platformy Azure AI.
Często zadawane pytania
-
- W przypadku funkcji Zamiana mowy na tekst i Tłumaczenie mowy użycie jest rozliczane w jednosekundowych przyrostach.
- W przypadku zamiany tekstu na mowę: użycie jest rozliczane za znak. Sprawdź definicję znaku w notatce o cenach.
- W przypadku hostowania niestandardowego neuronowego modelu głosu: opłaty za użycie są naliczane za punkt końcowy na sekundę. Sprawdź szczegóły w uwagach dotyczących cen.
- W przypadku osobistego magazynu profilów głosowych: opłaty za użycie są naliczane dziennie za profil głosowy. Sprawdź szczegóły w uwagach dotyczących cen.
- W przypadku awatara zamiany tekstu na mowę użycie jest rozliczane na sekundę.
- W przypadku zamiana mowy na tekst i zamiany tekstu na mowę (w tym Awatara) hosting punktów końcowych na potrzeby modeli niestandardowych jest rozliczany za sekundę dla danego modelu.
-
Usługa mowy umożliwia użytkownikom adaptowanie modeli będących punktem odniesienia w oparciu o własne dane akustyczne i dotyczące języka, co prowadzi do opracowywania niestandardowych modeli mowy, których można używać względem opcji Zamiana mowy na tekst i Tłumaczenie mowy.
-
Model języka to rozkład prawdopodobieństwa dla sekwencji słów. Model języka pomaga systemowi wybierać między sekwencjami słów, które brzmią podobnie, na podstawie prawdopodobieństwa wystąpienia danych sekwencji. Na przykład sekwencje „rozpoznawanie mowy” i „ospo zna Wanię nowy” brzmią podobnie, ale pierwsza hipoteza jest znacznie bardziej prawdopodobna i dlatego model języka przypisze jej wyższą ocenę. Jeśli oczekujesz, że do aplikacji będą kierowane zapytania głosowe zawierające konkretne słownictwo, np. nazwy produktów lub żargon, które rzadko występują w typowej mowie, prawdopodobnie uzyskasz lepszą wydajność po dostosowaniu modelu języka. Jeśli na przykład tworzysz aplikację do głosowego przeszukiwania witryny MSDN, najprawdopodobniej terminy takie jak „obiektowe”, „przestrzeń nazw” lub „dot net” będą występować częściej niż w typowych aplikacjach głosowych. Dostosowanie modelu języka umożliwi systemowi nauczenie się tego.
-
Model akustyczny to klasyfikator oznaczający krótkie fragmenty audio jako jeden z kilku fonemów (jednostek dźwięku) w każdym języku. Te fonemy można następnie połączyć w celu utworzenia słów. Na przykład słowo „mowa” składa się z czterech fonemów: m, o, w, a. Te klasyfikacje są dokonywane z szybkością ok. 100 na sekundę. Dostosowanie modelu akustycznego może umożliwić systemowi naukę lepszego rozpoznawania mowy w nietypowych środowiskach. Na przykład w przypadku aplikacji zaprojektowanej do użycia przez pracowników magazynu lub fabryki dostosowany model akustyczny może dokładniej rozpoznawać mowę wśród hałasu typowego dla tych środowisk.
-
Usługa Mowa oferuje szeroką gamę czcionek głosowych zamiany tekstu na mowę (TTS), natomiast niestandardowy neuronowy model głosu umożliwia tworzenie własnego niestandardowego głosu, który pasuje do Twoich potrzeb i Twojej marki. Przeczytaj blog, aby uzyskać więcej informacji.
-
Identyfikacja języka umożliwia zidentyfikowanie przełącznika w języku mówionym i odpowiednie transkrybowanie mowy. Można to zastosować w scenariuszach, w których język audio jest nieznany lub gdy osoby mówiące mogą mówić w wielu językach. Identyfikacja pojedynczego języka jest dostępna bez dodatkowych kosztów. Ciągła identyfikacja języka to ulepszona funkcja dodatku. Zobacz dokumenty, aby dowiedzieć się więcej.
-
- Ocena wymowy ocenia wymowę i przekazuje osobom mówiącym opinie na temat dokładności i płynności mówionego dźwięku. Dzięki ocenie wymowy osoby uczące się języka mogą ćwiczyć, uzyskiwać błyskawiczne opinie i ulepszać swoją wymowę, dzięki czemu mogą mówić i prezentować bez obaw. Nauczyciele mogą korzystać z możliwości oceny wymowy wielu osób mówiących w czasie rzeczywistym. Sprawdź dokumentację aby dowiedzieć się więcej.
- Naliczana jest opłata jako standardowa zamiana mowy na tekst, na przykład:
w przypadku oceny 8 sekund mowy zostanie naliczona opłata w wysokości około $-
Porozmawiaj ze specjalistą ds. sprzedaży, który przedstawi Ci cennik platformy Azure. Zapoznaj się z informacjami o cenach swojego rozwiązania w chmurze.
Uzyskaj bezpłatne usługi online i $200 środków na eksplorowanie platformy Azure przez 30 dni.