Zamiana mowy na tekst

Szybko konwertuj dźwięk na tekst na potrzeby naturalnego reagowania.

Funkcja zamiany mowy na tekst usług Cognitive Services oferuje szereg możliwości, które można osadzać w aplikacjach obsługujących różne scenariusze transkrypcji, w tym transkrypcję konwersacji, transkrypcję mowy i niestandardową transkrypcję mowy.

Transkrypcja konwersacji

Włącz osobistą transkrypcję spotkania. Transkrypcja konwersacji przechwytuje mowę w czasie rzeczywistym, dzięki czemu wszyscy uczestnicy spotkania mogą w pełni angażować się w dyskusję, identyfikować osobę mówiącą i czas wypowiedzi oraz szybko przechodzić do następnych kroków.

Funkcja transkrypcji konwersacji ma następujące możliwości:

 • Przechwytywanie mowy z całej sali konferencyjnej.
 • Pomoc w zapewnieniu bezpieczeństwa danych dzięki wiodącym w branży certyfikatom zabezpieczeń i zgodności.
 • Obsługa konfigurowania konferencji i spotkań z użyciem mikrofonów oraz kamer wideo dzięki parowaniu z zestawem Speech Devices SDK.

Zobacz, jak to działa

Wystąpił błąd podczas ładowania tej demonstracji, zaczekaj chwilę i spróbuj ponownie

Prelegent Transkrypcja

Ten pokaz nie jest zgodny z Twoją przeglądarką. Aby uzyskać najlepsze wyniki, użyj innej przeglądarki.

Chcesz to skompilować?

Transkrypcja mowy

Przekonwertuj mowę na tekst. Wywołaj interfejs API, aby rozpoznać dźwięk pochodzący z mikrofonu, z innych strumieniowych źródeł czasu rzeczywistego lub z nagranego pliku dźwiękowego. Po wysłaniu materiału dźwiękowego do serwera na życzenie są zwracane częściowe wyniki rozpoznawania.

Przy użyciu interfejsu API możesz kompilować inteligentne aplikacje wyzwalane głosem. Wypróbuj prezentację, aby zobaczyć, jak to działa. Wybierz swój język docelowy, a następnie kliknij mikrofon i zacznij mówić. Możesz również po prostu kliknąć jedno z przykładowych wyrażeń mowy.*

Zobacz, jak to działa

Aby wypróbować wersję demonstracyjną za pomocą Twojego własnego głosu przy użyciu mikrofonu, zmień przeglądarkę na inną, obsługującą protokół WebRTC, na przykład najnowszą wersję przeglądarki Microsoft Edge, Firefox lub Chrome.

Chcesz to skompilować?

Niestandardowa usługa mowy: transkrypcja mowy za pomocą modelu niestandardowego

Pokonaj bariery rozpoznawania mowy, takie jak styl wypowiedzi, słownictwo i hałas w tle. Nasze technologie rozpoznawania mowy łączą wiele interfejsów API, aby utworzyć tekst wyjściowy. Klienci mogą dostosowywać interfejsy API do swoich potrzeb i dostępnych danych.

Zobacz, jak to działa

Przykładowe zdania

Punkt odniesienia

Mowa niestandardowa

Twórz niestandardowe modele języka dopasowane do stylów mówienia użytkowników

Nie pozwól, aby zróżnicowane słownictwo i style mówienia przeszkadzały w zrozumieniu. Dopasuj model języka rozpoznawania mowy Twojej aplikacji do wyrażeń branżowych, warunków technicznych, geograficznych czy rynkowych, a nawet stylu osoby mówiącej.

Dopasuj się do środowiska użytkownika, korzystając z niestandardowych modeli akustycznych

Upewnij się, że funkcja rozpoznawania mowy Twojej aplikacji może działać we wszystkich środowiskach. Dzięki niestandardowym modelom akustycznym możesz uwzględnić hałas w tle i dostosować się do oczekiwanych środowisk Twoich użytkowników.

Używaj niezawodnych modeli mowy firmy Microsoft

Włącz zaawansowane, spersonalizowane rozpoznawanie mowy, tworząc własne, dostosowane modele rozpoznawania mowy w oparciu o istniejące, nowoczesne modele firmy Microsoft.

Chcesz to skompilować?

Poznaj scenariusz dotyczący mowy

Centrum telefonicznej obsługi klienta

Speech ServicesWith Speech Services, it is easy to transcribe every call. Index the transcription for full-text search or apply Text Analytics to detect sentiment, language and key phrases for insights. If your call center recordings involve specialized terminology, such as product names or IT jargon, create a custom language model to teach Speech Services the vocabulary. A custom acoustic model helps Speech Services understand speakers even with background noise or poor phone connections. For more information, read how batch transcription works with Speech Services.
 1. Przegląd
 2. Przepływ

Usługi mowy

Przegląd

Dzięki usługom Speech Services transkrypcja każdego połączenia jest łatwa. Dla takiej transkrypcji można łatwo utworzyć indeks na potrzeby wyszukiwania pełnotekstowego lub zastosować analizę tekstu w celu wykrycia tonacji, języka i fraz kluczowych. Jeśli nagrania z centrów telefonicznej obsługi klienta zawierają specjalistyczną terminologię, na przykład nazwy produktów lub żargon informatyczny, utwórz niestandardowy model językowy, aby nauczyć usługi Speech Services tego słownictwa. Niestandardowy model akustyczny ułatwia usługom Speech Services zrozumienie osób mówiących nawet w warunkach szumu w tle lub niskiej jakości połączeń telefonicznych.

Aby uzyskać więc informacji, przeczytaj, jak działa transkrypcja wsadowa w usługach Speech Services.

Przepływ

 1. 1 Dostosuj model do swojej domeny i wdróż ten model
 2. 2 Przekaż swoje nagrania do kontenera obiektów blob
 3. 3 Utwórz żądanie POST na potrzeby transkrypcji wsadowej
 4. 4 Usługi Speech Services planują zadanie transkrypcji
 5. 5 Pliki stereofoniczne są dzielone na dwa kanały
 6. 6 Pliki monofoniczne są dzielone między głośniki
 7. 7 Pobierz transkrypcję, używając identyfikatora transkrypcji

Poznaj interfejsy API usług Cognitive Services

Przetwarzanie obrazów

Wyodrębnianie określonych informacji z obrazów

Rozpoznawanie twarzy

Wykrywanie, identyfikowanie, analizowanie, organizowanie i znakowanie twarzy na zdjęciach

Rozpoznawanie pisma odręcznego WERSJA ZAPOZNAWCZA

Oparta na sztucznej inteligencji usługa umożliwiająca rozpoznawanie zawartości w postaci pisma cyfrowego, na przykład pisma ręcznego, kształtów i układu pisanych odręcznie dokumentów

Indeksator wideo

Udostępnienie analiz wideo

Niestandardowe przetwarzanie obrazów

Łatwo dostosowuj najwyższej klasy własne modele przetwarzania obrazów dla unikatowych przypadków użycia

Rozpoznawanie formularzy WERSJA ZAPOZNAWCZA

Napędzana przez sztuczną inteligencję usługa wyodrębniania dokumentów, która rozpoznaje formularze

Analiza tekstu

Łatwe ocenianie opinii i tematów w celu zrozumienia potrzeb użytkowników

Tłumaczenie tekstu w usłudze Translator

Łatwe wykonywanie tłumaczenia maszynowego dzięki prostemu wywołaniu interfejsu API REST

QnA Maker

Wydobądź z informacji konwersacyjne odpowiedzi, po których łatwo się poruszać

Language Understanding

Naucz aplikacje rozpoznawać polecenia użytkowników

Czytnik immersyjny WERSJA ZAPOZNAWCZA

Zwiększ możliwości użytkowników w każdym wieku i z różnymi zdolnościami w zakresie czytania i rozumienia tekstu

Usługi mowy

Ujednolicone usługi przetwarzania mowy umożliwiające zamianę mowy na tekst i tekstu na mowę oraz tłumaczenie mowy

Rozpoznawanie osoby mówiącej WERSJA ZAPOZNAWCZA

Identyfikuj i weryfikuj osoby mówiące na podstawie głosu

Content Moderator

Zautomatyzowane moderowanie obrazów, tekstu i wideo

Narzędzie do wykrywania anomalii WERSJA ZAPOZNAWCZA

Łatwo dodawaj funkcje wykrywania anomalii do aplikacji.

Personalizacja WERSJA ZAPOZNAWCZA

Usługa sztucznej inteligencji udostępniająca spersonalizowane środowisko użytkownika

Użyj zestawu Speech Devices SDK, aby utworzyć urządzenie asystujące i określić niestandardowe słowo aktywujące

Dowiedz się więcej