Pomiń nawigację
TERAZ DOSTĘPNE

Wprowadzenie do rozwiązania Ingestion Client dla usługi Mowa platformy Azure

Data opublikowania: 28 czerwca, 2021

Mowa to usługa Azure Cognitive Service umożliwiająca tworzenie skalowalnych rozwiązań, które mogą obsługiwać różne zadania związane z mową, takie jak transkrypcja dźwięku, wytwarzanie naturalnie brzmiących głosów, rozpoznawanie osób mówiących i obsługa tłumaczenia mowy.

Dzisiaj wprowadzamy Ingestion Client, rozwiązanie platformy Azure, które będzie monitorować dedykowany kontener usługi Azure Storage, dzięki czemu pliki dźwiękowe trafiające do tego magazynu będą automatycznie transkrybowane.

Utworzyliśmy to narzędzie, aby ułatwić skonfigurowanie pełnego, skalowalnego i bezpiecznego potoku transkrypcji przy użyciu prostej konfiguracji i bez żadnych prac programistycznych. Rozwiązanie Ingestion Client udostępnia najlepsze rozwiązania w celu maksymalizowania żądań transkrypcji pod względem skalowania (do setek tysięcy plików), zarządzania błędami, logiki ponawiania prób i różnych innych optymalizacji. Konfiguracja jest przeprowadzana za pośrednictwem wdrożenia usługi ARM. Architektura rozwiązania wdrażana przez ten szablon usługi ARM jest opisana na poniższej ilustracji.

 

Graficzny interfejs użytkownika, diagram, aplikacja

Automatycznie generowany opis

Gdy użytkownik przekaże plik dźwiękowy do dedykowanego kontenera usługi Azure Storage, wyzwalane przez czasomierz rozwiązanie Azure Functions pobierze ten plik i utworzy żądanie transkrypcji przy użyciu interfejsu API REST zamiany mowy na tekst w wersji 3.0 lub zestawu SDK usługi Mowa (wybór użytkownika). Po pomyślnym ukończeniu transkrypcji rozwiązanie zapisuje transkrypcję w kontenerach, z których uzyskano plik dźwiękowy. Ponadto użytkownicy mogą zastosować analizę do transkrypcji i tworzyć lub redagować raporty, co jest wynikiem wdrożenia dodatkowych zasobów za pomocą szablonu usługi ARM.

Zapoznaj się z naszym przewodnikiem, aby uzyskać więcej informacji o narzędziu i uwagach dotyczących instalacji oraz pobrać kod z tego repozytorium Github.

  • Zamiana mowy na tekst
  • Usługi mowy
  • Operating System
  • SDK and Tools