Типы служб API распознавания речи

Статья
06/01/2023

Службу распознавания речи Azure Cognitive Services можно использовать для преобразования речи, включая преобразование речи в текст, преобразование текста в речь, перевод речи и распознавание говорящего.

Примечание

Используйте Службу Azure Cognitive Service для языка, если вы хотите получить аналитические сведения о терминах или фразах или получить подробный контекстный анализ устной или письменной речи.

Службы

Преобразование речи в текст может преобразовывать аудиопотоки в текст в режиме реального времени или в пакетном режиме.
Преобразование текста в речь позволяет приложениям преобразовывать текст в человеческую речь.
Перевод речи обеспечивает многоязычный перевод речи в речь и преобразование речи в текст аудиопотоков.

Выбор службы "Речь"

Эта блок-схема поможет вам выбрать службу распознавания речи, которая соответствует вашим потребностям:

Схема выбора службы

В левой части схемы показаны процессы преобразования звука в аудио или аудио в текст.

Преобразование речи в текст используется для преобразования речи из источника звука в текстовый формат.
Преобразование речи в речь используется для перевода речи на одном языке в речь на другом языке.

В правой части схемы показаны процессы преобразования текста в аудио.

Преобразование текста в речь используется для создания устного звука из источника текста.

Распространенные варианты использования

В следующей таблице приведены рекомендации по службам для некоторых распространенных вариантов использования.

Вариант использования	Используемая служба
Предоставление скрытых субтитров для записанных или видео в реальном времени	Преобразование речи в текст
Создание расшифровки телефонного звонка или собрания	Преобразование речи в текст
Реализация автоматического диктовки заметок	Преобразование речи в текст
Определение предполагаемых пользовательских данных для дальнейшей обработки	Преобразование речи в текст
Создание голосовых ответов на входные данные пользователя	Преобразование текста в речь
Создание голосовых меню для телефонных систем	Преобразование текста в речь
Чтение сообщений электронной почты или текстовых сообщений вслух в сценариях без использования рук	Преобразование текста в речь
Трансляция объявлений в общественных местах, таких как железнодорожные станции или аэропорты	Преобразование текста в речь
Создание скрытых субтитров в режиме реального времени для речи или одновременного двустороннего перевода устной беседы	Преобразование речи в текст

Соавторы

Эта статья поддерживается корпорацией Майкрософт. Первоначально она была написана следующими авторами.

Основные авторы:

Крути Мехта | Старший Fast-Track инженер Azure
Оскар Симабукуро | Старший архитектор облачных решений

Другие участники:

Мик Альбертс | Технический автор
Ашиш Чахуан | Старший архитектор облачных решений
Брэндон Коуэн | Старший архитектор облачных решений
Манджит Сингх | Программист
Кристина Скарпатиотаки | Старший архитектор облачных решений
Натан Виддап | Старший Fast-Track инженер Azure

Чтобы просмотреть закрытые профили LinkedIn, войдите в LinkedIn.

Типы служб API распознавания речи

Службы

Выбор службы "Речь"

Распространенные варианты использования

Соавторы

Дальнейшие действия

Обратная связь

Обратная связь

Дополнительные ресурсы

Типы служб API распознавания речи

Службы

Выбор службы "Речь"

Распространенные варианты использования

Соавторы

Дальнейшие действия

Связанные ресурсы

Обратная связь

Обратная связь

Дополнительные ресурсы