Преобразование речи в текст

Быстро преобразуйте аудио в текст для естественной скорости реагирования.

Служба "Преобразование речи в текст" в Cognitive Services предлагает целый ряд внедряемых в приложения функций для поддержки различных сценариев транскрибирования, включая транскрибирование бесед, транскрибирование речи и пользовательское транскрибирование речи.

Транскрибирование бесед

Включайте функцию транскрибирования на персональных встречах. Функция транскрибирования бесед записывает речь в режиме реального времени, поэтому все участники встречи могут в полной мере участвовать в обсуждении, определять, кто, что и когда сказал, и быстро переходить к следующим действиям.

Используйте транскрибирование бесед для выполнения следующих задач:

  • запись речи всех говорящих в комнате для совещаний;
  • защита данных с помощью сертификатов в области повышенного уровня безопасности и соответствия требованиям;
  • поддержка организации собраний и конференций, при проведении которых используются микрофоны и видеокамеры, с помощью пакета SDK для речевых устройств.

Оцените работу решения в действии

При загрузке этой демонстрации произошла ошибка. Подождите и повторите попытку.

Докладчик Расшифровка

Эта демонстрация несовместима с вашим браузером. Воспользуйтесь другим браузером для оптимальной работы.

Хотите создать подобное?

Транскрибирование речи

Преобразовывайте устную речь в текст. Вызовите API для распознавания звука, поступающего с микрофона, из других источников потокового аудио в режиме реального времени или из записанного аудиофайла. Когда экземпляр аудио передан на сервер, по запросу возвращаются частичные результаты распознавания.

Вы можете использовать API для создания интеллектуальных приложений с голосовым управлением. Чтобы ознакомиться с принципами работы этого приложения, попробуйте его демоверсию. Выберите целевой язык, щелкните микрофон и начните говорить. Или просто щелкните один из примеров речевых фраз*.

Оцените работу решения в действии

Чтобы оценить демонстрационную версию, записав с помощью микрофона собственный голос, используйте браузер с поддержкой WebRTC, например последнюю версию Microsoft Edge, Firefox или Chrome.

Хотите создать подобное?

Пользовательская служба распознавания речи. Транскрибирование речи с пользовательской моделью

Устраняйте препятствия при распознавании речи, такие как стиль речи, лексикон и фоновый шум. Наши технологии распознавания речи объединяют несколько API-интерфейсов для вывода текста. Клиенты могут настраивать API в соответствии со своими требованиями и доступными данными.

Оцените работу решения в действии

Примеры предложений

Базовый показатель

Распознавание речи

Создание пользовательских языковых моделей, адаптированных к разговорным стилям пользователей

Не позволяйте различным словарям и стилям речи блокировать распознавание. Настройте языковую модель функции распознавания речи в вашем приложении, адаптировав ее к своим отраслевым выражениям, техническим, географическим или рыночным терминам и даже стилю речи.

Адаптация к пользовательской среде с помощью акустических моделей

Убедитесь, что функция распознавания речи в вашем приложении функционирует во всех средах надлежащим образом. С пользовательскими акустическими моделями вы можете учитывать фоновый шум и соответствовать ожидаемым средам пользователей.

Использование надежных моделей речи от корпорации Майкрософт

Обеспечьте мощное персонализированное распознавание речи, создавая собственные настраиваемые модели распознавания речи на базе имеющихся передовых моделей Майкрософт.

Хотите создать подобное?

Ознакомьтесь со сценарием распознавания речи

Колл-центр

Speech ServicesWith Speech Services, it's easy to transcribe every call. Index the transcription for full-text search, or apply Text Analytics to detect sentiment, language, and key phrases for insights. If your call center recordings involve specialized terminology, such as product names or IT jargon, create a custom language model to teach Speech Services the vocabulary. A custom acoustic model helps Speech Services understand speakers even with background noise or poor phone connections. For more information, read how batch transcription works with Speech Services.
  1. Обзор
  2. Поток

Службы речи

Обзор

Службы речи позволяют легко транскрибировать каждый звонок. Вы можете проиндексировать транскрипцию для полнотекстового поиска или применить анализ текста, чтобы обнаружить тональность, язык и ключевые фразы. Если в записях звонков в колл-центрах наблюдается специализированная терминология (такая, как имена продуктов или ИТ-жаргон), можно создать языковую модель, чтобы обучить Службы речи этому словарю. Настраиваемая акустическая модель помогает Службам речи понимать говорящих даже при наличии фонового шума или в случае плохой телефонной связи.

Узнайте о работе пакетного транскрибирования со Службами речи.

Поток

  1. 1 Адаптируйте модель к своей предметной области и разверните ее
  2. 2 Отправьте записи в контейнер BLOB-объектов
  3. 3 Создайте запрос POST для пакетного транскрибирования
  4. 4 Службы речи планируют задание транскрибирования
  5. 5 Стереофайлы разделяются на два канала
  6. 6 Монофайлы проходят диаризацию, чтобы проводить различия между говорящими
  7. 7 Скачайте транскрипцию с помощью идентификатора транскрипции

Знакомство с API-интерфейсами Cognitive Services

Компьютерное зрение

Извлечение важнейшей информации из изображений

Распознавание лиц

Распознает, опознает, анализирует, группирует и помечает тегами лица на фотографиях

Распознаватель рукописного текста ПРЕДВАРИТЕЛЬНАЯ ВЕРСИЯ

Служба ИИ, распознающая содержимое рукописного ввода, включая записи от руки, формы и документы

Индексатор видео

Получите все преимущества анализа видео

Пользовательское визуальное распознавание

Простая настройка новейших моделей компьютерного зрения для конкретных вариантов использования

Распознаватель документов ПРЕДВАРИТЕЛЬНАЯ ВЕРСИЯ

Служба извлечения документов с поддержкой АА, распознающая формы

Анализ текста

Легко оценивайте мнение и темы, чтобы узнать желания пользователей

Перевод текстов

Легко выполняйте машинный перевод текста с помощью простого вызова REST API

QnA Maker

Преобразуйте информацию в ответы, представленные в режиме диалога с удобной навигацией

Распознавание речи

Научите свои приложения понимать команды пользователей

Иммерсивное средство чтения ПРЕДВАРИТЕЛЬНАЯ ВЕРСИЯ

Упростите чтение и понимание текста для пользователей разных возрастов и с разными возможностями

Службы речи

Унифицированные службы речи для преобразования речи в текст, текста в речь и перевода речи

Распознавание говорящего ПРЕДВАРИТЕЛЬНАЯ ВЕРСИЯ

Используйте речь, чтобы идентифицировать и проверить отдельных говорящих

Content Moderator

Автоматическая модерация изображений, текста и видео

Детектор аномалий ПРЕДВАРИТЕЛЬНАЯ ВЕРСИЯ

Без труда внедряйте возможности обнаружения аномалий в свои приложения.

Персонализатор ПРЕДВАРИТЕЛЬНАЯ ВЕРСИЯ

Служба ИИ, которая обеспечивает персонализированную работу

Используйте пакет SDK для речевых устройств, чтобы создать интеллектуальное устройство, реагирующее на окружающую среду, и настроить слово для активации

Подробнее…