Цены на Cognitive Services, службы речи

Используйте интеллектуальные API-интерфейсы для настройки компьютерного зрения, обработки голосовых запросов и поиска.

Унифицированные службы "Речь" предоставляют широкий диапазон возможностей распознавания и создания речи, включая транскрибирование речи, преобразование текста в речь и перевод речи.

Сведения о ценах

Нейронное преобразование текста в речь — уже в статусе общедоступной версии. Здесь указаны цены на общедоступную версию, которые вступают в силу с 1 июля 2019 г. До 30 июня 2019 г. будет действовать скидка 50 %.

Речевой контейнер находится в стадии общедоступной предварительной версии.

Экземпляр Категория Компоненты Цена
Бесплатные - Веб/контейнер
Число одновременных запросов: 11
Преобразование речи в текст Стандартный Бесплатно предоставляется 5 ч аудио в месяц
Пользовательское распознавание речи Бесплатно предоставляется 5 ч аудио в месяц
Размещение конечной точки для пользовательской службы распознавания речи2 Бесплатно предоставляется 1 модель в месяц
Транскрибирование бесед с многоканальным аудиоПРЕДВАРИТЕЛЬНАЯ ВЕРСИЯ 3 Бесплатно предоставляется 5 ч аудио в месяц
Преобразование текста в речь Стандартный Бесплатно предоставляется 5 млн символов в месяц
Нейронный Бесплатно предоставляется 0.5 млн символов в месяц
Пользовательские голосовые модели Бесплатно предоставляется 5 млн символов в месяц
Размещение конечной точки для настраиваемой голосовой модели2 Бесплатно предоставляется 1 модель в месяц
Перевод речи Стандартный Бесплатно предоставляется 5 ч аудио в месяц
Стандартный - Веб/контейнер
Число одновременных запросов: 201
Преобразование речи в текст Стандартный $- за час аудио
Пользовательское распознавание речи $- за час аудио
Размещение конечной точки для пользовательской службы распознавания речи $- за модель в месяц
Транскрибирование бесед с многоканальным аудиоПРЕДВАРИТЕЛЬНАЯ ВЕРСИЯ 3 $- за час аудио4
Преобразование текста в речь Стандартный $- за 1 млн символов
Нейронный $- за 1 млн символов5
Пользовательские голосовые модели $- за 1 млн символов
Размещение конечной точки для настраиваемой голосовой модели $- за модель в месяц
Перевод речи Стандартный $- за час аудио

1Одновременные запросы применимы только к конечным веб-точкам.

2Неиспользуемые модели будут автоматически списаны через семь дней.

3Для многоканального транскрибирования бесед рекомендуется использовать всенаправленный микрофон. Дополнительные сведения см. в пакете SDK Microsoft для голосовых устройств.

4Цены представлены для общедоступной предварительной версии. О ценах на общедоступную версию будет сообщено позже, ближе к ее выпуску.

5Здесь указаны цены на общедоступную версию, которые вступают в силу с 1 июля 2019 г. До 30 июня 2019 г. функция нейронного преобразования текста в речь будет предоставляться со скидкой 50 %. См. документацию по нейронным технологиям для регионов, в которых доступно нейронное преобразование текста в речь.

Поддержка и соглашение об уровне обслуживания

  • Включена бесплатная поддержка по вопросам выставления счетов и управления подписками.
  • Мы гарантируем, что службы Cognitive Services уровня "Стандартный" будут доступны в течение как минимум 99,9 % времени. Для бесплатной пробной версии соглашение об уровне обслуживания отсутствует. Ознакомьтесь с соглашением об уровне обслуживания.

Часто задаваемые вопросы

    • Для перевода речи, преобразования речи в текст и преобразования речи в текст с помощью настраиваемой модели речи: использование тарифицируется с шагом в одну секунду
    • Для преобразования текста в речь и преобразования текста в речь с помощью настраиваемого голоса: использование тарифицируется на один символ
    • Для размещения настраиваемых моделей речи использование тарифицируется на почасовой основе, а для размещения настраиваемого голоса — ежедневно.
  • Служба "Речь" позволяет пользователям адаптировать базовые модели с учетом собственных акустических и языковых данных. Благодаря этому они получают настраиваемые модели речи, которые можно использовать в преобразовании речи в текст и переводе речи.

  • Языковая модель — это случайное распределение последовательностей слов. Она помогает системе определить из числа последовательностей слова, которые звучат одинаково, на основе вероятности самих этих последовательностей. Например, фразы recognize speech и wreck a nice beach звучат похоже, но вероятность использования первого предположения выше, поэтому языковая модель назначит первой фразе более высокий рейтинг. Если голосовые запросы к приложению будут содержать определенные языковые элементы, например имена продуктов или жаргонизмы, которые редко используются в обычной речи, настройка языковой модели позволит улучшить производительность. Например, при создании приложения для голосового поиска в MSDN вероятно, что такие термины, как объектно-ориентированный, пространство имен или .NET, будут звучать чаще, чем в других обычных программах распознавания речи. Настройка языковой модели позволит системе запомнить эти термины.

  • Акустическая модель — это классификатор, сопоставляющий краткие звуковые фрагменты с одной из нескольких фонем или звуковыми единицами каждого языка. Затем эти фонемы можно объединить в слова. Например, слово "речь" состоит из трех фонем: [р’эч’]. Эти классификации выполняются приблизительно 100 раз в секунду. Настройка акустической модели позволяет системе эффективнее распознавать речь в нетипичных средах. Например, если приложение предназначено для работников складов или заводов, настройка акустической модели помогает более точно распознать речь в шумных средах.

  • Службы "Речь" корпорации Майкрософт предоставляют более 70 голосов по умолчанию на более чем 40 языках для преобразования текста в аудиоданные. Виртуальные помощники и различные приложения с поддержкой речи набирают все большую популярность. Однако для представления множеству компаний требуется уникальный голос, который бы точно передавал их лицо. Например, при разработке чат-бота для службы обслуживания клиента вы можете связать его с уникальным голосом компании для разработки клиентского вложения. Аналогично разработчик внутренних навигационных автомобильных программ может включить преобразование текста в речь на разных настраиваемых голосах для повышения удобства использования.

    С этой задачей сможет быстро справиться Voice Studio, пользовательский портал для создания голоса. Используя собственные аудиоданные (записанный голос человека со связанными сценариями), вы можете создать настраиваемый голос, который затем развертывается в службе преобразования текста в речь корпорации Майкрософт и легко реализуется в ваших программах с помощью собственной конечной точки API.

Ресурсы

Оцените ежемесячные затраты на службы Azure

Ознакомьтесь с часто задаваемыми вопросами по ценам Azure

Узнайте подробнее о Cognitive Services

Ознакомьтесь с техническими учебными пособиями, видеороликами и дополнительными ресурсами

Добавлено для расчета. Щелкните v для просмотра на калькуляторе

Обучайтесь и создавайте, используя деньги на счете ($200), а также продолжайте использовать продукты бесплатно