Цены на Cognitive Services, службы речи

Используйте интеллектуальные интерфейсы API для использования возможностей компьютерного зрения, обработки речи и поиска

Унифицированные службы "Речь" предоставляют широкий диапазон возможностей распознавания и создания речи, включая транскрибирование речи, преобразование текста в речь и перевод речи. Службы "Речь" предоставляют широкий диапазон возможностей распознавания и создания речи, включая транскрибирование речи, преобразование текста в речь, перевод речи и распознавание говорящего.

Сведения о ценах

Экземпляр Категория Компоненты Цена
Бесплатно - Веб/контейнер
Число одновременных запросов: 11
Преобразование речи в текст Стандартный Бесплатно предоставляется 5 ч аудио в месяц
Пользовательские Бесплатно предоставляется 5 ч аудио в месяц
Размещение конечной точки: Бесплатно предоставляется 1 модель в месяц 2
Транскрибирование бесед с многоканальным аудио ПРЕДВАРИТЕЛЬНАЯ ВЕРСИЯ 3 Бесплатно предоставляется 5 ч аудио в месяц
Преобразование текста в речь Стандартный Бесплатно предоставляется 5 million символов в месяц
Нейронный Бесплатно предоставляется 0.5 million символов в месяц
Пользовательские Бесплатно предоставляется 5 million символов в месяц
Размещение конечной точки: Бесплатно предоставляется 1 модель в месяц
Перевод речи Стандартный Бесплатно предоставляется 5 ч аудио в месяц
Распознавание говорящего 7 Проверка говорящего Бесплатных транзакций в месяц: 10,000
Идентификация говорящего Бесплатных транзакций в месяц: 10,000
Хранилище голосовых данных Бесплатных транзакций в месяц: 10,000
Ценовая категория "Стандартный" — Интернет, контейнер
100 параллельных запросов для базовой модели
20 параллельных запросов для настраиваемой модели1
Преобразование речи в текст Стандартный $- за час аудио
Пользовательские $- за час аудио
Размещение конечной точки: $- на модель в час
Транскрибирование бесед с многоканальным аудио ПРЕДВАРИТЕЛЬНАЯ ВЕРСИЯ 3 $- за час аудио 4
Преобразование текста в речь Стандартный $- за 1 млн символов
Нейронный $- за 1 млн символов 5
Создание длинного аудиоматериала: $- за 1 млн символов
Пользовательские $- за 1 млн символов
Размещение конечной точки: $- на модель в час
Создание пользовательского нейронного 6 Обучение: от $- за час вычислений до $- за обучение
Синтез в реальном времени: $- за 1 млн символов
Размещение конечной точки: $- на модель в час
Создание длинного аудиоматериала: $- за 1 млн символов
Перевод речи Стандартный $- за час аудио
Распознавание говорящего 7 Проверка говорящего $- за 1,000 транзакций
Идентификация говорящего $- за 1,000 транзакций
Хранилище голосовых данных $- за 1,000 транзакций

Дополнительные сведения о квотах и ограничениях для всех ценовых категорий см. в документации.

1Чтобы увеличить количество параллельных запросов, ознакомьтесь с инструкциями.

2Неиспользуемые модели будут автоматически списаны через семь дней.

3Для многоканального транскрибирования бесед рекомендуется использовать всенаправленный микрофон. Дополнительные сведения см. в пакете SDK Microsoft для голосовых устройств.

4Цены представлены для общедоступной предварительной версии. О ценах на общедоступную версию будет сообщено позже, ближе к ее выпуску.

5См. документацию по нейронным технологиям для регионов, в которых доступно нейронное преобразование текста в речь.

6Пользовательский нейронный голос — это функция с ограниченным доступом. Узнайте больше о процессе получения ограниченного доступа.

Поддержка и соглашение об уровне обслуживания

  • Включена бесплатная поддержка по вопросам выставления счетов и управления подписками.
  • Мы гарантируем, что службы Cognitive Services уровня "Стандартный" будут доступны в течение как минимум 99,9 % времени. Для бесплатной пробной версии соглашение об уровне обслуживания отсутствует. Ознакомьтесь с соглашением об уровне обслуживания.

Вопросы и ответы

    • Для перевода речи, преобразования речи в текст и преобразования речи в текст с помощью модели Пользовательского распознавания речи: использование тарифицируется посекундно.
    • Для преобразования текста в речь и преобразования текста в речь с помощью Пользовательского голоса: использование тарифицируется посимвольно.
    • Для размещения настраиваемых моделей речи использование тарифицируется на почасовой основе, а для размещения настраиваемого голоса — ежедневно.
    • Для настраиваемых команд: при выставлении счетов использование отслеживается так же, как и для преобразования речи в текст, преобразования текста в речь и распознавания речи. Новые единицы выставления счетов не добавляются.
    • Плата за обучение моделей речи не взимается. Плата взимается только за размещение модели после обучения, а также за каждый час транскрибирования речи.
  • Служба "Речь" позволяет пользователям адаптировать базовые модели с учетом собственных акустических и языковых данных. Благодаря этому они получают настраиваемые модели речи, которые можно использовать в преобразовании речи в текст и переводе речи.

  • Языковая модель — это случайное распределение последовательностей слов. Она помогает системе определить из числа последовательностей слова, которые звучат одинаково, на основе вероятности самих этих последовательностей. Например, фразы recognize speech и wreck a nice beach звучат похоже, но вероятность использования первого предположения выше, поэтому языковая модель назначит первой фразе более высокий рейтинг. Если голосовые запросы к приложению будут содержать определенные языковые элементы, например имена продуктов или жаргонизмы, которые редко используются в обычной речи, настройка языковой модели позволит улучшить производительность. Например, при создании приложения для голосового поиска в MSDN вероятно, что такие термины, как объектно-ориентированный, пространство имен или .NET, будут звучать чаще, чем в других обычных программах распознавания речи. Настройка языковой модели позволит системе запомнить эти термины.

  • Акустическая модель — это классификатор, сопоставляющий краткие звуковые фрагменты с одной из нескольких фонем или звуковыми единицами каждого языка. Затем эти фонемы можно объединить в слова. Например, слово "речь" состоит из трех фонем: [р’эч’]. Эти классификации выполняются приблизительно 100 раз в секунду. Настройка акустической модели позволяет системе эффективнее распознавать речь в нетипичных средах. Например, если приложение предназначено для работников складов или заводов, настройка акустической модели помогает более точно распознать речь в шумных средах.

  • Службы "Речь" корпорации Майкрософт предоставляют более 70 голосов по умолчанию на более чем 40 языках для преобразования текста в аудиоданные. Виртуальные помощники и различные приложения с поддержкой речи набирают все большую популярность. Однако для представления множеству компаний требуется уникальный голос, который бы точно передавал их лицо. Например, при разработке чат-бота для службы обслуживания клиента вы можете связать его с уникальным голосом компании для разработки клиентского вложения. Аналогично разработчик внутренних навигационных автомобильных программ может включить преобразование текста в речь на разных настраиваемых голосах для повышения удобства использования.

    С этой задачей сможет быстро справиться Voice Studio, пользовательский портал для создания голоса. Используя собственные аудиоданные (записанный голос человека со связанными сценариями), вы можете создать настраиваемый голос, который затем развертывается в службе преобразования текста в речь корпорации Майкрософт и легко реализуется в ваших программах с помощью собственной конечной точки API.

Ресурсы

Оцените ежемесячные затраты на службы Azure

Ознакомьтесь с часто задаваемыми вопросами по ценам Azure

Узнайте подробнее о Azure Cognitive Services

Ознакомьтесь с техническими учебниками, видеороликами и дополнительными ресурсами

Добавлено для расчета. Щелкните v для просмотра на калькуляторе

Обратитесь к специалисту по продажам, чтобы узнать, как формируются цены в Azure. Составьте предоставление о цене на свое облачное решение.

К вашим услугам бесплатные облачные службы и кредит в сумме $200 для изучения Azure в течение 30 дней.