Пропустить и перейти к основному содержимому

Цены на Речь ИИ Azure

Унифицированные службы речи для преобразования речи в текст, текста в речь и перевода речи

Унифицированные службы "Речь" предоставляют широкий диапазон возможностей распознавания и создания речи, включая транскрибирование речи, преобразование текста в речь и перевод речи. Службы "Речь" предоставляют широкий диапазон возможностей распознавания и создания речи, включая транскрибирование речи, преобразование текста в речь, перевод речи и распознавание говорящего.

Изучите варианты оплаты

Примените фильтры, чтобы настроить варианты оплаты в соответствии со своими потребностями.

Цены являются ориентировочными и не должны рассматриваться как фактические предложения с расценками. Фактические цены могут различаться в зависимости от типа соглашения, заключенного с Майкрософт, от даты покупки и курса обмена валюты. Цены рассчитываются в долларах США и конвертируются на основе спотовых курсов закрытия лондонской биржи, фиксируемых за два рабочих дня до последнего рабочего дня конца предыдущего месяца. Если два рабочих дня до конца месяца выпадают на выходной день на основных рынках, днем установления ставки обычно является день, непосредственно предшествующий этим двум рабочим дням. Данная ставка применяется ко всем транзакциям в течение последующего месяца. Войдите в Калькулятор цен Azure, чтобы увидеть цены на основе вашей текущей программы или предложения от Майкрософт. Обратитесь к специалисту по продажам Azure, чтобы получить дополнительные сведения о ценах или запросить предложение с расценками. Ознакомьтесь с часто задаваемыми вопросами о ценах на Azure.

Бесплатно (F0)

Категория Компоненты Цена
Преобразование речи в текст
(посекундная тарификация)
Стандартная Бесплатно предоставляется 5 ч аудио в месяц3
Пользовательские Бесплатно предоставляется 5 ч аудио в месяц3
Размещение конечной точки: Бесплатно предоставляется 1 модель в месяц1
Транскрибирование бесед с многоканальным аудио ПРЕДВАРИТЕЛЬНАЯ ВЕРСИЯ Бесплатно предоставляется 5 ч аудио в месяц
Преобразование текста в речь
(посимвольная тарификация)
Нейронный Бесплатно предоставляется 0.5 million символов в месяц
Перевод речи
(посекундная тарификация)
Стандартный Бесплатно предоставляется 5 ч аудио в месяц
Распознавание говорящего
(тарификация за транзакцию)
Проверка говорящего2 Бесплатных транзакций в месяц: 10,000
Идентификация говорящего2 Бесплатных транзакций в месяц: 10,000
Хранение профиля голосовой связи Бесплатных транзакций в месяц: 10,000

См. документацию для получения сведений о квотах, ограничениях и инструкциях по увеличению количества одновременных запросов.

1Неиспользуемые модели будут автоматически списаны через семь дней.

2Распознавание говорящего — это функция с ограниченным доступом. Требуется подать заявку на доступ.

3Бесплатные часы звука для преобразования речи в текст совместно используется между стандартным и пользовательским, пакетная обработка не поддерживается.

Оплата по мере использования: платите только за то, что используете.

Категория Компоненты Цена
Преобразование речи в текст
(посекундная тарификация)
В режиме реального времени API пакетной службы
версии 3.2 или более поздней4
Стандартная $- в час $- в час
Пользовательские $- в час
Размещение конечной точки: $- на модель в час
$- в час
Размещение конечной точки: Н/Д
Обучение Пользовательского распознавания речи6 $- за час вычислений
Расширенные функции надстройки:
  • Непрерывная идентификация языка
  • Диаризация
  • Оценка произношения (просодия, грамматика, словарный запас, тема)
$- в час на функцию Включена непрерывная языковая идентификация и диаризация5
Транскрибирование бесед с многоканальным аудио ПРЕДВАРИТЕЛЬНАЯ ВЕРСИЯ $- в час1 Н/Д
Преобразование текста в речь
(посимвольная тарификация)
Нейронный Синтез пакетов в реальном времени: $- за 1 млн символов
Нейронный HD Синтез пакетов в реальном времени: $- за 1 млн символов
Создание пользовательского нейронного2 Обучение: от $- за час вычислений до $- за обучение
Синтез пакетов в реальном времени: $- за 1 млн символов
Размещение конечной точки: $- на модель в час
Персонализированный голос8 Создание голоса: бесплатно
Хранилище голосовых профилей: $- за 1000 голосовых профилей в месяц
Синтез: $- за 1 млн символов
Аватар Преобразования текста в речь (за секунду при выставлении счета) Аватар Синтез пакетов в реальном времени: $- за минуту
Пользовательский аватар9 Синтез в реальном времени: $- за минуту
Синтез пакетов: $- за минуту
Размещение конечных точек: $- за модель в час
Перевод речи
(посекундная тарификация)
Стандартный $- за час аудио7
Распознавание говорящего
(тарификация за транзакцию)
Проверка говорящего3 $- за 1,000 транзакций
Идентификация говорящего3 $- за 1,000 транзакций
Хранение профиля голосовой связи $- за 1,000 речевых профилей (10,000 бесплатных речевых профилей в месяц)

См. документацию для получения сведений о квотах, ограничениях и инструкциях по увеличению количества одновременных запросов.

Часы преобразования речи в текст измеряются как часы звука, отправленные в службу, оплачиваемые с шагом приращения в секунду.

1 Цены представлены для общедоступной предварительной версии. О ценах на общедоступную версию будет сообщено позже, ближе к ее выпуску.

2 Пользовательский нейронный голос (CNV) — это возможность с ограниченным доступом с версиями Pro и Lite. С помощью CNV Lite (общедоступная предварительная версия) клиент может записать собственный голос и создать модель для демонстрации или оценки, прежде чем подать заявку на доступ к версии Pro. Узнайте, где доступна возможность CNV.

3 Распознавание говорящего — это функция с ограниченным доступом. Требуется подать заявку на доступ.

4 Чтобы воспользоваться преимуществами новой цены, необходимо использовать новую предварительную версию REST API 3.2 Преобразования речи в текст. Сведения об использовании новой предварительной версии API 3.2 см. в документе Создание пакетного транскрибирования — служба "Речь" — службы ИИ Azure | Microsoft Learn.

5 Расширенные функции надстройки включены в цену пакетной службы для всех версий API пакетной службы.

6 Обучение Пользовательского распознавания речи применяется при настройке любой базовой модели, выпущенной 1 октября 2023 г. или позже.

7 В эту цену входит 1 звуковой вход и выход, до 2 языков перевода текста с использованием стандартного или пользовательского преобразования речи в текст и стандартного перевода. Для настраиваемого перевода или перевода на более чем 3 языка см. страницу цен на перевод текста Azure AI Translator.

8 Цены указаны для общедоступной предварительной версии. Цена для общедоступной версии будет объявлена позже в общедоступной версии. Персонализированный голос — это функция ограниченного доступа, ограниченная определеннымипредварительно утвержденными вариантами использования, для использования которой необходимо отправить заявку на доступ. Чтобы получить дополнительные сведения о службе, ознакомьтесь с документом.

9 Пользовательский аватар — это функция с ограниченным доступом, для ее использования требуется подать заявку на доступ

Уровни обязательств — Azure — стандартный

Категория Компоненты Цена (за месяц) Превышение
Преобразование речи в текст Стандартная $- — часы (2,000) $- в час
$- — часы (10,000) $- в час
$- — часы (50,000) $- в час
Пользовательские $- — часы (2,000) $- в час
$- — часы (10,000) $- в час
$- — часы (50,000) $- в час
Расширенные функции надстройки:2
  • Непрерывная идентификация языка
  • Диаризация
  • Оценка произношения (просодия, грамматика, словарный запас, тема)
$- — часы (2,000) $- в час
$- — часы (10,000) $- в час
$- — часы (50,000) $- в час
Преобразование текста в речь Нейронный1 $- — млн символов (80) $- на млн символов (1)
$- — млн символов (400) $- на млн символов (1)
$- — млн символов (2,000) $- на млн символов (1)

1Только синтез в режиме реального времени, не включает длительное создание звука.

2Только преобразование речи в текст в реальном времени, дополнительные функции непрерывной идентификации языка и ведения дневника, включенные в пакетное преобразование речи в текст.

Уровни обязательств — подключенный контейнер

Категория Компоненты Цена (за месяц) Превышение
Преобразование речи в текст2 Стандартная $- — часы (2,000) $- в час
$- — часы (10,000) $- в час
$- — часы (50,000) $- в час
Пользовательские $- — часы (2,000) $- в час
$- — часы (10,000) $- в час
$- — часы (50,000) $- в час
Расширенные функции надстройки:2
  • Идентификация языка
  • Диаризация
$- — часы (2,000) $- в час
$- — часы (10,000) $- в час
$- — часы (50,000) $- в час
Преобразование текста в речь Нейронный1 $- — млн символов (80) $- на млн символов (1)
$- — млн символов (400) $- на млн символов (1)
$- — млн символов (2,000) $- на млн символов (1)

1Только синтез в режиме реального времени, не включает длительное создание звука.

2Цены применяются к вариантам использования в реальном времени и в пакетном режиме. Отдельной цены на контейнеры для партий не существует.

Сведения о уровнях обязательств см. в документации.

Уровни обязательств — отключенный контейнер

Зарегистрируйтесь, чтобы получить доступ к речи в автономных контейнерах или получить дополнительные сведения

Категория Компоненты Цена (в год) Максимальное использование (в год) Прогнозируемое использование (в месяц)
Преобразование речи в текст2 Стандартная $-
$-
Зарегистрируйтесь, чтобы получить доступ
Подробнее
120 000 часов
600 000 часов
10 000 часов
50 000 часов
Пользовательские $-
$-
Зарегистрируйтесь, чтобы получить доступ
Подробнее
120 000 часов
600 000 часов
10 000 часов
50 000 часов
Расширенные функции надстройки:
  • Идентификация языка
  • Диаризация
$-
$-
120 000 часов
600 000 часов
10 000 часов
50 000 часов
Преобразование текста в речь Нейронный1 $-
$-
Зарегистрируйтесь, чтобы получить доступ
Подробнее
4,8 млрд символов
24 млрд символов
400 млн символов
2000 млн символов

1Только синтез в режиме реального времени, не включает длительное создание звука.

2Цены применяются к вариантам использования в реальном времени и в пакетном режиме. Отдельной цены на контейнеры для партий не существует.

Эти функции перестают использоваться и сейчас доступны только существующим клиентам. Ознакомьтесь с подробными сведениями и узнайте, как перейти на новые функции.

Экземпляр Категория Компоненты Цена
Бесплатные - Веб/контейнер
Число одновременных запросов: 1
Преобразование текста в речь Стандартная Бесплатно предоставляется 5 million символов в месяц
Пользовательские Бесплатно предоставляется 5 million символов в месяц
Размещение конечной точки: Бесплатно предоставляется 1 модель в месяц
Ценовая категория "Стандартный" — Интернет, контейнер
100 параллельных запросов для базовой модели
20 параллельных запросов для настраиваемой модели
Преобразование текста в речь Стандартная $- за 1 млн символов
Пользовательские $- за 1 млн символов
Размещение конечной точки: $- на модель в час

Azure: цены и варианты приобретения

Свяжитесь с нами напрямую

Изучите пошаговое руководство по ценам на Azure. Ознакомьтесь с ценами на интересующее вас облачное решение, узнайте об оптимизации затрат и запросите индивидуальное предложение.

Обратитесь к специалисту по продажам

Узнайте о способах приобретения

Приобрести службы Azure можно на веб-сайте Azure, у представителя Майкрософт или у партнера Azure.

Изучить доступные варианты

Дополнительные ресурсы

Речь ИИ Azure

Узнайте больше о функциях и возможностях службы "Речь ИИ Azure".

Калькулятор цен

Оцените приблизительные ежемесячные затраты при использовании любого сочетания продуктов Azure.

Документация

Ознакомьтесь с техническими руководствами, видеороликами и дополнительными ресурсами по службе "Речь ИИ Azure".

Часто задаваемые вопросы

    • При использовании «Преобразование речи в текст» и «Преобразование речи» плата взимается с шагом в одну секунду.
    • Преобразование текста в речь: плата за взимается за символ. Ознакомьтесь с определением символа в примечании к расценкам.
    • Для размещения пользовательского нейронного голоса: счета за использование выставляются за конечные точки в секунду. Подробные сведения см. в примечаниях о ценах.
    • Для хранилища персонализированных голосовых профилей: счета за использование выставляются за каждый голосовой профиль в день. Подробные сведения см. в примечаниях о ценах.
    • Для аватара преобразования текста в речь счет выставляется за каждую секунду использования.
    • При использовании Преобразования речи в текст и Преобразования текста в речь (включая Аватар) размещение конечной точки для пользовательских моделей оплачивается посекундно для каждой модели.
  • Служба "Речь" позволяет пользователям адаптировать базовые модели с учетом собственных акустических и языковых данных. Благодаря этому они получают настраиваемые модели речи, которые можно использовать в преобразовании речи в текст и переводе речи.

  • Языковая модель — это случайное распределение последовательностей слов. Она помогает системе определить из числа последовательностей слова, которые звучат одинаково, на основе вероятности самих этих последовательностей. Например, фразы recognize speech и wreck a nice beach звучат похоже, но вероятность использования первого предположения выше, поэтому языковая модель назначит первой фразе более высокий рейтинг. Если голосовые запросы к приложению будут содержать определенные языковые элементы, например имена продуктов или жаргонизмы, которые редко используются в обычной речи, настройка языковой модели позволит улучшить производительность. Например, при создании приложения для голосового поиска в MSDN вероятно, что такие термины, как объектно-ориентированный, пространство имен или .NET, будут звучать чаще, чем в других обычных программах распознавания речи. Настройка языковой модели позволит системе запомнить эти термины.

  • Акустическая модель — это классификатор, сопоставляющий краткие звуковые фрагменты с одной из нескольких фонем или звуковыми единицами каждого языка. Затем эти фонемы можно объединить в слова. Например, слово “речь” состоит из трех фонем: [р’эч’]. Эти классификации выполняются приблизительно 100 раз в секунду. Настройка акустической модели позволяет системе эффективнее распознавать речь в нетипичных средах. Например, если приложение предназначено для работников складов или заводов, настройка акустической модели помогает более точно распознать речь в шумных средах.

  • Служба "Речь" предлагает широкий спектр голосов для преобразования текста в речь, при этом Пользовательский нейронный голос позволяет создавать собственные голоса, которые соответствуют вашим потребностям и торговой марке. Ознакомиться с дополнительными сведениями можно в блоге.

  • Распознавание языка позволяет определить изменение языка речи и соответствующим образом транскрибировать речь. Это можно применять к сценариям, когда язык речи неизвестен или когда докладчики могут говорить на нескольких языках. Распознавание одного языка доступно бесплатно. Непрерывное распознавание языка — это улучшенная надстройка. Дополнительные сведения см. в документации.

    • Функция оценки произношения оценивает произношение в речи и сообщает говорящим о точности и плавности речи на записи. Благодаря этой функции пользователи, изучающие иностранные языки, могут попрактиковать произношение, незамедлительно получить обратную связь и улучшить свои навыки, чтобы увереннее выражаться. Преподаватели с помощью этой возможности могут оценивать произношение нескольких говорящих в режиме реального времени. Дополнительные сведения см. в документации.
    • Плата за эту функцию взимается по стандартным тарифам преобразования речи в текст, например:
      За оценку 8 секунд речи будет взиматься плата в размере $-

Обратитесь к специалисту по продажам, чтобы узнать, как формируются цены в Azure. Составьте предоставление о цене на свое облачное решение.

К вашим услугам бесплатные облачные службы и кредит в сумме $200 для изучения Azure в течение 30 дней.

Добавлено для расчета. Щелкните v для просмотра на калькуляторе