Перейти к основному контенту
Azure

Цены на Речь ИИ Azure

Унифицированные службы речи для преобразования речи в текст, текста в речь и перевода речи

Унифицированные службы "Речь" предоставляют широкий диапазон возможностей распознавания и создания речи, включая транскрибирование речи, преобразование текста в речь и перевод речи. Службы "Речь" предоставляют широкий диапазон возможностей распознавания и создания речи, включая транскрибирование речи, преобразование текста в речь, перевод речи и распознавание говорящего.

Изучите варианты оплаты

Примените фильтры, чтобы настроить варианты оплаты в соответствии со своими потребностями.

Цены являются ориентировочными и не должны рассматриваться как фактические предложения с расценками. Фактические цены могут различаться в зависимости от типа соглашения, заключенного с Майкрософт, от даты покупки и курса обмена валюты. Цены рассчитываются в долларах США и конвертируются на основе спотовых курсов закрытия лондонской биржи, фиксируемых за два рабочих дня до последнего рабочего дня конца предыдущего месяца. Если два рабочих дня до конца месяца выпадают на выходной день на основных рынках, днем установления ставки обычно является день, непосредственно предшествующий этим двум рабочим дням. Данная ставка применяется ко всем транзакциям в течение последующего месяца. Войдите в Калькулятор цен Azure, чтобы увидеть цены на основе вашей текущей программы или предложения от Майкрософт. Обратитесь к специалисту по продажам Azure, чтобы получить дополнительные сведения о ценах или запросить предложение с расценками. Ознакомьтесь с часто задаваемыми вопросами о ценах на Azure.

Бесплатно (F0)

Категория Компоненты Цена
Преобразование речи в текст
(посекундная тарификация)
Стандартная Бесплатно предоставляется 5 ч аудио в месяц3
Пользовательские Бесплатно предоставляется 5 ч аудио в месяц3
Размещение конечной точки: Бесплатно предоставляется 1 модель в месяц1
Транскрибирование бесед с многоканальным аудио ПРЕДВАРИТЕЛЬНАЯ ВЕРСИЯ Бесплатно предоставляется 5 ч аудио в месяц
Преобразование текста в речь
(посимвольная тарификация)
Нейронный Бесплатно предоставляется 0.5 million символов в месяц
Перевод речи
(посекундная тарификация)
Стандартный Бесплатно предоставляется 5 ч аудио в месяц
Распознавание говорящего
(тарификация за транзакцию)
Проверка говорящего2 Бесплатных транзакций в месяц: 10,000
Идентификация говорящего2 Бесплатных транзакций в месяц: 10,000
Хранение профиля голосовой связи Бесплатных транзакций в месяц: 10,000

См. документацию для получения сведений о квотах, ограничениях и инструкциях по увеличению количества одновременных запросов.

1Неиспользуемые модели будут автоматически списаны через семь дней.

2Распознавание говорящего — это функция с ограниченным доступом. Требуется подать заявку на доступ.

3Бесплатные часы звука для преобразования речи в текст совместно используется между стандартным и пользовательским, пакетная обработка не поддерживается.

Оплата по мере использования: платите только за то, что используете.

Категория Цена
Преобразование речи в текст
(посекундная тарификация)
Стандартная Транскрибирование в реальном времени: $- в час
Быстрое транскрибирование: $- в час9
Пакетное транскрибирование: $- в час1
Пользовательские Транскрибирование в реальном времени: $- в час
Пакетное транскрибирование: $- в час1
Размещение конечной точки: $- на модель в час
Обучение Пользовательского распознавания речи5: $- за час вычислений
Расширенные функции надстройки:
  • Непрерывная идентификация языка
  • Диаризация
  • Оценка произношения (просодия, грамматика, словарный запас, тема)
Реальное время: $- в час на функцию
Пакетная служба (непрерывная идентификация языка, диаризация): включено в стандартный/пользовательский вариант (без дополнительной платы)
Транскрибирование бесед с многоканальным аудио ПРЕДВАРИТЕЛЬНАЯ ВЕРСИЯ $- в час2
Перевод речи
(посекундная тарификация)
Перевод речи в реальном времени $- за час аудио3
Перевод видеоПредварительная версия Пакетная служба: $- за минуту выходного видео
Редактирование содержимого: $- за минуту выходного видео
Персонализированный голос: $- за минуту выходного видео
Преобразование текста в речь8 Стандартный голос Нейронный: $- за 1 млн символов
Нейронный HD4: $- за 1 млн символов
Пользовательские голосовые модели Профессиональный голос:
Синтез: $- за 1 млн символов
Обучение голосовой модели: $- за час вычислений, до $- за обучение
Размещение конечной точки: $- на модель в час
Персонализированный голос6:
Синтез: $- за 1 млн символов
Создание голоса: бесплатно
Хранилище голосовых профилей: $- за 1000 голосовых профилей в месяц
Расширенная функция надстройки: аватар Стандартная: $- в минуту
Пользовательские:
Синтез в реальном времени: $- за минуту
Синтез пакетов: $- за минуту
Размещение конечных точек: $- за модель в час
Распознавание говорящего
(тарификация за транзакцию)
Проверка говорящего7 $- за 1,000 транзакций
Идентификация говорящего7 $- за 1,000 транзакций
Хранение профиля голосовой связи $- за 1,000 речевых профилей (10,000 бесплатных речевых профилей в месяц)

См. документацию для получения сведений о квотах, ограничениях и инструкциях по увеличению количества одновременных запросов.

Часы преобразования речи в текст измеряются как часы звука, отправленные в службу, оплачиваемые с шагом приращения в секунду.

1Чтобы воспользоваться преимуществами этой новой цены для пакетного транскрибирования, необходимо использовать REST API преобразования речи в текст версии 3.2 или более поздней. Сведения см. в разделе о REST API преобразования речи в текст.

2Цены указаны для общедоступной предварительной версии.

3В эту цену входит 1 звуковой вход и выход, до 2 языков перевода текста с использованием стандартного или пользовательского преобразования речи в текст и стандартного перевода. Для настраиваемого перевода или перевода на более чем 3 языка см. страницу цен на перевод текста Azure AI Translator.

4Голоса функции преобразования текста в речь OpenAI доступны в двух вариантах модели: Нейронный и NeuralHD. Дополнительные сведения см. здесь.

5Обучение Пользовательского распознавания речи применяется при настройке любой базовой модели, выпущенной 1 октября 2023 г. или позже.

6Персонализированный голос — это функция ограниченного доступа, ограниченная определенными предварительно утвержденными вариантами использования, для применения которой необходимо отправить заявку на доступ. Чтобы получить дополнительные сведения о службе, ознакомьтесь с документом.

7Распознавание говорящего — это функция с ограниченным доступом. Требуется подать заявку на доступ.

8Преобразование текста в речь: счета при использовании синтеза речи выставляются за символ. Счета для аватара выставляются за секунду. Счета для обучения и размещения модели выставляется за секунду.

9Чтобы применять Быстрое транскрибирование, необходимо использовать REST API преобразования речи версии 2024-05-15-preview или более поздних версий. Сведения см. в разделе о REST API преобразования речи в текст.

Уровни обязательств — Azure — стандартный

Категория Компоненты Цена (за месяц) Превышение
Преобразование речи в текст Стандартная $- — часы (2,000) $- в час
$- — часы (10,000) $- в час
$- — часы (50,000) $- в час
Пользовательские $- — часы (2,000) $- в час
$- — часы (10,000) $- в час
$- — часы (50,000) $- в час
Расширенные функции надстройки:2
  • Непрерывная идентификация языка
  • Диаризация
  • Оценка произношения (просодия, грамматика, словарный запас, тема)
$- — часы (2,000) $- в час
$- — часы (10,000) $- в час
$- — часы (50,000) $- в час
Преобразование текста в речь Нейронный1 $- — млн символов (80) $- на млн символов (1)
$- — млн символов (400) $- на млн символов (1)
$- — млн символов (2,000) $- на млн символов (1)

1Только синтез в режиме реального времени, не включает длительное создание звука.

2Только преобразование речи в текст в реальном времени, дополнительные функции непрерывной идентификации языка и ведения дневника, включенные в пакетное преобразование речи в текст.

Уровни обязательств — подключенный контейнер

Категория Компоненты Цена (за месяц) Превышение
Преобразование речи в текст2 Стандартная $- — часы (2,000) $- в час
$- — часы (10,000) $- в час
$- — часы (50,000) $- в час
Пользовательские $- — часы (2,000) $- в час
$- — часы (10,000) $- в час
$- — часы (50,000) $- в час
Расширенные функции надстройки:2
  • Идентификация языка
  • Диаризация
$- — часы (2,000) $- в час
$- — часы (10,000) $- в час
$- — часы (50,000) $- в час
Преобразование текста в речь Нейронный1 $- — млн символов (80) $- на млн символов (1)
$- — млн символов (400) $- на млн символов (1)
$- — млн символов (2,000) $- на млн символов (1)

1Только синтез в режиме реального времени, не включает длительное создание звука.

2Цены применяются к вариантам использования в реальном времени и в пакетном режиме. Отдельной цены на контейнеры для партий не существует.

Сведения о уровнях обязательств см. в документации.

Уровни обязательств — отключенный контейнер

Зарегистрируйтесь, чтобы получить доступ к речи в автономных контейнерах или получить дополнительные сведения

Категория Компоненты Цена (в год) Максимальное использование (в год) Прогнозируемое использование (в месяц)
Преобразование речи в текст2 Стандартная $-
$-
Зарегистрируйтесь, чтобы получить доступ
Подробнее
120 000 часов
600 000 часов
10 000 часов
50 000 часов
Пользовательские $-
$-
Зарегистрируйтесь, чтобы получить доступ
Подробнее
120 000 часов
600 000 часов
10 000 часов
50 000 часов
Расширенные функции надстройки:
  • Идентификация языка
  • Диаризация
$-
$-
120 000 часов
600 000 часов
10 000 часов
50 000 часов
Преобразование текста в речь Нейронный1 $-
$-
Зарегистрируйтесь, чтобы получить доступ
Подробнее
4,8 млрд символов
24 млрд символов
400 млн символов
2000 млн символов

1Только синтез в режиме реального времени, не включает длительное создание звука.

2Цены применяются к вариантам использования в реальном времени и в пакетном режиме. Отдельной цены на контейнеры для партий не существует.

Эти функции перестают использоваться и сейчас доступны только существующим клиентам. Ознакомьтесь с подробными сведениями и узнайте, как перейти на новые функции.

Экземпляр Категория Компоненты Цена
Бесплатные - Веб/контейнер
Число одновременных запросов: 1
Преобразование текста в речь Стандартная Бесплатно предоставляется 5 million символов в месяц
Пользовательские Бесплатно предоставляется 5 million символов в месяц
Размещение конечной точки: Бесплатно предоставляется 1 модель в месяц
Ценовая категория "Стандартный" — Интернет, контейнер
100 параллельных запросов для базовой модели
20 параллельных запросов для настраиваемой модели
Преобразование текста в речь Стандартная $- за 1 млн символов
Пользовательские $- за 1 млн символов
Размещение конечной точки: $- на модель в час

Azure: цены и варианты приобретения

Свяжитесь с нами напрямую

Изучите пошаговое руководство по ценам на Azure. Ознакомьтесь с ценами на интересующее вас облачное решение, узнайте об оптимизации затрат и запросите индивидуальное предложение.

Обратитесь к специалисту по продажам

Узнайте о способах приобретения

Приобрести службы Azure можно на веб-сайте Azure, у представителя Майкрософт или у партнера Azure.

Изучить доступные варианты

Дополнительные ресурсы

Речь ИИ Azure

Узнайте больше о функциях и возможностях службы "Речь ИИ Azure".

Калькулятор цен

Оцените приблизительные ежемесячные затраты при использовании любого сочетания продуктов Azure.

Документация

Ознакомьтесь с техническими руководствами, видеороликами и дополнительными ресурсами по службе "Речь ИИ Azure".

Часто задаваемые вопросы

    • При использовании «Преобразование речи в текст» и «Преобразование речи» плата взимается с шагом в одну секунду.
    • Преобразование текста в речь: плата за взимается за символ. Ознакомьтесь с определением символа в примечании к расценкам.
    • Для размещения пользовательского нейронного голоса: счета за использование выставляются за конечные точки в секунду. Подробные сведения см. в примечаниях о ценах.
    • Для хранилища персонализированных голосовых профилей: счета за использование выставляются за каждый голосовой профиль в день. Подробные сведения см. в примечаниях о ценах.
    • Для аватара преобразования текста в речь счет выставляется за каждую секунду использования.
    • При использовании Преобразования речи в текст и Преобразования текста в речь (включая Аватар) размещение конечной точки для пользовательских моделей оплачивается посекундно для каждой модели.
  • Служба "Речь" позволяет пользователям адаптировать базовые модели с учетом собственных акустических и языковых данных. Благодаря этому они получают настраиваемые модели речи, которые можно использовать в преобразовании речи в текст и переводе речи.

  • Языковая модель — это случайное распределение последовательностей слов. Она помогает системе определить из числа последовательностей слова, которые звучат одинаково, на основе вероятности самих этих последовательностей. Например, фразы recognize speech и wreck a nice beach звучат похоже, но вероятность использования первого предположения выше, поэтому языковая модель назначит первой фразе более высокий рейтинг. Если голосовые запросы к приложению будут содержать определенные языковые элементы, например имена продуктов или жаргонизмы, которые редко используются в обычной речи, настройка языковой модели позволит улучшить производительность. Например, при создании приложения для голосового поиска в MSDN вероятно, что такие термины, как объектно-ориентированный, пространство имен или .NET, будут звучать чаще, чем в других обычных программах распознавания речи. Настройка языковой модели позволит системе запомнить эти термины.

  • Акустическая модель — это классификатор, сопоставляющий краткие звуковые фрагменты с одной из нескольких фонем или звуковыми единицами каждого языка. Затем эти фонемы можно объединить в слова. Например, слово “речь” состоит из трех фонем: [р’эч’]. Эти классификации выполняются приблизительно 100 раз в секунду. Настройка акустической модели позволяет системе эффективнее распознавать речь в нетипичных средах. Например, если приложение предназначено для работников складов или заводов, настройка акустической модели помогает более точно распознать речь в шумных средах.

  • Служба "Речь" предлагает широкий спектр голосов для преобразования текста в речь, при этом Пользовательский нейронный голос позволяет создавать собственные голоса, которые соответствуют вашим потребностям и торговой марке. Ознакомиться с дополнительными сведениями можно в блоге.

  • Распознавание языка позволяет определить изменение языка речи и соответствующим образом транскрибировать речь. Это можно применять к сценариям, когда язык речи неизвестен или когда докладчики могут говорить на нескольких языках. Распознавание одного языка доступно бесплатно. Непрерывное распознавание языка — это улучшенная надстройка. Дополнительные сведения см. в документации.

    • Функция оценки произношения оценивает произношение в речи и сообщает говорящим о точности и плавности речи на записи. Благодаря этой функции пользователи, изучающие иностранные языки, могут попрактиковать произношение, незамедлительно получить обратную связь и улучшить свои навыки, чтобы увереннее выражаться. Преподаватели с помощью этой возможности могут оценивать произношение нескольких говорящих в режиме реального времени. Дополнительные сведения см. в документации.
    • Плата за эту функцию взимается по стандартным тарифам преобразования речи в текст, например:
      За оценку 8 секунд речи будет взиматься плата в размере $-

Обратитесь к специалисту по продажам, чтобы узнать, как формируются цены в Azure. Составьте предоставление о цене на свое облачное решение.

К вашим услугам бесплатные облачные службы и кредит в сумме $200 для изучения Azure в течение 30 дней.

Добавлено для расчета. Щелкните v для просмотра на калькуляторе