Пропустить и перейти к основному содержимому

Цены на Речь ИИ Azure

Унифицированные службы речи для преобразования речи в текст, текста в речь и перевода речи

Унифицированные службы "Речь" предоставляют широкий диапазон возможностей распознавания и создания речи, включая транскрибирование речи, преобразование текста в речь и перевод речи. Службы "Речь" предоставляют широкий диапазон возможностей распознавания и создания речи, включая транскрибирование речи, преобразование текста в речь, перевод речи и распознавание говорящего.

Изучите варианты оплаты

Примените фильтры, чтобы настроить варианты оплаты в соответствии со своими потребностями.

Цены являются ориентировочными и не должны рассматриваться как фактические предложения с расценками. Фактические цены могут различаться в зависимости от типа соглашения, заключенного с Майкрософт, от даты покупки и курса обмена валюты. Цены рассчитываются в долларах США и конвертируются на основе спотовых курсов закрытия лондонской биржи, фиксируемых за два рабочих дня до последнего рабочего дня конца предыдущего месяца. Если два рабочих дня до конца месяца выпадают на выходной день на основных рынках, днем установления ставки обычно является день, непосредственно предшествующий этим двум рабочим дням. Данная ставка применяется ко всем транзакциям в течение последующего месяца. Войдите в Калькулятор цен Azure, чтобы увидеть цены на основе вашей текущей программы или предложения от Майкрософт. Обратитесь к специалисту по продажам Azure, чтобы получить дополнительные сведения о ценах или запросить предложение с расценками. Ознакомьтесь с часто задаваемыми вопросами о ценах на Azure.

Бесплатно (F0)

Категория Компоненты Цена
Преобразование речи в текст
(посекундная тарификация)
Стандартная Бесплатно предоставляется 5 ч аудио в месяц3
Пользовательские Бесплатно предоставляется 5 ч аудио в месяц3
Размещение конечной точки: Бесплатно предоставляется 1 модель в месяц1
Транскрибирование бесед с многоканальным аудио ПРЕДВАРИТЕЛЬНАЯ ВЕРСИЯ Бесплатно предоставляется 5 ч аудио в месяц
Преобразование текста в речь
(посимвольная тарификация)
Нейронный Бесплатно предоставляется 0.5 million символов в месяц
Перевод речи
(посекундная тарификация)
Стандартный Бесплатно предоставляется 5 ч аудио в месяц
Распознавание говорящего
(тарификация за транзакцию)
Проверка говорящего2 Бесплатных транзакций в месяц: 10,000
Идентификация говорящего2 Бесплатных транзакций в месяц: 10,000
Хранение профиля голосовой связи Бесплатных транзакций в месяц: 10,000

См. документацию для получения сведений о квотах, ограничениях и инструкциях по увеличению количества одновременных запросов.

1Неиспользуемые модели будут автоматически списаны через семь дней.

2Распознавание говорящего — это функция с ограниченным доступом. Требуется подать заявку на доступ.

3Бесплатные часы звука для преобразования речи в текст совместно используется между стандартным и пользовательским, пакетная обработка не поддерживается.

Оплата по мере использования: платите только за то, что используете.

Категория Цена
Преобразование речи в текст
(посекундная тарификация)
Стандартная Real-time Transcription: $- в час
Fast TranscriptionPreview: $- в час9
Batch Transcription: $- в час1
Пользовательские Real-time Transcription: $- в час
Batch Transcription: $- в час1
Размещение конечной точки: $- на модель в час
Обучение Пользовательского распознавания речи5: $- за час вычислений
Расширенные функции надстройки:
  • Непрерывная идентификация языка
  • Диаризация
  • Оценка произношения (просодия, грамматика, словарный запас, тема)
Real-time: $- в час на функцию
Batch (Continuous Language identification, Diarization): Included in Standard/Custom (no extra charge)
Транскрибирование бесед с многоканальным аудио ПРЕДВАРИТЕЛЬНАЯ ВЕРСИЯ $- в час2
Перевод речи
(посекундная тарификация)
Real-time Speech Translation $- за час аудио3
Video TranslationPreview Batch: $- per output video minute
Content editing: $- per output video minute
Персонализированный голос: $- per output video minute
Преобразование текста в речь8 Standard Voice Нейронный: $- за 1 млн символов
Нейронный HD4: $- за 1 млн символов
Custom Voice Professional Voice:
Синтез: $- за 1 млн символов
Voice model training: $- за час вычислений, up to $- за обучение
Размещение конечной точки: $- на модель в час
Персонализированный голос6:
Синтез: $- за 1 млн символов
Voice creation: Free
Хранилище голосовых профилей: $- за 1000 голосовых профилей в месяц
Enhanced Add-on feature: AvatarPreview Стандартная: $- в минуту
Пользовательские:
Синтез в реальном времени: $- за минуту
Синтез пакетов: $- за минуту
Размещение конечных точек: $- за модель в час
Распознавание говорящего
(тарификация за транзакцию)
Проверка говорящего7 $- за 1,000 транзакций
Идентификация говорящего7 $- за 1,000 транзакций
Хранение профиля голосовой связи $- за 1,000 речевых профилей (10,000 бесплатных речевых профилей в месяц)

См. документацию для получения сведений о квотах, ограничениях и инструкциях по увеличению количества одновременных запросов.

Часы преобразования речи в текст измеряются как часы звука, отправленные в службу, оплачиваемые с шагом приращения в секунду.

1To take advantage of this new Batch Transcription pricing you need to use Speech to text REST API V3.2 or later versions. See Speech to text REST API for information.

2This reflects public preview pricing.

3В эту цену входит 1 звуковой вход и выход, до 2 языков перевода текста с использованием стандартного или пользовательского преобразования речи в текст и стандартного перевода. Для настраиваемого перевода или перевода на более чем 3 языка см. страницу цен на перевод текста Azure AI Translator.

4OpenAI text to speech voices are available via two model variants: Neural and NeuralHD. Learn more here.

5Обучение Пользовательского распознавания речи применяется при настройке любой базовой модели, выпущенной 1 октября 2023 г. или позже.

6Personal Voice is a limited access feature restricted to certain pre-approved use cases only, with a need to applying for access. To learn more about the service, check the document.

7Распознавание говорящего — это функция с ограниченным доступом. Требуется подать заявку на доступ.

8Text to Speech: speech synthesis usage is billed per character. Avatar is billed per second. Training and model hosting is billed per second.

9To use Fast Transcription you need to use Speech to text REST API 2024-05-15-preview or later versions. See Speech to text REST API for information.

Уровни обязательств — Azure — стандартный

Категория Компоненты Цена (за месяц) Превышение
Преобразование речи в текст Стандартная $- — часы (2,000) $- в час
$- — часы (10,000) $- в час
$- — часы (50,000) $- в час
Пользовательские $- — часы (2,000) $- в час
$- — часы (10,000) $- в час
$- — часы (50,000) $- в час
Расширенные функции надстройки:2
  • Непрерывная идентификация языка
  • Диаризация
  • Оценка произношения (просодия, грамматика, словарный запас, тема)
$- — часы (2,000) $- в час
$- — часы (10,000) $- в час
$- — часы (50,000) $- в час
Преобразование текста в речь Нейронный1 $- — млн символов (80) $- на млн символов (1)
$- — млн символов (400) $- на млн символов (1)
$- — млн символов (2,000) $- на млн символов (1)

1Только синтез в режиме реального времени, не включает длительное создание звука.

2Только преобразование речи в текст в реальном времени, дополнительные функции непрерывной идентификации языка и ведения дневника, включенные в пакетное преобразование речи в текст.

Уровни обязательств — подключенный контейнер

Категория Компоненты Цена (за месяц) Превышение
Преобразование речи в текст2 Стандартная $- — часы (2,000) $- в час
$- — часы (10,000) $- в час
$- — часы (50,000) $- в час
Пользовательские $- — часы (2,000) $- в час
$- — часы (10,000) $- в час
$- — часы (50,000) $- в час
Расширенные функции надстройки:2
  • Идентификация языка
  • Диаризация
$- — часы (2,000) $- в час
$- — часы (10,000) $- в час
$- — часы (50,000) $- в час
Преобразование текста в речь Нейронный1 $- — млн символов (80) $- на млн символов (1)
$- — млн символов (400) $- на млн символов (1)
$- — млн символов (2,000) $- на млн символов (1)

1Только синтез в режиме реального времени, не включает длительное создание звука.

2Цены применяются к вариантам использования в реальном времени и в пакетном режиме. Отдельной цены на контейнеры для партий не существует.

Сведения о уровнях обязательств см. в документации.

Уровни обязательств — отключенный контейнер

Зарегистрируйтесь, чтобы получить доступ к речи в автономных контейнерах или получить дополнительные сведения

Категория Компоненты Цена (в год) Максимальное использование (в год) Прогнозируемое использование (в месяц)
Преобразование речи в текст2 Стандартная $-
$-
Зарегистрируйтесь, чтобы получить доступ
Подробнее
120 000 часов
600 000 часов
10 000 часов
50 000 часов
Пользовательские $-
$-
Зарегистрируйтесь, чтобы получить доступ
Подробнее
120 000 часов
600 000 часов
10 000 часов
50 000 часов
Расширенные функции надстройки:
  • Идентификация языка
  • Диаризация
$-
$-
120 000 часов
600 000 часов
10 000 часов
50 000 часов
Преобразование текста в речь Нейронный1 $-
$-
Зарегистрируйтесь, чтобы получить доступ
Подробнее
4,8 млрд символов
24 млрд символов
400 млн символов
2000 млн символов

1Только синтез в режиме реального времени, не включает длительное создание звука.

2Цены применяются к вариантам использования в реальном времени и в пакетном режиме. Отдельной цены на контейнеры для партий не существует.

Эти функции перестают использоваться и сейчас доступны только существующим клиентам. Ознакомьтесь с подробными сведениями и узнайте, как перейти на новые функции.

Экземпляр Категория Компоненты Цена
Бесплатные - Веб/контейнер
Число одновременных запросов: 1
Преобразование текста в речь Стандартная Бесплатно предоставляется 5 million символов в месяц
Пользовательские Бесплатно предоставляется 5 million символов в месяц
Размещение конечной точки: Бесплатно предоставляется 1 модель в месяц
Ценовая категория "Стандартный" — Интернет, контейнер
100 параллельных запросов для базовой модели
20 параллельных запросов для настраиваемой модели
Преобразование текста в речь Стандартная $- за 1 млн символов
Пользовательские $- за 1 млн символов
Размещение конечной точки: $- на модель в час

Azure: цены и варианты приобретения

Свяжитесь с нами напрямую

Изучите пошаговое руководство по ценам на Azure. Ознакомьтесь с ценами на интересующее вас облачное решение, узнайте об оптимизации затрат и запросите индивидуальное предложение.

Обратитесь к специалисту по продажам

Узнайте о способах приобретения

Приобрести службы Azure можно на веб-сайте Azure, у представителя Майкрософт или у партнера Azure.

Изучить доступные варианты

Дополнительные ресурсы

Речь ИИ Azure

Узнайте больше о функциях и возможностях службы "Речь ИИ Azure".

Калькулятор цен

Оцените приблизительные ежемесячные затраты при использовании любого сочетания продуктов Azure.

Документация

Ознакомьтесь с техническими руководствами, видеороликами и дополнительными ресурсами по службе "Речь ИИ Azure".

Часто задаваемые вопросы

    • При использовании «Преобразование речи в текст» и «Преобразование речи» плата взимается с шагом в одну секунду.
    • Преобразование текста в речь: плата за взимается за символ. Ознакомьтесь с определением символа в примечании к расценкам.
    • Для размещения пользовательского нейронного голоса: счета за использование выставляются за конечные точки в секунду. Подробные сведения см. в примечаниях о ценах.
    • Для хранилища персонализированных голосовых профилей: счета за использование выставляются за каждый голосовой профиль в день. Подробные сведения см. в примечаниях о ценах.
    • Для аватара преобразования текста в речь счет выставляется за каждую секунду использования.
    • При использовании Преобразования речи в текст и Преобразования текста в речь (включая Аватар) размещение конечной точки для пользовательских моделей оплачивается посекундно для каждой модели.
  • Служба "Речь" позволяет пользователям адаптировать базовые модели с учетом собственных акустических и языковых данных. Благодаря этому они получают настраиваемые модели речи, которые можно использовать в преобразовании речи в текст и переводе речи.

  • Языковая модель — это случайное распределение последовательностей слов. Она помогает системе определить из числа последовательностей слова, которые звучат одинаково, на основе вероятности самих этих последовательностей. Например, фразы recognize speech и wreck a nice beach звучат похоже, но вероятность использования первого предположения выше, поэтому языковая модель назначит первой фразе более высокий рейтинг. Если голосовые запросы к приложению будут содержать определенные языковые элементы, например имена продуктов или жаргонизмы, которые редко используются в обычной речи, настройка языковой модели позволит улучшить производительность. Например, при создании приложения для голосового поиска в MSDN вероятно, что такие термины, как объектно-ориентированный, пространство имен или .NET, будут звучать чаще, чем в других обычных программах распознавания речи. Настройка языковой модели позволит системе запомнить эти термины.

  • Акустическая модель — это классификатор, сопоставляющий краткие звуковые фрагменты с одной из нескольких фонем или звуковыми единицами каждого языка. Затем эти фонемы можно объединить в слова. Например, слово “речь” состоит из трех фонем: [р’эч’]. Эти классификации выполняются приблизительно 100 раз в секунду. Настройка акустической модели позволяет системе эффективнее распознавать речь в нетипичных средах. Например, если приложение предназначено для работников складов или заводов, настройка акустической модели помогает более точно распознать речь в шумных средах.

  • Служба "Речь" предлагает широкий спектр голосов для преобразования текста в речь, при этом Пользовательский нейронный голос позволяет создавать собственные голоса, которые соответствуют вашим потребностям и торговой марке. Ознакомиться с дополнительными сведениями можно в блоге.

  • Распознавание языка позволяет определить изменение языка речи и соответствующим образом транскрибировать речь. Это можно применять к сценариям, когда язык речи неизвестен или когда докладчики могут говорить на нескольких языках. Распознавание одного языка доступно бесплатно. Непрерывное распознавание языка — это улучшенная надстройка. Дополнительные сведения см. в документации.

    • Функция оценки произношения оценивает произношение в речи и сообщает говорящим о точности и плавности речи на записи. Благодаря этой функции пользователи, изучающие иностранные языки, могут попрактиковать произношение, незамедлительно получить обратную связь и улучшить свои навыки, чтобы увереннее выражаться. Преподаватели с помощью этой возможности могут оценивать произношение нескольких говорящих в режиме реального времени. Дополнительные сведения см. в документации.
    • Плата за эту функцию взимается по стандартным тарифам преобразования речи в текст, например:
      За оценку 8 секунд речи будет взиматься плата в размере $-

Обратитесь к специалисту по продажам, чтобы узнать, как формируются цены в Azure. Составьте предоставление о цене на свое облачное решение.

К вашим услугам бесплатные облачные службы и кредит в сумме $200 для изучения Azure в течение 30 дней.

Добавлено для расчета. Щелкните v для просмотра на калькуляторе