Avançar para o conteúdo principal
Azure

Preços de Discurso de IA do Azure

Serviços de voz unificados para conversão de voz para texto, texto para voz e tradução de voz

Os serviços de Voz unificados oferecem uma ampla variedade de funcionalidades de reconhecimento e geração de voz, incluindo transcrição de voz, conversão de texto em voz e tradução de voz. O serviço de Voz oferece uma ampla variedade de capacidades de reconhecimento e geração de voz, incluindo transcrição de voz, conversão de texto em voz, tradução de voz e reconhecimento de orador.

Explorar opções de preços

Aplique filtros para personalizar as opções de preços à medida das suas necessidades.

Os preços são apenas estimativas e não propostas de preços reais. Os preços reais podem variar dependendo do tipo de contrato que foi estipulado com a Microsoft, da data de compra e da taxa de câmbio. Os preços são calculados com base em dólares americanos e convertidos com as taxas de encerramento de Londres que são capturadas nos dois dias úteis anteriores ao último dia útil do fim do mês anterior. Se os dois dias úteis anteriores ao fim do mês calharem num feriado nos principais mercados, o dia de definição da taxa é geralmente o dia imediatamente anterior aos dois dias úteis. Esta taxa aplica-se a todas as transações durante o mês seguinte. Inicie sessão na calculadora de preços do Azure para ver os preços com base no seu programa/oferta atual com a Microsoft. Contacte um especialista de vendas do Azure para obter mais informações sobre preços ou para pedir um orçamento de preço. Consulte as perguntas mais frequentes sobre os preços do Azure.

Gratuito (F0)

Categoria Funcionalidades Preço
Voz em Texto
(faturação por segundo)
Standard 5 horas de áudio gratuitas por mês3
Personalizados 5 horas de áudio gratuitas por mês3
Alojamento de pontos finais: 1 modelo gratuito por mês1
Áudio Multicanal de Transcrição de Conversas PRÉ-VISUALIZAÇÃO 5 horas de áudio gratuitas por mês
Conversão de Texto em Voz
(faturação por caráter)
Neural 0.5 million carateres gratuitos por mês
Tradução de Voz
(faturação por segundo)
Standard 5 horas de áudio gratuitas por mês
Reconhecimento de Orador
(faturação por transação)
Verificação de Orador2 10,000 Transações gratuitas por mês
Identificação de Orador2 10,000 Transações gratuitas por mês
Armazenamento do Perfil do Voice 10,000 Transações gratuitas por mês
Speech services quotas and limits by tier (Free F0)

See the documentation for information on quotas, limits and instructions on how to increase concurrent requests.

1Os modelos não utilizados vão ser encerrados automaticamente após 7 dias.

2Speaker Recognition is a limited access feature with a need to apply for access.

3As horas de áudio gratuitas de conversão de voz em texto são partilhadas entre Standard e Personalizado. Não são suportados Lotes.

Pay as You Go: pague apenas pelo que utilizar.

Categoria Preço
Voice Live Pro (faturação por m de tokens)VL1 Texto Entrada: $-
Entrada em Cache: $-
Saída: $-
Áudio com Discurso de IA do Azure - Standard Entrada: $-
Entrada em Cache: $-
Saída: $-
Áudio com Discurso de IA do Azure - PersonalizadoVL2 Saída: $-
Áudio nativo com GPT-4o-Realtime Entrada: $-
Entrada em Cache: $-
Saída: $-
Voice Live Basic (faturação por m de tokens)VL1 Texto Entrada: $-
Entrada em Cache: $-
Saída: $-
Áudio com Discurso de IA do Azure - Standard Entrada: $-
Entrada em Cache: $-
Saída: $-
Áudio com Discurso de IA do Azure - PersonalizadoVL2 Saída: $-
Áudio nativo com GPT-4o Mini-Realtime Entrada: $-
Entrada em Cache: $-
Saída: $-
Voice Live Lite (faturação por m de tokens)VL1 Texto Entrada: $-
Entrada em Cache: $-
Saída: $-
Áudio com Discurso de IA do Azure - Standard Entrada: $-
Entrada em Cache: $-
Saída: $-
Áudio com Discurso de IA do Azure - PersonalizadoVL2 Saída: $-
Áudio nativo com Phi-MM Entrada: $-
Entrada em Cache: $-
Voz em Texto
(faturação por segundo)
Transcrição Standard Transcrição em Tempo Real: $- por hora
Transcrição Rápida: $- por hora9
Transcrição em Lote: $- por hora1
Transcrição Personalizada Transcrição em Tempo Real: $- por hora
Transcrição em Lote: $- por hora1
Alojamento de pontos finais: $- por modelo por hora
Preparação de Voz Personalizada5: $- por hora de computação
Funcionalidades de suplemento melhoradas:
  • Identificação de Idioma Contínua
  • Diarização
  • Avaliação da Pronúncia (prosódia, gramática, vocabulário, tópico)
Tempo Real: $- por hora por funcionalidade
Lote (Identificação Contínua de Idioma, Segmentação): Incluído em Padrão/Personalizado (sem custos adicionais)
Áudio Multicanal de Transcrição de Conversas PRÉ-VISUALIZAÇÃO $- por hora2
Tradução de Voz
(faturação por segundo)
Tradução de Voz em Tempo Real $- por hora de áudio3
Live Interpreter Input audio: $- por hora de áudio
Output text: $- por um milhão de carateres
Output audio (Standard voice): $- per audio hourLI
Output audio (Custom voice): $- per audio hourLI
Tradução de Vídeo Vídeo de entrada: $- por hora
Vídeo de saída (Voz Standard): $- por hora
Vídeo de saída (Voz pessoal): $- por hora
Conversão de Texto em Voz8 Voz Padrão Neural (em tempo real e em lote): $- por um milhão de carateres
Neurais HD (em tempo real e em lote)4: $- por um milhão de carateres
Voz Personalizada Voz Profissional:
Síntese (em tempo real e em lote): $- por 1 milhão de carateres
Síntese (neurais HD em tempo real e em lote): $- por 1M de carateres
Preparação de modelos de voz: $- por hora de computação, até $- por preparação
Alojamento de pontos finais: $- por modelo por hora
Voz Pessoal6:
Síntese (em tempo real e em lote): $- por 1 milhão de carateres
Criação de voz: gratuita
Armazenamento de perfis de voz: $- por 1000 perfis de voz por mês
Funcionalidade de Suplemento Melhorada: Avatar Standard:
Avatar interativo (em tempo real): $- por minuto
Avatar interativo 4K (em tempo real): $- por minuto
Vídeo de avatar (em lote): $- por minuto
Vídeo de avatar 4K (em lote): $- por minuto
Personalizados:
Preparação do modelo de avatar: $- por hora de computação
Avatar interativo (em tempo real): $- por minuto
Avatar interativo 4K (em tempo real): $- por minuto
Vídeo de avatar (em lote): $- por minuto
Vídeo de avatar 4K (em lote): $- por minuto
Alojamento de ponto final: $- por modelo, por hora
Reconhecimento de Orador
(faturação por transação)
Verificação de Orador7 $- por 1,000 transações
Identificação de Orador7 $- por 1,000 transações
Armazenamento do Perfil do Voice $- por 1,000 perfis de voz (10,000 perfis de voz gratuitos por mês)
Speech-to-Text pricing details and features by tier

See the documentation for information on quotas, limits and instructions on how to increase concurrent requests.

As horas de conversão de voz em texto são medidas como as horas de áudio enviadas para o serviço, faturadas em incrementos de segundos.

1To take advantage of this new Batch Transcription pricing you need to use Speech to text REST API V3.2 or later versions. See Speech to text REST API for information.

2Isto reflete os preços da pré-visualização pública.

3This price includes 1 audio input and output, up to 2 text translation language using standard or custom Speech to Text and standard Translation. For custom Translation or 3+ translation languages, please reference the Azure AI Translator Text Translation pricing page.

4Selected text to speech voices are available via two model variants: Neural and NeuralHD. Learn more here.

5A Preparação de Voz Personalizada aplica-se ao personalizar qualquer modelo base lançado a 1 de outubro de 2023 ou após essa data.

6Personal Voice is a limited access feature restricted to certain pre-approved use cases only, with a need to applying for access. To learn more about the service, check the document.

7Speaker Recognition is a limited access feature with a need to apply for access.

8Conversão de Texto em Voz: a utilização da síntese de voz é faturada por caráter. O avatar é faturado por segundo. A preparação e o alojamento de modelos são faturados por segundo.

9To use Fast Transcription you need to use Speech to text REST API 2024-05-15-preview or later versions. See Speech to text REST API for information.

VL1With Voice Live Plus, developers can choose from LLMs such as GPT-4o-Realtime, GPT-4o and GPT-4.1 models. With Voice Live Basic, developers can choose from smaller LLMs such as GPT-4o-Mini-Realtime, GPT-4o Mini and GPT-4.1 Mini models. With Voice Live Lite, developers can choose from SLMs and equivalent models such as GPT-4.1 Nano and Phi models. To learn more how Voice Live API pricing works, click here.

VL2You will be charged separately for custom voice model training and hosting. Refer to the ‘Text to Speech – Custom Voice – Professional’ pricing for details. Custom voice is a limited access feature. Learn more about how to create custom voices.

LIThis price includes text output

Camadas de Compromisso – Azure - Standard

Categoria Funcionalidades Preço (por mês) Utilização excedida
Conversão de Voz em Texto Standard $- para 2,000 horas $- por hora
$- para 10,000 horas $- por hora
$- para 50,000 horas $- por hora
Personalizados $- para 2,000 horas $- por hora
$- para 10,000 horas $- por hora
$- para 50,000 horas $- por hora
Funcionalidades de suplemento melhoradas:2
  • Identificação de Idioma Contínua
  • Diarização
  • Avaliação da Pronúncia (prosódia, gramática, vocabulário, tópico)
$- para 2,000 horas $- por hora
$- para 10,000 horas $- por hora
$- para 50,000 horas $- por hora
Conversão de Texto em Voz Neural1 $- para 80 M de carateres $- por 1 M de carateres
$- para 400 M de carateres $- por 1 M de carateres
$- para 2,000 M de carateres $- por 1 M de carateres

1Isto inclui tanto a síntese em tempo real quanto a síntese em lote com vozes neurais pré-criadas não HD e não AOAI. As vozes HD, vozes AOAI, a Voz Neural Personalizada e a Voz Pessoal não estão incluídas.

2Apenas conversão de voz em texto em tempo real. Funcionalidades suplementares de Identificação de Idioma Contínua e Segmentação incluídas na conversão de voz em texto em lote.

Camadas de Compromisso – Contentor ligado

Categoria Funcionalidades Preço (por mês) Utilização excedida
Conversão de Voz em Texto2 Standard $- para 2,000 horas $- por hora
$- para 10,000 horas $- por hora
$- para 50,000 horas $- por hora
Personalizados $- para 2,000 horas $- por hora
$- para 10,000 horas $- por hora
$- para 50,000 horas $- por hora
Funcionalidades de suplemento melhoradas:2
  • Identificação de idioma
  • Diarização
$- para 2,000 horas $- por hora
$- para 10,000 horas $- por hora
$- para 50,000 horas $- por hora
Conversão de Texto em Voz Neural1 $- para 80 M de carateres $- por 1 M de carateres
$- para 400 M de carateres $- por 1 M de carateres
$- para 2,000 M de carateres $- por 1 M de carateres

1Isto inclui a síntese em tempo real com vozes neurais pré-criadas não HD e não AOAI. As vozes HD, vozes AOAI e vozes personalizadas (tanto vozes profissionais quanto pessoais) não estão incluídas. A síntese em lote não está incluída.

2Os preços aplicam-se a casos de utilização em tempo real e em lote. Não existem preços em lote separados para contentores.

See the documentation for information on Commitment tiers.

Camadas de Compromisso – Contentor desligado

Sign up to access speech in disconnected containers, or learn more

Categoria Funcionalidades Preço (por ano) Utilização máxima (por ano) Utilização projetada (por mês)
Conversão de Voz em Texto2 Standard $-
$-
Inscreva-se para obter acesso
Saiba mais
120 000 horas
600 000 horas
10 000 horas
50 000 horas
Personalizados $-
$-
Inscreva-se para obter acesso
Saiba mais
120 000 horas
600 000 horas
10 000 horas
50 000 horas
Funcionalidades de suplemento melhoradas:
  • Identificação de idioma
  • Diarização
$-
$-
120 000 horas
600 000 horas
10 000 horas
50 000 horas
Conversão de Texto em Voz Neural1 $-
$-
Inscreva-se para obter acesso
Saiba mais
4,8 mil milhões de carateres
24 mil milhões de carateres
400 milhões de carateres
2 mil milhões de carateres

1Isto inclui a síntese em tempo real com vozes neurais pré-criadas não HD e não AOAI. As vozes HD, vozes AOAI e vozes personalizadas (tanto vozes profissionais quanto pessoais) não estão incluídas. A síntese em lote não está incluída.

2Os preços aplicam-se a casos de utilização em tempo real e em lote. Não existem preços em lote separados para contentores.

Estas funcionalidades estão a ser preteridas e apenas disponíveis para os clientes existentes usarem. Verifique os detalhes e aprenda a migrar para novas funcionalidades.

Instância Categoria Funcionalidades Preço
Gratuito - Web/Contentor
1 pedido simultâneo
Conversão de Texto em Voz Standard 5 million carateres gratuitos por mês
Personalizados 5 million carateres gratuitos por mês
Alojamento de pontos finais: 1 modelo gratuito por mês
Standard - Web/Contentor
100 pedidos simultâneos para o modelo Base
20 pedidos simultâneos para o modelo Personalizado
Conversão de Texto em Voz Standard $- por um milhão de carateres
Personalizados $- por um milhão de carateres
Alojamento de pontos finais: $- por modelo por hora

Preços e opções de compra do Azure

Entre em contacto direto connosco

Obtenha uma orientação dos preços do Azure. Compreenda os preços da sua solução cloud, saiba mais sobre a otimização de custos e solicite uma proposta personalizada.

Fale com um especialista em vendas

Veja as formas de compra

Compre serviços do Azure através do site do Azure, de um representante da Microsoft ou de um parceiro do Azure.

Explore as suas opções

Recursos adicionais

Discurso de IA do Azure

Saiba mais sobre as funcionalidades e capacidades do Discurso de IA do Azure.

Calculadora de preços

Faça uma estimativa dos seus custos mensais para utilizar qualquer combinação de produtos do Azure.

Documentação

Reveja tutoriais técnicos, vídeos e mais Discurso de IA do Azure recursos.

    • Para a Voz em Texto e a Tradução de Voz, a utilização é faturada em incrementos de um segundo.
    • For Text to Speech: usage is billed per character. Check the definition of character in the pricing note.
    • For custom neural voice hosting: usage is billed per endpoint per second. Check details in the pricing note.
    • For personal voice profile storage: usage is billed per voice profile per day. Check details in the pricing note.
    • Para Avatar de Conversão de Texto em Voz, a utilização é faturada por segundo.
    • Para a Conversão de Voz em Texto e Texto em Voz (incluindo Avatar), o alojamento de pontos finais para modelos personalizados é faturado por segundo e por modelo.
  • O serviço de Voz permite aos utilizadores adaptarem os modelos da linha de base com base nos seus próprios dados acústicos e de linguagem, conduzindo a modelos de discurso personalizado que podem ser utilizados na Conversão de Voz em Texto e na Tradução de Voz.

  • O modelo de idioma é uma distribuição de probabilidade sobre sequências de palavras. O modelo de idioma ajuda o sistema a decidir entre sequências de palavras que soam de forma semelhante, com base na probabilidade das próprias sequências de palavras. Por exemplo, “recognize speech” e “wreck a nice beach” soam de forma parecida, mas a primeira hipótese é muito mais provável de ocorrer e, portanto, será atribuída uma melhor classificação pelo modelo do idioma. Se espera que as consultas de voz na sua aplicação contenham itens de vocabulário particulares, como nomes de produtos ou gíria, que ocorrem raramente no discurso habitual, é provável que consiga obter um melhor desempenho ao personalizar o modelo de idioma. Por exemplo, se estava a criar uma aplicação para pesquisar o MSDN por voz, é provável que termos como “orientado por objetos” ou “espaço de nomes” ou “ponto net” apareçam com mais frequência do que em aplicações de discurso habitual. A personalização do modelo de idioma irá permitir que o sistema aprenda isto.

  • O modelo acústico é um classificador que rotula fragmentos curtos de áudio num de vários fonemas, ou unidades de som, em cada idioma. Estes fonemas podem ser unidos para formar palavras. Por exemplo, a palavra “speech” é constituída por quatro fonemas “s p iy ch”. Estas classificações são feitas na ordem de 100 vezes por segundo. A personalização do modelo acústico pode permitir que o sistema aprenda a melhorar o reconhecimento de voz em ambientes atípicos. Por exemplo, se tem uma aplicação concebida para ser utilizada por trabalhadores num armazém ou numa fábrica, um modelo acústico personalizado pode reconhecer com mais precisão a voz na presença dos ruídos encontrados nestes ambientes.

  • Speech service offers a wide range of text-to-speech (TTS) voice fonts, however custom neural voice allows you to build your own custom voice that suits your needs and your brand. Read the blog for more information.

  • Language identification allows you to identify a switch in spoken language and transcribe speech accordingly. This can be applied in scenarios where the audio language is unknown, or when speaker(s) may speak multiple languages. Single Language Identification is available at no additional cost. Continuous Language Identification is an enhanced add-on feature. Visit docs to learn more.

    • Pronunciation assessment evaluates speech pronunciation and gives speakers feedback on the accuracy and fluency of spoken audio. With pronunciation assessment, language learners can practice, get instant feedback, and improve their pronunciation so that they can speak and present with confidence. Educators can use the capability to evaluate pronunciation of multiple speakers in real time. Visit docs to learn more.
    • It is charged as standard Speech to Text, example:
      For evaluation of 8 seconds of speech, you will be charged around $-

Fale com um especialista em vendas para obter uma descrição detalhada dos preços do Azure. Compreenda os preços da sua solução cloud.

Obtenha serviços cloud gratuitos e um crédito de $200 para explorar o Azure durante 30 dias.

Adicionar à estimativa. Prima \"v\" para ver na calculadora
Como podemos ajudá-lo?