Preços da Voz do Azure AI | Microsoft Azure

Serviços de voz unificados para conversão de voz para texto, texto para voz e tradução de voz

Os serviços de Voz unificados oferecem uma ampla variedade de funcionalidades de reconhecimento e geração de voz, incluindo transcrição de voz, conversão de texto em voz e tradução de voz. O serviço de Voz oferece uma ampla variedade de capacidades de reconhecimento e geração de voz, incluindo transcrição de voz, conversão de texto em voz, tradução de voz e reconhecimento de orador.

Explorar opções de preços

Aplique filtros para personalizar as opções de preços à medida das suas necessidades.

Os preços são apenas estimativas e não propostas de preços reais. Os preços reais podem variar dependendo do tipo de contrato que foi estipulado com a Microsoft, da data de compra e da taxa de câmbio. Os preços são calculados com base em dólares americanos e convertidos com as taxas de encerramento de Londres que são capturadas nos dois dias úteis anteriores ao último dia útil do fim do mês anterior. Se os dois dias úteis anteriores ao fim do mês calharem num feriado nos principais mercados, o dia de definição da taxa é geralmente o dia imediatamente anterior aos dois dias úteis. Esta taxa aplica-se a todas as transações durante o mês seguinte. Inicie sessão na calculadora de preços do Azure para ver os preços com base no seu programa/oferta atual com a Microsoft. Contacte um especialista de vendas do Azure para obter mais informações sobre preços ou para pedir um orçamento de preço. Consulte as perguntas mais frequentes sobre os preços do Azure.

Região:

Moeda:

Gratuito (F0)

Veja a documentação para obter informações sobre quotas, limites e instruções sobre como aumentar os pedidos simultâneos.

¹Os modelos não utilizados vão ser encerrados automaticamente após 7 dias.

²O Reconhecimento de Orador é uma funcionalidade de acesso limitado para a qual é preciso pedir acesso.

³As horas de áudio gratuitas de conversão de voz em texto são partilhadas entre Standard e Personalizado. Não são suportados Lotes.
Categoria	Funcionalidades	Preço
Voz em Texto (faturação por segundo)	Standard	5 horas de áudio gratuitas por mês³
	Personalizados	5 horas de áudio gratuitas por mês³ Alojamento de pontos finais: 1 modelo gratuito por mês¹
	Áudio Multicanal de Transcrição de Conversas ^{PRÉ-VISUALIZAÇÃO}	5 horas de áudio gratuitas por mês
Conversão de Texto em Voz (faturação por caráter)	Neural	0.5 million carateres gratuitos por mês
Tradução de Voz (faturação por segundo)	Standard	5 horas de áudio gratuitas por mês
Reconhecimento de Orador (faturação por transação)	Verificação de Orador²	10,000 Transações gratuitas por mês
	Identificação de Orador²	10,000 Transações gratuitas por mês
	Armazenamento do Perfil do Voice	10,000 Transações gratuitas por mês

Pay as You Go: pague apenas pelo que utilizar.

Veja a documentação para obter informações sobre quotas, limites e instruções sobre como aumentar os pedidos simultâneos.

As horas de conversão de voz em texto são medidas como as horas de áudio enviadas para o serviço, faturadas em incrementos de segundos.

¹ Encontram-se refletidos os preços de pré-visualização pública. O preço de disponibilidade geral será anunciado mais tarde, quando o serviço tiver disponibilidade geral.

² A Voz Neural Personalizada (CNV) é uma capacidade de acesso limitado que inclui as versões Pro e Lite. Com a CNV Lite (pré-visualização pública), os clientes podem gravar a sua própria voz e criar um modelo para demonstração/avaliação, antes de pedir acesso à Pro. Veja onde a CNV está disponível..

³ O Reconhecimento de Orador é uma funcionalidade de acesso limitado para a qual é preciso pedir acesso.

⁴ Para tirar partido destes novos preços tem de utilizar a pré-visualização da API REST de Voz em texto V3.2. Consulte Criar uma transcrição de conjunto - serviço de Voz - Serviços de IA do Azure | Microsoft Learn para obter informações sobre a utilização da nova API em pré-visualização v3.2.

⁵ As funcionalidades do suplemento avançadas estão incluídas no preço do Batch para todas as versões da API do Batch.

⁶ A Preparação de Voz Personalizada aplica-se ao personalizar qualquer modelo base lançado em ou depois de 1 de outubro de 2023.

⁷ Este preço inclui 1 entrada e saída de áudio, até 2 idiomas de tradução de texto utilizando a Voz em Texto padrão ou personalizada e a Tradução padrão. Para Tradução personalizada ou mais de 3 idiomas de tradução, consulte a página de preços da Tradução de Texto do Azure AI.

⁸ Isto reflete os preços da pré-visualização pública. O preço de disponibilidade geral será anunciado mais tarde, aquando da disponibilidade geral. A Voz Pessoal é uma funcionalidade de acesso limitado restrita apenas a determinados casos de utilização pré-aprovados, sendo necessário solicitar acesso. Para saber mais sobre o serviço, consulte o documento.

⁹ O Avatar Personalizado é uma funcionalidade com capacidade de acesso limitado, sendo necessário solicitar acesso
Categoria	Funcionalidades	Preço
Voz em Texto (faturação por segundo)		Em tempo real	API do Batch v3.2 ou superior⁴
	Standard	$- por hora	$- por hora
	Personalizados	$- por hora Alojamento de pontos finais: $- por modelo por hora	$- por hora Alojamento de pontos finais: N/A
	Preparação de Voz Personalizada⁶	$- por hora de computação
	Funcionalidades de suplemento melhoradas: Identificação de Idioma Contínua Diarização Avaliação da Pronúncia (prosódia, gramática, vocabulário, tópico)	$- por hora por funcionalidade	Identificação de Idioma Contínua e Segmentação Incluídas⁵
	Áudio Multicanal de Transcrição de Conversas ^{PRÉ-VISUALIZAÇÃO}	$- por hora¹	N/D
Conversão de Texto em Voz (faturação por caráter)	Neural	Síntese em tempo real e de lote: $- por um milhão de carateres
	Neural HD	Sintetização em tempo real e em lote: $- por 1 milhão de carateres
	Neural Personalizada²	Preparação: $- por hora de computação, até $- por preparação Síntese em tempo real e de lote: $- por um milhão de carateres Alojamento de pontos finais: $- por modelo por hora
	Voz Pessoal⁸	Criação de voz: gratuita Armazenamento de perfis de voz: $- por 1000 perfis de voz por mês Sintetização: $- por 1 milhão de carateres
Avatar de Conversão de Texto em Voz (faturação por segundo)	Avatar	Sintetizar em tempo real e em lote: $- por minuto
Avatar de Conversão de Texto em Voz (faturação por segundo)	Avatar Personalizado⁹	Sintetização em tempo real: $- por minuto Sintetização em lotes: $- por minuto Alojamento de ponto final: $- por modelo, por hora
Tradução de Voz (faturação por segundo)	Standard	$- por hora de áudio⁷
Reconhecimento de Orador (faturação por transação)	Verificação de Orador³	$- por 1,000 transações
	Identificação de Orador³	$- por 1,000 transações
	Armazenamento do Perfil do Voice	$- por 1,000 perfis de voz (10,000 perfis de voz gratuitos por mês)

Camadas de Compromisso – Azure - Standard

Categoria	Funcionalidades	Preço (por mês)	Utilização excedida
Conversão de Voz em Texto	Standard	$- para 2,000 horas	$- por hora
		$- para 10,000 horas	$- por hora
		$- para 50,000 horas	$- por hora
	Personalizados	$- para 2,000 horas	$- por hora
		$- para 10,000 horas	$- por hora
		$- para 50,000 horas	$- por hora
	Funcionalidades de suplemento melhoradas:² Identificação de Idioma Contínua Diarização Avaliação da Pronúncia (prosódia, gramática, vocabulário, tópico)	$- para 2,000 horas	$- por hora
		$- para 10,000 horas	$- por hora
		$- para 50,000 horas	$- por hora
Conversão de Texto em Voz	Neural¹	$- para 80 M de carateres	$- por 1 M de carateres
		$- para 400 M de carateres	$- por 1 M de carateres
		$- para 2,000 M de carateres	$- por 1 M de carateres

¹Apenas a síntese em tempo real, isto não inclui a criação de áudio longo.

²Apenas conversão de voz em texto em tempo real. Funcionalidades suplementares de Identificação de Idioma Contínua e Segmentação incluídas na conversão de voz em texto em lote.

Camadas de Compromisso – Contentor ligado

Categoria	Funcionalidades	Preço (por mês)	Utilização excedida
Conversão de Voz em Texto²	Standard	$- para 2,000 horas	$- por hora
		$- para 10,000 horas	$- por hora
		$- para 50,000 horas	$- por hora
	Personalizados	$- para 2,000 horas	$- por hora
		$- para 10,000 horas	$- por hora
		$- para 50,000 horas	$- por hora
	Funcionalidades de suplemento melhoradas:² Identificação de idioma Diarização	$- para 2,000 horas	$- por hora
		$- para 10,000 horas	$- por hora
		$- para 50,000 horas	$- por hora
Conversão de Texto em Voz	Neural¹	$- para 80 M de carateres	$- por 1 M de carateres
		$- para 400 M de carateres	$- por 1 M de carateres
		$- para 2,000 M de carateres	$- por 1 M de carateres

¹Apenas a síntese em tempo real, isto não inclui a criação de áudio longo.

²Os preços aplicam-se a casos de utilização em tempo real e em lote. Não existem preços em lote separados para contentores.

Consulte a documentação para obter informações sobre as Camadas de compromisso.

Camadas de Compromisso – Contentor desligado

Inscreva-se para aceder à voz em contentores desligados ou saiba mais

Categoria	Funcionalidades	Preço (por ano)	Utilização máxima (por ano)	Utilização projetada (por mês)
Conversão de Voz em Texto²	Standard	$- $- Inscreva-se para obter acesso Saiba mais	120 000 horas 600 000 horas	10 000 horas 50 000 horas
	Personalizados	$- $- Inscreva-se para obter acesso Saiba mais	120 000 horas 600 000 horas	10 000 horas 50 000 horas
	Funcionalidades de suplemento melhoradas: Identificação de idioma Diarização	$- $-	120 000 horas 600 000 horas	10 000 horas 50 000 horas
Conversão de Texto em Voz	Neural¹	$- $- Inscreva-se para obter acesso Saiba mais	4,8 mil milhões de carateres 24 mil milhões de carateres	400 milhões de carateres 2 mil milhões de carateres

¹Apenas a síntese em tempo real, isto não inclui a criação de áudio longo.

²Os preços aplicam-se a casos de utilização em tempo real e em lote. Não existem preços em lote separados para contentores.

Estas funcionalidades estão a ser preteridas e apenas disponíveis para os clientes existentes usarem. Verifique os detalhes e aprenda a migrar para novas funcionalidades.

Instância	Categoria	Funcionalidades	Preço
Gratuito - Web/Contentor 1 pedido simultâneo	Conversão de Texto em Voz	Standard	5 million carateres gratuitos por mês
Gratuito - Web/Contentor 1 pedido simultâneo	Conversão de Texto em Voz	Personalizados	5 million carateres gratuitos por mês Alojamento de pontos finais: 1 modelo gratuito por mês
Standard - Web/Contentor 100 pedidos simultâneos para o modelo Base 20 pedidos simultâneos para o modelo Personalizado	Conversão de Texto em Voz	Standard	$- por um milhão de carateres
	Conversão de Texto em Voz	Personalizados	$- por um milhão de carateres Alojamento de pontos finais: $- por modelo por hora

Preços e opções de compra do Azure

Entre em contacto direto connosco

Obtenha uma orientação dos preços do Azure. Compreenda os preços da sua solução cloud, saiba mais sobre a otimização de custos e solicite uma proposta personalizada.

Fale com um especialista em vendas

Veja as formas de compra

Compre serviços do Azure através do site do Azure, de um representante da Microsoft ou de um parceiro do Azure.

Explore as suas opções

Recursos adicionais

Perguntas mais frequentes

Perguntas mais frequentes sobre os preços do Azure

- Para a Voz em Texto e a Tradução de Voz, a utilização é faturada em incrementos de um segundo.
- Para Conversão de Texto em Voz: a utilização é faturada por caráter. Veja a definição de caráter na nota de preços.
- Para o alojamento de Voz Neural Personalizada: a utilização é faturada por ponto final por segundo. Consulte os detalhes na nota de preços.
- Para o armazenamento pessoal de perfis de voz: a utilização é faturada por perfil de voz por dia. Consulte os detalhes na nota de preços.
- Para Avatar de Conversão de Texto em Voz, a utilização é faturada por segundo.
- Para a Conversão de Voz em Texto e Texto em Voz (incluindo Avatar), o alojamento de pontos finais para modelos personalizados é faturado por segundo e por modelo.
O serviço de Voz permite aos utilizadores adaptarem os modelos da linha de base com base nos seus próprios dados acústicos e de linguagem, conduzindo a modelos de discurso personalizado que podem ser utilizados na Conversão de Voz em Texto e na Tradução de Voz.
O modelo de idioma é uma distribuição de probabilidade sobre sequências de palavras. O modelo de idioma ajuda o sistema a decidir entre sequências de palavras que soam de forma semelhante, com base na probabilidade das próprias sequências de palavras. Por exemplo, “recognize speech” e “wreck a nice beach” soam de forma parecida, mas a primeira hipótese é muito mais provável de ocorrer e, portanto, será atribuída uma melhor classificação pelo modelo do idioma. Se espera que as consultas de voz na sua aplicação contenham itens de vocabulário particulares, como nomes de produtos ou gíria, que ocorrem raramente no discurso habitual, é provável que consiga obter um melhor desempenho ao personalizar o modelo de idioma. Por exemplo, se estava a criar uma aplicação para pesquisar o MSDN por voz, é provável que termos como “orientado por objetos” ou “espaço de nomes” ou “ponto net” apareçam com mais frequência do que em aplicações de discurso habitual. A personalização do modelo de idioma irá permitir que o sistema aprenda isto.
O modelo acústico é um classificador que rotula fragmentos curtos de áudio num de vários fonemas, ou unidades de som, em cada idioma. Estes fonemas podem ser unidos para formar palavras. Por exemplo, a palavra “speech” é constituída por quatro fonemas “s p iy ch”. Estas classificações são feitas na ordem de 100 vezes por segundo. A personalização do modelo acústico pode permitir que o sistema aprenda a melhorar o reconhecimento de voz em ambientes atípicos. Por exemplo, se tem uma aplicação concebida para ser utilizada por trabalhadores num armazém ou numa fábrica, um modelo acústico personalizado pode reconhecer com mais precisão a voz na presença dos ruídos encontrados nestes ambientes.
O serviço de voz oferece um amplo conjunto de tipos de letra de voz de conversão de texto em voz (TTS); contudo, a voz neural personalizada permite-lhe criar a sua própria voz personalizada e que se adeque às suas necessidades e à sua marca. Leia o blogue para obter mais informações.
Identificação de idioma permite-lhe identificar uma mudança no idioma falado e transcrever a voz em conformidade. Isto pode ser aplicado em cenários em que o idioma de áudio é desconhecido ou quando o(s) falante(s) pode(m) falar vários idiomas. A Identificação de Idioma Único está disponível sem custos adicionais. A Identificação Contínua de Idioma é uma funcionalidade de suplemento melhorada. Visite os documentos para saber mais.
- A Avaliação da pronúncia avalia a pronúncia da voz e dá feedback aos oradores sobre a precisão e fluência do áudio falado. Com a avaliação da pronúncia, os estudantes de idiomas podem praticar, obter feedback instantâneo e melhorar a pronúncia para que possam falar e apresentar com confiança. Os educadores podem utilizar a capacidade de avaliar a pronúncia de vários oradores em tempo real. Consulte os documentos para saber mais.
- É cobrado como Conversão de Voz em Texto standard, exemplo:
  Para avaliação de 8 segundos de voz, ser-lhe-ão cobrados cerca de $-

Fale com um especialista em vendas para obter uma descrição detalhada dos preços do Azure. Compreenda os preços da sua solução cloud.

Pedir orçamento para preços

Obtenha serviços cloud gratuitos e um crédito de $200 para explorar o Azure durante 30 dias.

Experimente o Azure gratuitamente

Preços de Discurso de IA do Azure

Serviços de voz unificados para conversão de voz para texto, texto para voz e tradução de voz

Explorar opções de preços

Gratuito (F0)

Pay as You Go: pague apenas pelo que utilizar.

Camadas de Compromisso – Azure - Standard

Camadas de Compromisso – Contentor ligado

Camadas de Compromisso – Contentor desligado

Preterido

Preços e opções de compra do Azure

Entre em contacto direto connosco

Veja as formas de compra

Recursos adicionais

Discurso de IA do Azure

Calculadora de preços

Documentação

Perguntas mais frequentes

Destaques

IA + Machine Learning

Análise

Computação

Contentores

Bases de dados

DevOps

Ferramentas de Programação

Híbridos e multicloud

Identidade

Integração

Internet das Coisas

Gestão e Governação

Multimédia

Migração

Realidade Mista

Móvel

Funcionamento em Rede

Segurança

Armazenamento

Web

Ambiente de Trabalho Virtual do Windows

Casos de utilização

Desenvolvimento de aplicações

IA

Migração e modernização da cloud

Dados e análise

Infraestrutura e cloud híbrida

Internet das Coisas

Segurança e governação

Tipo de organização

Recursos

Preços de Discurso de IA do Azure

Serviços de voz unificados para conversão de voz para texto, texto para voz e tradução de voz

Explorar opções de preços

Gratuito (F0)

Pay as You Go: pague apenas pelo que utilizar.

Camadas de Compromisso – Azure - Standard

Camadas de Compromisso – Contentor ligado

Camadas de Compromisso – Contentor desligado

Preterido

Preços e opções de compra do Azure

Entre em contacto direto connosco

Veja as formas de compra

Recursos adicionais

Discurso de IA do Azure

Calculadora de preços

Documentação

Perguntas mais frequentes