Ignorar Navegação

Preços de Serviços de Voz

Serviços de voz unificados para conversão de voz para texto, texto para voz e tradução de voz

Os serviços de Voz unificados oferecem uma ampla variedade de funcionalidades de reconhecimento e geração de voz, incluindo transcrição de voz, conversão de texto em voz e tradução de voz. O serviço de Voz oferece uma ampla variedade de capacidades de reconhecimento e geração de voz, incluindo transcrição de voz, conversão de texto em voz, tradução de voz e reconhecimento de orador.

Explorar opções de preços

Aplique filtros para personalizar as opções de preços à medida das suas necessidades.

Os preços são apenas estimativas e não têm o propósito de propostas de preços reais. Os preços reais podem variar dependendo do tipo de contrato estipulado com a Microsoft, da data de compra e da taxa de câmbio. Os preços são calculados com base em dólares americanos e convertidos utilizando as taxas de referência da Thomson Reuters atualizadas no primeiro dia de cada mês. Inicie sessão na calculadora de preços do Azure para ver os preços com base no seu programa/oferta atual com a Microsoft. Contacte um especialista em vendas do Azure para obter mais informações sobre preços ou para pedir um orçamento de preço. Para obter mais informações sobre preços do Azure, consulte as perguntas mais frequentes.

Gratuito

Instância Categoria Funcionalidades Preço
Gratuito - Web/Contentor
1 pedido simultâneo1
Conversão de Voz em Texto Standard2 5 horas de áudio gratuitas por mês
Personalizados 5 horas de áudio gratuitas por mês
Alojamento de pontos finais: 1 modelo gratuito por mês 3
Áudio Multicanal de Transcrição de Conversas PRÉ-VISUALIZAÇÃO 4 5 horas de áudio gratuitas por mês
Conversão de Texto em Voz Neural 0.5 million carateres gratuitos por mês
Tradução de Voz Standard 5 horas de áudio gratuitas por mês
Reconhecimento de Orador Verificação de Orador 10,000 Transações gratuitas por mês
Identificação de Orador 10,000 Transações gratuitas por mês
Armazenamento de Dados 10,000 Transações gratuitas por mês

Veja a documentação para obter mais informações detalhadas sobre quotas e limites para todos os escalões de preços.

1Para aumentar os pedidos simultâneos, veja as instruções.

2A Voz em Texto inclui agora avaliação de pronúncia na instância Gratuita (por exemplo, cinco horas de áudio gratuitas por mês), bem como na instância Standard, que seguirá os preços Standard de $1 por hora de áudio.

3Os modelos não utilizados vão ser encerrados automaticamente após 7 dias.

4A Transcrição de Conversas Multicanal recomenda um dispositivo-matriz de microfone circular. Para mais informações, pode consultar o SDK de Dispositivos de Voz Microsoft.

Pay as You Go: pague apenas pelo que utilizar.

Instância Categoria Funcionalidades Preço
Standard - Web/Contentor
100 pedidos simultâneos para o modelo Base
20 pedidos simultâneos para o modelo Personalizado1
Conversão de Voz em Texto Standard2 $- por hora de áudio
Personalizados $- por hora de áudio
Alojamento de pontos finais: $- por modelo por hora
Áudio Multicanal de Transcrição de Conversas PRÉ-VISUALIZAÇÃO $- por hora de áudio3
Conversão de Texto em Voz Neural4 Sintetização em tempo real: $- por 1 M carateres4
Criação de áudio longo: $- por um milhão de carateres
Neural Personalizada4, 5 Preparação: $- por hora de computação, até $- por preparação
Sintetização em tempo real: $- por um milhão de carateres
Alojamento de pontos finais: $- por modelo por hora
Criação de áudio longo: $- por um milhão de carateres
Tradução de Voz Standard $- por hora de áudio
Reconhecimento de Orador Verificação de Orador $- por 1,000 transações
Identificação de Orador $- por 1,000 transações
Armazenamento de Dados $- por 1,000 perfis de voz (10,000 perfis de voz gratuitos por mês)

Veja a documentação para obter mais informações detalhadas sobre quotas e limites para todos os escalões de preços.

1 Para aumentar os pedidos simultâneos, veja as instruções.

2 A Voz em Texto inclui agora avaliação de pronúncia na instância Gratuita (por exemplo, cinco horas de áudio gratuitas por mês), bem como na instância Standard, que seguirá os preços Standard de $1 por hora de áudio.

3 Encontram-se refletidos os preços de pré-visualização pública. O preço de disponibilidade geral será anunciado mais tarde, quando o serviço tiver disponibilidade geral.

4 A faturação da funcionalidade Conversão de Texto em Voz é processada por cada caráter que é convertido em voz, incluindo a pontuação. Saiba mais.

5 A Voz Neural Personalizada (CNV) é uma capacidade de acesso limitado que inclui as versões Pro e Lite. Com a CNV Lite (pré-visualização pública), os clientes podem gravar a sua própria voz e criar um modelo para demonstração/avaliação, antes de pedir acesso à Pro. Veja onde a CNV está disponível..

Camadas de Compromisso

Este preço tem acesso limitado. Inscreva-se aqui.

Instância Categoria Funcionalidades Preço (por mês) Utilização Excedente
Azure - Standard Conversão de Voz em Texto Standard $- para 2,000 horas $- por hora
$- para 10,000 horas $- por hora
$- para 50,000 horas $- por hora
Conversão de Texto em Voz Neural1 $- para 80 M de carateres $- por 1 M de carateres
$- para 400 M de carateres $- por 1 M de carateres
$- para 2,000 M de carateres $- por 1 M de carateres
Contentor ligado - Standard Conversão de Voz em Texto Standard $- para 2,000 horas $- por hora
$- para 10,000 horas $- por hora
$- para 50,000 horas $- por hora
Conversão de Texto em Voz Neural1 $- para 80 M de carateres $- por 1 M de carateres
$- para 400 M de carateres $- por 1 M de carateres
$- para 2,000 M de carateres $- por 1 M de carateres
Contento Desligado Conversão de Voz em Texto Standard Inscrever-se para obter acesso
Saiba mais
Conversão de Texto em Voz Neural1 Inscrever-se para obter acesso
Saiba mais
1 Apenas a síntese em tempo real, isto não inclui a criação de áudio longo.

Estas funcionalidades estão a ser preteridas e apenas disponíveis para os clientes existentes usarem. Verifique os detalhes e aprenda a migrar para novas funcionalidades.

Instância Categoria Funcionalidades Preço
Gratuito - Web/Contentor
1 pedido simultâneo
Conversão de Texto em Voz Standard 5 million carateres gratuitos por mês
Personalizados 5 million carateres gratuitos por mês
Alojamento de pontos finais: 1 modelo gratuito por mês
Standard - Web/Contentor
100 pedidos simultâneos para o modelo Base
20 pedidos simultâneos para o modelo Personalizado
Conversão de Texto em Voz Standard $- por um milhão de carateres
Personalizados $- por um milhão de carateres
Alojamento de pontos finais: $- por modelo por hora

Preços e opções de compra do Azure

Entre em contacto direto connosco

Obtenha uma descrição detalhada dos preços do Azure. Compreenda os preços da sua solução cloud, saiba mais sobre a otimização de custos e solicite uma proposta personalizada.

Fale com um especialista em vendas

Veja as formas de compra

Compre serviços do Azure através do site do Azure, de um representante da Microsoft ou de um parceiro do Azure.

Explore as suas opções

Recursos adicionais

Serviços de Voz

Saiba mais sobre as funcionalidades e capacidades do Serviços de Voz.

Calculadora de preços

Faça uma estimativa dos seus custos mensais para utilizar qualquer combinação de produtos do Azure.

Documentação

Reveja tutoriais técnicos, vídeos e mais Serviços de Voz recursos.

    • Para Tradução de Voz, Conversão de Voz em Texto e Conversão de Voz em Texto com Modelo de Voz Personalizada: a utilização é faturada em incrementos de um segundo.
    • Para Conversão de Texto em Voz com Voz Neural ou Vozes Neurais Personalizadas: a utilização é faturada por caráter. Veja a definição de caráter na nota de preços.
    • Para Alojamento de Modelo de Discurso Personalizado: utilização cobrada à hora; Para Alojamento de Tipo de Voz Personalizada: utilização cobrada ao dia.
    • Para Comandos Personalizados: a faturação é controlada como consumo de Conversão de Voz em Texto, Conversão de Texto em Voz e Language Understanding. Os Comandos Personalizados não introduzem novos medidores de faturação.
    • Não há cobrança para a preparação de Modelos de voz. Os únicos custos são o alojamento do modelo uma vez preparado e, em seguida, o custo por hora da transcrição de voz.
  • O serviço de Voz permite aos utilizadores adaptarem os modelos da linha de base com base nos seus próprios dados acústicos e de linguagem, conduzindo a modelos de discurso personalizado que podem ser utilizados na Conversão de Voz em Texto e na Tradução de Voz.

  • O modelo de idioma é uma distribuição de probabilidade sobre sequências de palavras. O modelo de idioma ajuda o sistema a decidir entre sequências de palavras que soam de forma semelhante, com base na probabilidade das próprias sequências de palavras. Por exemplo, “recognize speech” e “wreck a nice beach” soam de forma parecida, mas a primeira hipótese é muito mais provável de ocorrer e, portanto, será atribuída uma melhor classificação pelo modelo do idioma. Se espera que as consultas de voz na sua aplicação contenham itens de vocabulário particulares, como nomes de produtos ou gíria, que ocorrem raramente no discurso habitual, é provável que consiga obter um melhor desempenho ao personalizar o modelo de idioma. Por exemplo, se estava a criar uma aplicação para pesquisar o MSDN por voz, é provável que termos como “orientado por objetos” ou “espaço de nomes” ou “ponto net” apareçam com mais frequência do que em aplicações de discurso habitual. A personalização do modelo de idioma irá permitir que o sistema aprenda isto.

  • O modelo acústico é um classificador que rotula fragmentos curtos de áudio num de vários fonemas, ou unidades de som, em cada idioma. Estes fonemas podem ser unidos para formar palavras. Por exemplo, a palavra “speech” é constituída por quatro fonemas “s p iy ch”. Estas classificações são feitas na ordem de 100 vezes por segundo. A personalização do modelo acústico pode permitir que o sistema aprenda a melhorar o reconhecimento de voz em ambientes atípicos. Por exemplo, se tem uma aplicação concebida para ser utilizada por trabalhadores num armazém ou numa fábrica, um modelo acústico personalizado pode reconhecer com mais precisão a voz na presença dos ruídos encontrados nestes ambientes.

  • O serviço de voz oferece um amplo conjunto de tipos de letra de voz de conversão de texto em voz (TTS); contudo, a voz neural personalizada permite-lhe criar a sua própria voz personalizada e que se adeque às suas necessidades e à sua marca. Leia o blogue para obter mais informações.

  • Há cenários em que um ou vários oradores falam várias línguas no mesmo ficheiro de áudio ou apresentação ao vivo. A deteção de idioma contínua permite-lhe identificar mudanças nos idiomas falados e transcrever, de forma precisa, o discurso. Esta funcionalidade será gratuita durante a pré-visualização privada e pode ser acedida através do SDK de Voz. Visite a documentação para saber mais.

Fale com um especialista em vendas para obter uma descrição detalhada dos preços do Azure. Compreenda os preços da sua solução cloud.

Obtenha serviços cloud gratuitos e um crédito de $200 para explorar o Azure durante 30 dias.

Adicionar à estimativa. Prima \"v\" para ver na calculadora
Como podemos ajudá-lo?