Pular para o conteúdo principal

Preços do Fala de IA do Azure

Conte com serviços de fala unificados para conversão de fala em texto, conversão de texto em fala e tradução de fala

Os serviços de Fala unificados fornecem uma ampla gama de funcionalidades de reconhecimento e geração de fala, incluindo transcrição de fala, conversão de texto em fala e tradução de fala. O serviço de Fala fornece uma ampla gama de funcionalidades de reconhecimento e geração de fala, incluindo transcrição de fala, conversão de texto em fala, tradução de fala e reconhecimento do locutor.

Explorar as opções de preços

Aplique filtros para personalizar as opções de preço conforme as suas necessidades.

Os preços são apenas estimativas e não pretendem ser cotações de preços reais. O preço real pode variar dependendo do tipo de contrato celebrado com a Microsoft, data de compra e taxa de câmbio. Os preços são calculados com base em dólares americanos e convertidos usando as taxas spot de fechamento de Londres capturadas nos dois dias úteis anteriores ao último dia útil do final do mês anterior. Se os dois dias úteis anteriores ao final do mês caírem em um feriado bancário nos principais mercados, o dia de definição da taxa geralmente é o dia imediatamente anterior aos dois dias úteis. Esta taxa se aplica a todas as transações durante o próximo mês. Entre na calculadora de preços do Azure para ver os preços com base em seu programa/oferta atual com a Microsoft. Entre em contato com um especialista de vendas do Azure para obter mais informações sobre preços ou para solicitar uma cotação. Veja as perguntas frequentes sobre os preços do Azure.

Gratuito (F0)

Categoria Funcionalidades Preço
Conversão de Fala em Texto
(cobrança por segundo)
Padrão 5 horas de áudio gratuitas por mês3
Personalizado 5 horas de áudio gratuitas por mês3
Hospedagem de ponto de extremidade: 1 modelo gratuito por mês1
Áudio Multicanal de Transcrição de Conversas VISUALIZAÇÃO 5 horas de áudio gratuitas por mês
Conversão de Texto em Fala
(cobrança por caractere)
Neural 0.5 million caracteres gratuitos por mês
Tradução de Fala
(cobrança por segundo)
Padrão 5 horas de áudio gratuitas por mês
Reconhecimento do Locutor
(por cobrança de transação)
Verificação do Locutor2 10,000transações gratuitas por mês
Identificação do Locutor2 10,000transações gratuitas por mês
Armazenamento do Perfil de Voz 10,000transações gratuitas por mês

Consulte a documentação para obter informações sobre cotas, limites e instruções sobre como aumentar solicitações simultâneas.

1Modelos não usados serão automaticamente desativados após 7 dias.

2O Reconhecimento do Locutor é um recurso de acesso limitado com a necessidade de solicitar acesso.

3As horas de áudio gratuitas para conversão de fala em texto são compartilhadas entre os tipos Padrão e Personalizado. Não há suporte para Lotes.

Pagamento Conforme o Uso: pague apenas pelo que usar.

Categoria Preço
Conversão de Fala em Texto
(cobrança por segundo)
Padrão Transcrição em tempo real: $- por hora
Transcrição rápidaVisualização: $- por hora9
Transcrição em Lote: $- por hora1
Personalizado Transcrição em tempo real: $- por hora
Transcrição em Lote: $- por hora1
Hospedagem de ponto de extremidade: $- por modelo por hora
Treinamento de Fala Personalizada5: $- por hora de computação
Recursos de complementos aprimorados:
  • Identificação contínua do Idioma
  • Diarização
  • Avaliação de Pronúncia (prosódia, gramática, vocabulário, tópico)
Em tempo real: $- por hora por recurso
Lote (Identificação Contínua de Idioma, Diarização): Incluído no Standard/Personalizado (sem custo adicional)
Áudio Multicanal de Transcrição de Conversas VISUALIZAÇÃO $- por hora2
Tradução de Fala
(cobrança por segundo)
Tradução de Fala em Tempo Real $- por hora de áudio3
Tradução de VídeoVisualização Lote: $- por minuto de vídeo de saída
Edição de conteúdo: $- por minuto de vídeo de saída
Voz Pessoal: $- por minuto de vídeo de saída
Conversão de Texto em Fala8 Voz Standard Neural: $- por 1 milhão de caracteres
Neural HD4: $- por 1 milhão de caracteres
Voz personalizada Voz Profissional:
Síntese: $- por 1 milhão de caracteres
Treinamento do modelo de voz: $- por hora de computação, até $- por treinamento
Hospedagem de ponto de extremidade: $- por modelo por hora
Voz Pessoal6:
Síntese: $- por 1 milhão de caracteres
Criação de voz: Gratuito
Armazenamento de perfil de voz: $- por 1.000 perfis de voz por mês
Recurso de Complemento aprimorado: Avatar Padrão: $- por minuto
Personalizado:
Síntese em lote e em tempo real: $- por minuto
Síntese em lote: $- por minuto
Hospedagem do ponto de extremidade: $- por modelo por hora
Reconhecimento do Locutor
(por cobrança de transação)
Verificação do Locutor7 $- por 1,000 transações
Identificação do Locutor7 $- por 1,000 transações
Armazenamento do Perfil de Voz $- por 1,000 perfis de voz (10,000 perfis de voz gratuitos por mês)

Consulte a documentação para obter informações sobre cotas, limites e instruções sobre como aumentar solicitações simultâneas.

As horas de conversão de fala em texto são medidas como as horas de áudio enviadas ao serviço, cobradas em incrementos de um segundo.

1Para aproveitar esse novo preço de Transcrição em Lote, você precisa usar a API REST de Conversão de Fala em Texto V3.2 ou versões posteriores. Consulte API REST de conversão de fala em texto para obter informações.

2Isso reflete o preço da visualização pública.

3Esse preço inclui 1 entrada e saída de áudio, até 2 idiomas de tradução de texto usando Conversão de Fala em Texto padrão ou personalizado e tradução padrão. Para tradução personalizada ou mais de três idiomas de tradução, consulte a página de preços da Tradução de Texto do Tradutor de IA do Azure.

4As vozes do conversão de texto em fala do OpenAI estão disponíveis em duas variantes de modelo: Neural e NeuralHD. Saiba mais aqui.

5Custom Speech Training applies when customizing any base model released on or after October 1, 2023.

6A Voz Pessoal é um recurso de acesso limitado restrito apenas a determinados casos de uso pré-aprovados, sendo necessário solicitar o acesso. Para saber mais sobre o serviço, verifique o documento.

7O Reconhecimento do Locutor é um recurso de acesso limitado com a necessidade de solicitar acesso.

8Conversão de Texto em Fala: o uso da síntese de fala é cobrado por caractere. O avatar é cobrado por segundo. O treinamento e a hospedagem de modelos são cobrados por segundo.

9Para usar a Transcrição Rápida, você precisa usar a API REST de Conversão de Fala em Texto 2024-05-15-preview ou versões posteriores. Consulte API REST de conversão de fala em texto para obter informações.

Níveis de Compromisso – Azure – Standard

Categoria Funcionalidades Preço (por mês) Excedentes
Conversão de Fala em Texto Padrão $- por 2,000 horas $- por hora
$- por 10,000 horas $- por hora
$- por 50,000 horas $- por hora
Personalizado $- por 2,000 horas $- por hora
$- por 10,000 horas $- por hora
$- por 50,000 horas $- por hora
Recursos de complementos aprimorados:2
  • Identificação contínua do Idioma
  • Diarização
  • Avaliação de Pronúncia (prosódia, gramática, vocabulário, tópico)
$- por 2,000 horas $- por hora
$- por 10,000 horas $- por hora
$- por 50,000 horas $- por hora
Conversão de Texto em Fala Neural1 $- por 80 M de caracteres $- por 1 M de caracteres
$- por 400 M de caracteres $- por 1 M de caracteres
$- por 2,000 M de caracteres $- por 1 M de caracteres

1Somente síntese em tempo real, isso não inclui a criação de áudio longo.

2Somente conversão de fala em texto em tempo real, recursos complementares de Identificação Contínua de Idioma e Diarização incluídos na conversão de fala em texto em lote.

Níveis de Compromisso – Contêiner conectado

Categoria Funcionalidades Preço (por mês) Excedentes
Conversão de Fala em Texto2 Padrão $- por 2,000 horas $- por hora
$- por 10,000 horas $- por hora
$- por 50,000 horas $- por hora
Personalizado $- por 2,000 horas $- por hora
$- por 10,000 horas $- por hora
$- por 50,000 horas $- por hora
Recursos de complementos aprimorados:2
  • Identificação de idioma
  • Diarização
$- por 2,000 horas $- por hora
$- por 10,000 horas $- por hora
$- por 50,000 horas $- por hora
Conversão de Texto em Fala Neural1 $- por 80 M de caracteres $- por 1 M de caracteres
$- por 400 M de caracteres $- por 1 M de caracteres
$- por 2,000 M de caracteres $- por 1 M de caracteres

1Somente síntese em tempo real, isso não inclui a criação de áudio longo.

2O preço se aplica a casos de uso em tempo real e em lote. Não há preços de lote separados para contêineres.

Consulte a documentação para obter informações sobre os níveis de Compromisso.

Níveis de Compromisso – Contêiner desconectado

Inscreva-se para acessar a fala em contêineres desconectados ou saiba mais

Categoria Funcionalidades Preço (por ano) Uso máximo (por ano) Uso projetado (por mês)
Conversão de Fala em Texto2 Padrão $-
$-
Inscrever-se para obter acesso
Saiba mais
120.000 horas
600.000 horas
10.000 horas
50.000 horas
Personalizado $-
$-
Inscrever-se para obter acesso
Saiba mais
120.000 horas
600.000 horas
10.000 horas
50.000 horas
Recursos de complementos aprimorados:
  • Identificação de idioma
  • Diarização
$-
$-
120.000 horas
600.000 horas
10.000 horas
50.000 horas
Conversão de Texto em Fala Neural1 $-
$-
Inscrever-se para obter acesso
Saiba mais
4,8 bilhões de caracteres
24 bilhões de caracteres
400 milhões de caracteres
2 bilhões de caracteres

1Somente síntese em tempo real, isso não inclui a criação de áudio longo.

2O preço se aplica a casos de uso em tempo real e em lote. Não há preços de lote separados para contêineres.

Esses recursos estão sendo preteridos e estão disponíveis apenas para uso dos clientes existentes. Verifique os detalhes e saiba como migrar para novos recursos.

Instância Categoria Funcionalidades Preço
Gratuito - Web/Contêiner
1 solicitação simultânea
Conversão de Texto em Fala Padrão 5 million caracteres gratuitos por mês
Personalizado 5 million caracteres gratuitos por mês
Hospedagem de ponto de extremidade: 1 modelo gratuito por mês
Standard – Web/Contêiner
100 solicitações simultâneas para o modelo Básico
20 solicitações simultâneos para o modelo Personalizado
Conversão de Texto em Fala Padrão $- por 1 milhão de caracteres
Personalizado $- por 1 milhão de caracteres
Hospedagem de ponto de extremidade: $- por modelo por hora

Opções de compra e preços do Azure

Conecte-se diretamente conosco

Obtenha uma explicação detalhada sobre os preços do Azure. Entenda os preços da sua solução de nuvem, aprenda sobre a otimização de custos e solicite uma proposta personalizada.

Converse com um especialista de vendas

Confira maneiras de comprar

Compre os serviços do Azure por meio do site do Azure, de um representante da Microsoft ou de um parceiro do Azure.

Explore suas opções

Recursos adicionais

Fala de IA do Azure

Saiba mais sobre os recursos e as funcionalidades do Fala de IA do Azure.

Calculadora de preço

Estime seus custos mensais esperados para usar qualquer combinação de produtos do Azure.

Documentação

Consulte tutoriais técnicos, vídeos e outros recursos do Fala de IA do Azure.

    • Para Conversão de Fala em Texto e Tradução de Fala, o uso é cobrado em incrementos de um segundo.
    • Para Conversão de Texto em Fala: o uso é cobrado por caractere. Verifique a definição de caractere na nota de preços.
    • Para hospedagem de Voz Neural Personalizada: o uso é cobrado por ponto de extremidade por segundo. Verifique os detalhes na nota de preços.
    • Para armazenamento de perfil de voz pessoal: o uso é cobrado por perfil de voz por dia. Verifique os detalhes na nota de preços.
    • Para o avatar de Conversão de Texto em Fala, o uso é cobrado por segundo.
    • Para Conversão de Fala em Texto e Conversão de Texto em Fala (incluindo Avatar), a hospedagem de ponto de extremidade para modelos personalizados é cobrada por segundo por modelo.
  • O serviço de Fala permite que os usuários adaptem modelos de linha de base com base em seus próprios dados acústicos e de linguagem, levando a modelos de fala personalizados que podem ser usados tanto em Conversão de Fala em Texto quanto em Tradução de Fala.

  • O modelo de linguagem é uma distribuição de probabilidade por sequências de palavras. O modelo de linguagem ajuda o sistema a decidir entre sequências de palavras que soam parecidas, com base na probabilidade das próprias sequências de palavras. Por exemplo, “reconhecer fala” e “amolecer bala” soam parecido, mas a primeira hipótese é muito mais provável de ocorrer e, portanto, terá atribuída a ela uma pontuação mais elevada pelo modelo de linguagem. Se você espera que consultas de voz para seu aplicativo contenham itens de vocabulário específicos, como nomes de produto ou jargões que raramente ocorrem na fala comum, é provável que você possa obter desempenho aprimorado personalizando o modelo de linguagem. Por exemplo, se você está compilando um aplicativo para pesquisar o MSDN por voz, é provável que termos como “orientado a objeto” ou “namespace” ou “dot net” apareçam com mais frequência do que em aplicativos de voz típicos. Personalizar o modelo de linguagem permitirá que o sistema aprenda isso.

  • O modelo acústico é um classificador que rotula fragmentos de áudio curtos em um de diversos fonemas ou unidades sonoras em cada linguagem. Esses fonemas podem então ser costurados para formar palavras. Por exemplo, a palavra “speech” é composta de quatro fonemas, “s p iy ch”. Essas classificações são feitas aproximadamente 100 vezes por segundo. Personalizar o modelo acústico pode permitir que o sistema aprenda a reconhecer melhor a fala em ambientes atípicos. Por exemplo, se você tiver um aplicativo projetado para ser usado por trabalhadores em um depósito ou fábrica, um modelo acústico personalizado poderá reconhecer fala de modo mais preciso na presença dos ruídos encontrados nesses ambientes.

  • O serviço de Fala oferece uma grande variedade de fontes de voz de TTS (conversão de texto em fala). No entanto, a Sintetização de Voz Personalizada permite que você crie sua voz personalizada, adequada às suas necessidades e à sua marca. Leia o blog para obter mais informações.

  • identificação de idioma permite que você identifique uma opção no idioma falado e transcreva a fala adequadamente. Isso pode ser aplicado em cenários em que o idioma do áudio é desconhecido ou quando o(s) locutor(es) pode(m) falar vários idiomas. A Identificação de Idioma Único está disponível sem custo adicional. A Identificação Contínua de Idioma é um recurso de complemento aprimorado. Acesse documentos para saber mais.

    • A avaliação de pronúncia avalia a pronúncia da fala e fornece feedback aos falantes sobre a precisão e a fluência do áudio falado. Com a avaliação de pronúncia, os alunos de idiomas podem praticar, obter feedback instantâneo e melhorar sua pronúncia para que possam falar e apresentar com confiança. Os educadores podem usar a capacidade de avaliar a pronúncia de vários falantes em tempo real. Visite docs para saber mais.
    • É cobrado como Speech to Text padrão, exemplo:
      Para avaliação de 8 segundos de fala, será cobrado cerca de $-

Converse com um especialista em vendas para saber mais sobre os preços do Azure. Entenda os preços da sua solução de nuvem.

Obtenha serviços de nuvem gratuitos e um crédito de $200 para explorar o Azure por 30 dias.

Adicionado à estimativa. Pressione ‘v’ para exibir na calculadora
Podemos ajudar você?