Pular para o conteúdo principal

Preços do Fala de IA do Azure

Conte com serviços de fala unificados para conversão de fala em texto, conversão de texto em fala e tradução de fala

Os serviços de Fala unificados fornecem uma ampla gama de funcionalidades de reconhecimento e geração de fala, incluindo transcrição de fala, conversão de texto em fala e tradução de fala. O serviço de Fala fornece uma ampla gama de funcionalidades de reconhecimento e geração de fala, incluindo transcrição de fala, conversão de texto em fala, tradução de fala e reconhecimento do locutor.

Explorar as opções de preços

Aplique filtros para personalizar as opções de preço conforme as suas necessidades.

Os preços são apenas estimativas e não pretendem ser cotações de preços reais. O preço real pode variar dependendo do tipo de contrato celebrado com a Microsoft, data de compra e taxa de câmbio. Os preços são calculados com base em dólares americanos e convertidos usando as taxas spot de fechamento de Londres capturadas nos dois dias úteis anteriores ao último dia útil do final do mês anterior. Se os dois dias úteis anteriores ao final do mês caírem em um feriado bancário nos principais mercados, o dia de definição da taxa geralmente é o dia imediatamente anterior aos dois dias úteis. Esta taxa se aplica a todas as transações durante o próximo mês. Entre na calculadora de preços do Azure para ver os preços com base em seu programa/oferta atual com a Microsoft. Entre em contato com um especialista de vendas do Azure para obter mais informações sobre preços ou para solicitar uma cotação. Veja as perguntas frequentes sobre os preços do Azure.

Gratuito (F0)

Categoria Funcionalidades Preço
Conversão de Fala em Texto
(cobrança por segundo)
Padrão 5 horas de áudio gratuitas por mês3
Personalizado 5 horas de áudio gratuitas por mês3
Hospedagem de ponto de extremidade: 1 modelo gratuito por mês1
Áudio Multicanal de Transcrição de Conversas VISUALIZAÇÃO 5 horas de áudio gratuitas por mês
Conversão de Texto em Fala
(cobrança por caractere)
Neural 0.5 million caracteres gratuitos por mês
Tradução de Fala
(cobrança por segundo)
Padrão 5 horas de áudio gratuitas por mês
Reconhecimento do Locutor
(por cobrança de transação)
Verificação do Locutor2 10,000transações gratuitas por mês
Identificação do Locutor2 10,000transações gratuitas por mês
Armazenamento do Perfil de Voz 10,000transações gratuitas por mês

Consulte a documentação para obter informações sobre cotas, limites e instruções sobre como aumentar solicitações simultâneas.

1Modelos não usados serão automaticamente desativados após 7 dias.

2O Reconhecimento do Locutor é um recurso de acesso limitado com a necessidade de solicitar acesso.

3As horas de áudio gratuitas para conversão de fala em texto são compartilhadas entre os tipos Padrão e Personalizado. Não há suporte para Lotes.

Pagamento Conforme o Uso: pague apenas pelo que usar.

Categoria Funcionalidades Preço
Conversão de Fala em Texto
(cobrança por segundo)
Tempo real API de
lote v3.2 ou superior4
Padrão $- por hora $- por hora
Personalizado $- por hora
Hospedagem de ponto de extremidade: $- por modelo por hora
$- por hora
Hospedagem do ponto de extremidade: N/D
Treinamento de Fala Personalizada6 $- por hora de computação
Recursos de complementos aprimorados:
  • Identificação contínua do Idioma
  • Diarização
  • Avaliação de Pronúncia (prosódia, gramática, vocabulário, tópico)
$- por hora por recurso Identificação Contínua de Idioma e Diarização Incluídas5
Áudio Multicanal de Transcrição de Conversas VISUALIZAÇÃO $- por hora1 N/D
Conversão de Texto em Fala
(cobrança por caractere)
Neural Síntese em tempo real e em lotes: $- por 1 milhão de caracteres
Neural HD Sintetização em tempo real e em lote: $- por 1 milhão de caracteres
Criação de Sintetização de Voz2 Treinamento: $- por hora de computação, até $- por treinamento
Síntese em tempo real e em lotes: $- por 1 milhão de caracteres
Hospedagem de ponto de extremidade: $- por modelo por hora
Voz Pessoal8 Criação de voz: gratuita
Armazenamento de perfil de voz: $- por 1.000 perfis de voz por mês
Síntese: $- por 1 milhão de caracteres
Conversão de Texto em Fala Avatar (cobrança por segundo) Avatar Síntese em lote e em tempo real: $- por minuto
Avatar Personalizado9 Síntese em lote e em tempo real: $- por minuto
Síntese em lote: $- por minuto
Hospedagem do ponto de extremidade: $- por modelo por hora
Tradução de Fala
(cobrança por segundo)
Padrão $- por hora de áudio7
Reconhecimento do Locutor
(por cobrança de transação)
Verificação do Locutor3 $- por 1,000 transações
Identificação do Locutor3 $- por 1,000 transações
Armazenamento do Perfil de Voz $- por 1,000 perfis de voz (10,000 perfis de voz gratuitos por mês)

Consulte a documentação para obter informações sobre cotas, limites e instruções sobre como aumentar solicitações simultâneas.

As horas de conversão de fala em texto são medidas como as horas de áudio enviadas ao serviço, cobradas em incrementos de um segundo.

1 Isso reflete o preço da versão prévia pública. O preço de GA será anunciado mais tarde na GA.

2 A Sintetização de Voz Personalizada (CNV) é um recurso de acesso limitado com versões Pro e Lite. Com o CNV Lite (visualização pública), os clientes podem gravar sua própria voz e criar um modelo para demonstração/avaliação antes de solicitar acesso ao Pro. Confira onde CNV está disponível.

3 O Reconhecimento do Locutor é um recurso de acesso limitado com a necessidade de solicitar acesso.

4 Para aproveitar esse novo preço, você precisa usar a nova versão prévia da API REST de Conversão de Fala em Texto V3.2. Consulte Criar uma transcrição em lotes – Serviço de Fala – Serviços de IA do Azure | Microsoft Learn para obter informações sobre o uso da nova API de visualização v3.2.

5 Os recursos de complemento aprimorados estão incluídos no preço do Lote para todas as versões da API do Lote.

6 O Treinamento de Fala Personalizada se aplica ao personalizar os modelos base lançados em ou após 01º de outubro de 2023.

7 Esse preço inclui 1 entrada e saída de áudio, até 2 idiomas de tradução de texto usando Conversão de Fala em Texto padrão ou personalizado e tradução padrão. Para tradução personalizada ou mais de três idiomas de tradução, consulte a página de preços da Tradução de Texto do Tradutor de IA do Azure.

8 Isso reflete os preços de visualização pública. O preço de disponibilidade geral será anunciado mais tarde em GA. A Voz Pessoal é um recurso de acesso limitado restrito apenas a determinados casos de uso pré-aprovados, com a necessidade de solicitação de acesso. Para saber mais sobre o serviço, verifique o documento.

9 O Avatar personalizado é um recurso com capacidade de acesso limitado com necessidade de solicitação de acesso

Níveis de Compromisso – Azure – Standard

Categoria Funcionalidades Preço (por mês) Excedentes
Conversão de Fala em Texto Padrão $- por 2,000 horas $- por hora
$- por 10,000 horas $- por hora
$- por 50,000 horas $- por hora
Personalizado $- por 2,000 horas $- por hora
$- por 10,000 horas $- por hora
$- por 50,000 horas $- por hora
Recursos de complementos aprimorados:2
  • Identificação contínua do Idioma
  • Diarização
  • Avaliação de Pronúncia (prosódia, gramática, vocabulário, tópico)
$- por 2,000 horas $- por hora
$- por 10,000 horas $- por hora
$- por 50,000 horas $- por hora
Conversão de Texto em Fala Neural1 $- por 80 M de caracteres $- por 1 M de caracteres
$- por 400 M de caracteres $- por 1 M de caracteres
$- por 2,000 M de caracteres $- por 1 M de caracteres

1Somente síntese em tempo real, isso não inclui a criação de áudio longo.

2Somente conversão de fala em texto em tempo real, recursos complementares de Identificação Contínua de Idioma e Diarização incluídos na conversão de fala em texto em lote.

Níveis de Compromisso – Contêiner conectado

Categoria Funcionalidades Preço (por mês) Excedentes
Conversão de Fala em Texto2 Padrão $- por 2,000 horas $- por hora
$- por 10,000 horas $- por hora
$- por 50,000 horas $- por hora
Personalizado $- por 2,000 horas $- por hora
$- por 10,000 horas $- por hora
$- por 50,000 horas $- por hora
Recursos de complementos aprimorados:2
  • Identificação de idioma
  • Diarização
$- por 2,000 horas $- por hora
$- por 10,000 horas $- por hora
$- por 50,000 horas $- por hora
Conversão de Texto em Fala Neural1 $- por 80 M de caracteres $- por 1 M de caracteres
$- por 400 M de caracteres $- por 1 M de caracteres
$- por 2,000 M de caracteres $- por 1 M de caracteres

1Somente síntese em tempo real, isso não inclui a criação de áudio longo.

2O preço se aplica a casos de uso em tempo real e em lote. Não há preços de lote separados para contêineres.

Consulte a documentação para obter informações sobre os níveis de Compromisso.

Níveis de Compromisso – Contêiner desconectado

Inscreva-se para acessar a fala em contêineres desconectados ou saiba mais

Categoria Funcionalidades Preço (por ano) Uso máximo (por ano) Uso projetado (por mês)
Conversão de Fala em Texto2 Padrão $-
$-
Inscrever-se para obter acesso
Saiba mais
120.000 horas
600.000 horas
10.000 horas
50.000 horas
Personalizado $-
$-
Inscrever-se para obter acesso
Saiba mais
120.000 horas
600.000 horas
10.000 horas
50.000 horas
Recursos de complementos aprimorados:
  • Identificação de idioma
  • Diarização
$-
$-
120.000 horas
600.000 horas
10.000 horas
50.000 horas
Conversão de Texto em Fala Neural1 $-
$-
Inscrever-se para obter acesso
Saiba mais
4,8 bilhões de caracteres
24 bilhões de caracteres
400 milhões de caracteres
2 bilhões de caracteres

1Somente síntese em tempo real, isso não inclui a criação de áudio longo.

2O preço se aplica a casos de uso em tempo real e em lote. Não há preços de lote separados para contêineres.

Esses recursos estão sendo preteridos e estão disponíveis apenas para uso dos clientes existentes. Verifique os detalhes e saiba como migrar para novos recursos.

Instância Categoria Funcionalidades Preço
Gratuito - Web/Contêiner
1 solicitação simultânea
Conversão de Texto em Fala Padrão 5 million caracteres gratuitos por mês
Personalizado 5 million caracteres gratuitos por mês
Hospedagem de ponto de extremidade: 1 modelo gratuito por mês
Standard – Web/Contêiner
100 solicitações simultâneas para o modelo Básico
20 solicitações simultâneos para o modelo Personalizado
Conversão de Texto em Fala Padrão $- por 1 milhão de caracteres
Personalizado $- por 1 milhão de caracteres
Hospedagem de ponto de extremidade: $- por modelo por hora

Opções de compra e preços do Azure

Conecte-se diretamente conosco

Obtenha uma explicação detalhada sobre os preços do Azure. Entenda os preços da sua solução de nuvem, aprenda sobre a otimização de custos e solicite uma proposta personalizada.

Converse com um especialista de vendas

Confira maneiras de comprar

Compre os serviços do Azure por meio do site do Azure, de um representante da Microsoft ou de um parceiro do Azure.

Explore suas opções

Recursos adicionais

Fala de IA do Azure

Saiba mais sobre os recursos e as funcionalidades do Fala de IA do Azure.

Calculadora de preço

Estime seus custos mensais esperados para usar qualquer combinação de produtos do Azure.

Documentação

Consulte tutoriais técnicos, vídeos e outros recursos do Fala de IA do Azure.

    • Para Conversão de Fala em Texto e Tradução de Fala, o uso é cobrado em incrementos de um segundo.
    • Para Conversão de Texto em Fala: o uso é cobrado por caractere. Verifique a definição de caractere na nota de preços.
    • Para hospedagem de Voz Neural Personalizada: o uso é cobrado por ponto de extremidade por segundo. Verifique os detalhes na nota de preços.
    • Para armazenamento de perfil de voz pessoal: o uso é cobrado por perfil de voz por dia. Verifique os detalhes na nota de preços.
    • Para o avatar de Conversão de Texto em Fala, o uso é cobrado por segundo.
    • Para Conversão de Fala em Texto e Conversão de Texto em Fala (incluindo Avatar), a hospedagem de ponto de extremidade para modelos personalizados é cobrada por segundo por modelo.
  • O serviço de Fala permite que os usuários adaptem modelos de linha de base com base em seus próprios dados acústicos e de linguagem, levando a modelos de fala personalizados que podem ser usados tanto em Conversão de Fala em Texto quanto em Tradução de Fala.

  • O modelo de linguagem é uma distribuição de probabilidade por sequências de palavras. O modelo de linguagem ajuda o sistema a decidir entre sequências de palavras que soam parecidas, com base na probabilidade das próprias sequências de palavras. Por exemplo, “reconhecer fala” e “amolecer bala” soam parecido, mas a primeira hipótese é muito mais provável de ocorrer e, portanto, terá atribuída a ela uma pontuação mais elevada pelo modelo de linguagem. Se você espera que consultas de voz para seu aplicativo contenham itens de vocabulário específicos, como nomes de produto ou jargões que raramente ocorrem na fala comum, é provável que você possa obter desempenho aprimorado personalizando o modelo de linguagem. Por exemplo, se você está compilando um aplicativo para pesquisar o MSDN por voz, é provável que termos como “orientado a objeto” ou “namespace” ou “dot net” apareçam com mais frequência do que em aplicativos de voz típicos. Personalizar o modelo de linguagem permitirá que o sistema aprenda isso.

  • O modelo acústico é um classificador que rotula fragmentos de áudio curtos em um de diversos fonemas ou unidades sonoras em cada linguagem. Esses fonemas podem então ser costurados para formar palavras. Por exemplo, a palavra “speech” é composta de quatro fonemas, “s p iy ch”. Essas classificações são feitas aproximadamente 100 vezes por segundo. Personalizar o modelo acústico pode permitir que o sistema aprenda a reconhecer melhor a fala em ambientes atípicos. Por exemplo, se você tiver um aplicativo projetado para ser usado por trabalhadores em um depósito ou fábrica, um modelo acústico personalizado poderá reconhecer fala de modo mais preciso na presença dos ruídos encontrados nesses ambientes.

  • O serviço de Fala oferece uma grande variedade de fontes de voz de TTS (conversão de texto em fala). No entanto, a Sintetização de Voz Personalizada permite que você crie sua voz personalizada, adequada às suas necessidades e à sua marca. Leia o blog para obter mais informações.

  • identificação de idioma permite que você identifique uma opção no idioma falado e transcreva a fala adequadamente. Isso pode ser aplicado em cenários em que o idioma do áudio é desconhecido ou quando o(s) locutor(es) pode(m) falar vários idiomas. A Identificação de Idioma Único está disponível sem custo adicional. A Identificação Contínua de Idioma é um recurso de complemento aprimorado. Acesse documentos para saber mais.

    • A avaliação de pronúncia avalia a pronúncia da fala e fornece feedback aos falantes sobre a precisão e a fluência do áudio falado. Com a avaliação de pronúncia, os alunos de idiomas podem praticar, obter feedback instantâneo e melhorar sua pronúncia para que possam falar e apresentar com confiança. Os educadores podem usar a capacidade de avaliar a pronúncia de vários falantes em tempo real. Visite docs para saber mais.
    • É cobrado como Speech to Text padrão, exemplo:
      Para avaliação de 8 segundos de fala, será cobrado cerca de $-

Converse com um especialista em vendas para saber mais sobre os preços do Azure. Entenda os preços da sua solução de nuvem.

Obtenha serviços de nuvem gratuitos e um crédito de $200 para explorar o Azure por 30 dias.

Adicionado à estimativa. Pressione ‘v’ para exibir na calculadora
Podemos ajudar você?