Conte com serviços de fala unificados para conversão de fala em texto, conversão de texto em fala e tradução de fala
Os serviços de Fala unificados fornecem uma ampla gama de funcionalidades de reconhecimento e geração de fala, incluindo transcrição de fala, conversão de texto em fala e tradução de fala. O serviço de Fala fornece uma ampla gama de funcionalidades de reconhecimento e geração de fala, incluindo transcrição de fala, conversão de texto em fala, tradução de fala e reconhecimento do locutor.
Explorar as opções de preços
Aplique filtros para personalizar as opções de preço conforme as suas necessidades.
Os preços são apenas estimativas e não pretendem ser cotações de preços reais. O preço real pode variar dependendo do tipo de contrato celebrado com a Microsoft, data de compra e taxa de câmbio. Os preços são calculados com base em dólares americanos e convertidos usando as taxas spot de fechamento de Londres capturadas nos dois dias úteis anteriores ao último dia útil do final do mês anterior. Se os dois dias úteis anteriores ao final do mês caírem em um feriado bancário nos principais mercados, o dia de definição da taxa geralmente é o dia imediatamente anterior aos dois dias úteis. Esta taxa se aplica a todas as transações durante o próximo mês. Entre na calculadora de preços do Azure para ver os preços com base em seu programa/oferta atual com a Microsoft. Entre em contato com um especialista de vendas do Azure para obter mais informações sobre preços ou para solicitar uma cotação. Veja as perguntas frequentes sobre os preços do Azure.
Instituições governamentais dos EUA podem comprar serviços do Azure Governamental de um provedor de soluções de licenciamento sem assumir nenhum compromisso financeiro inicial ou, então, podem adquiri-los diretamente por meio de uma assinatura online paga conforme o uso.
Importante: o preço em reais (R$) é apenas uma referência. Esta é uma transação internacional e, como tal, seu preço final está sujeito a taxas de câmbio e à inclusão de IOF. Não será emitida uma NFe.
Instituições governamentais dos EUA podem comprar serviços do Azure Governamental de um provedor de soluções de licenciamento sem assumir nenhum compromisso financeiro inicial ou, então, podem adquiri-los diretamente por meio de uma assinatura online paga conforme o uso.
Importante: o preço em reais (R$) é apenas uma referência. Esta é uma transação internacional e, como tal, seu preço final está sujeito a taxas de câmbio e à inclusão de IOF. Não será emitida uma NFe.
Gratuito (F0)
Categoria | Funcionalidades | Preço |
---|---|---|
Conversão de Fala em Texto (cobrança por segundo) |
Padrão | 5 horas de áudio gratuitas por mês3 |
Personalizado |
5 horas de áudio gratuitas por mês3 Hospedagem de ponto de extremidade: 1 modelo gratuito por mês1 |
|
Áudio Multicanal de Transcrição de Conversas VISUALIZAÇÃO | 5 horas de áudio gratuitas por mês | |
Conversão de Texto em Fala (cobrança por caractere) |
Neural | 0.5 million caracteres gratuitos por mês |
Tradução de Fala (cobrança por segundo) |
Padrão | 5 horas de áudio gratuitas por mês |
Reconhecimento do Locutor (por cobrança de transação) |
Verificação do Locutor2 | 10,000transações gratuitas por mês |
Identificação do Locutor2 | 10,000transações gratuitas por mês | |
Armazenamento do Perfil de Voz | 10,000transações gratuitas por mês |
Pagamento Conforme o Uso: pague apenas pelo que usar.
Categoria | Preço | |
---|---|---|
Conversão de Fala em Texto (cobrança por segundo) |
Padrão |
Transcrição em tempo real: $- por hora Transcrição rápidaVisualização: $- por hora9 Transcrição em Lote: $- por hora1 |
Personalizado |
Transcrição em tempo real: $- por hora Transcrição em Lote: $- por hora1 Hospedagem de ponto de extremidade: $- por modelo por hora Treinamento de Fala Personalizada5: $- por hora de computação |
|
Recursos de complementos aprimorados:
|
Em tempo real: $- por hora por recurso Lote (Identificação Contínua de Idioma, Diarização): Incluído no Standard/Personalizado (sem custo adicional) |
|
Áudio Multicanal de Transcrição de Conversas VISUALIZAÇÃO | $- por hora2 | |
Tradução de Fala (cobrança por segundo) |
Tradução de Fala em Tempo Real | $- por hora de áudio3 |
Tradução de VídeoVisualização |
Lote: $- por minuto de vídeo de saída Edição de conteúdo: $- por minuto de vídeo de saída Voz Pessoal: $- por minuto de vídeo de saída |
|
Conversão de Texto em Fala8 | Voz Standard |
Neural: $- por 1 milhão de caracteres Neural HD4: $- por 1 milhão de caracteres |
Voz personalizada |
Voz Profissional:
Síntese: $- por 1 milhão de caracteres
Treinamento do modelo de voz: $- por hora de computação, até $- por treinamento Hospedagem de ponto de extremidade: $- por modelo por hora |
|
Voz Pessoal6:
Síntese: $- por 1 milhão de caracteres
Criação de voz: Gratuito Armazenamento de perfil de voz: $- por 1.000 perfis de voz por mês |
||
Recurso de Complemento aprimorado: Avatar | Padrão: $- por minuto | |
Personalizado:
Síntese em lote e em tempo real: $- por minuto
Síntese em lote: $- por minuto Hospedagem do ponto de extremidade: $- por modelo por hora |
||
Reconhecimento do Locutor (por cobrança de transação) |
Verificação do Locutor7 | $- por 1,000 transações |
Identificação do Locutor7 | $- por 1,000 transações | |
Armazenamento do Perfil de Voz | $- por 1,000 perfis de voz (10,000 perfis de voz gratuitos por mês) |
Níveis de Compromisso – Azure – Standard
Categoria | Funcionalidades | Preço (por mês) | Excedentes |
---|---|---|---|
Conversão de Fala em Texto | Padrão | $- por 2,000 horas | $- por hora |
$- por 10,000 horas | $- por hora | ||
$- por 50,000 horas | $- por hora | ||
Personalizado | $- por 2,000 horas | $- por hora | |
$- por 10,000 horas | $- por hora | ||
$- por 50,000 horas | $- por hora | ||
Recursos de complementos aprimorados:2
|
$- por 2,000 horas | $- por hora | |
$- por 10,000 horas | $- por hora | ||
$- por 50,000 horas | $- por hora | ||
Conversão de Texto em Fala | Neural1 | $- por 80 M de caracteres | $- por 1 M de caracteres |
$- por 400 M de caracteres | $- por 1 M de caracteres | ||
$- por 2,000 M de caracteres | $- por 1 M de caracteres |
1Somente síntese em tempo real, isso não inclui a criação de áudio longo.
2Somente conversão de fala em texto em tempo real, recursos complementares de Identificação Contínua de Idioma e Diarização incluídos na conversão de fala em texto em lote.
Níveis de Compromisso – Contêiner conectado
Categoria | Funcionalidades | Preço (por mês) | Excedentes |
---|---|---|---|
Conversão de Fala em Texto2 | Padrão | $- por 2,000 horas | $- por hora |
$- por 10,000 horas | $- por hora | ||
$- por 50,000 horas | $- por hora | ||
Personalizado | $- por 2,000 horas | $- por hora | |
$- por 10,000 horas | $- por hora | ||
$- por 50,000 horas | $- por hora | ||
Recursos de complementos aprimorados:2
|
$- por 2,000 horas | $- por hora | |
$- por 10,000 horas | $- por hora | ||
$- por 50,000 horas | $- por hora | ||
Conversão de Texto em Fala | Neural1 | $- por 80 M de caracteres | $- por 1 M de caracteres |
$- por 400 M de caracteres | $- por 1 M de caracteres | ||
$- por 2,000 M de caracteres | $- por 1 M de caracteres |
1Somente síntese em tempo real, isso não inclui a criação de áudio longo.
2O preço se aplica a casos de uso em tempo real e em lote. Não há preços de lote separados para contêineres.
Consulte a documentação para obter informações sobre os níveis de Compromisso.
Níveis de Compromisso – Contêiner desconectado
Inscreva-se para acessar a fala em contêineres desconectados ou saiba mais
Categoria | Funcionalidades | Preço (por ano) | Uso máximo (por ano) | Uso projetado (por mês) |
---|---|---|---|---|
Conversão de Fala em Texto2 | Padrão |
$-
$- Inscrever-se para obter acesso Saiba mais |
120.000 horas
600.000 horas |
10.000 horas
50.000 horas |
Personalizado |
$-
$- Inscrever-se para obter acesso Saiba mais |
120.000 horas
600.000 horas |
10.000 horas
50.000 horas |
|
Recursos de complementos aprimorados:
|
$-
$- |
120.000 horas
600.000 horas |
10.000 horas
50.000 horas |
|
Conversão de Texto em Fala | Neural1 |
$-
$- Inscrever-se para obter acesso Saiba mais |
4,8 bilhões de caracteres
24 bilhões de caracteres |
400 milhões de caracteres
2 bilhões de caracteres |
1Somente síntese em tempo real, isso não inclui a criação de áudio longo.
2O preço se aplica a casos de uso em tempo real e em lote. Não há preços de lote separados para contêineres.
Esses recursos estão sendo preteridos e estão disponíveis apenas para uso dos clientes existentes. Verifique os detalhes e saiba como migrar para novos recursos.
Instância | Categoria | Funcionalidades | Preço |
---|---|---|---|
Gratuito - Web/Contêiner 1 solicitação simultânea |
Conversão de Texto em Fala | Padrão | 5 million caracteres gratuitos por mês |
Personalizado |
5 million caracteres gratuitos por mês Hospedagem de ponto de extremidade: 1 modelo gratuito por mês |
||
Standard – Web/Contêiner 100 solicitações simultâneas para o modelo Básico 20 solicitações simultâneos para o modelo Personalizado |
Conversão de Texto em Fala | Padrão | $- por 1 milhão de caracteres |
Personalizado |
$- por 1 milhão de caracteres Hospedagem de ponto de extremidade: $- por modelo por hora |
Opções de compra e preços do Azure
Conecte-se diretamente conosco
Obtenha uma explicação detalhada sobre os preços do Azure. Entenda os preços da sua solução de nuvem, aprenda sobre a otimização de custos e solicite uma proposta personalizada.
Converse com um especialista de vendasConfira maneiras de comprar
Compre os serviços do Azure por meio do site do Azure, de um representante da Microsoft ou de um parceiro do Azure.
Explore suas opçõesRecursos adicionais
Fala de IA do Azure
Saiba mais sobre os recursos e as funcionalidades do Fala de IA do Azure.
Calculadora de preço
Estime seus custos mensais esperados para usar qualquer combinação de produtos do Azure.
Documentação
Consulte tutoriais técnicos, vídeos e outros recursos do Fala de IA do Azure.
Perguntas frequentes
-
- Para Conversão de Fala em Texto e Tradução de Fala, o uso é cobrado em incrementos de um segundo.
- Para Conversão de Texto em Fala: o uso é cobrado por caractere. Verifique a definição de caractere na nota de preços.
- Para hospedagem de Voz Neural Personalizada: o uso é cobrado por ponto de extremidade por segundo. Verifique os detalhes na nota de preços.
- Para armazenamento de perfil de voz pessoal: o uso é cobrado por perfil de voz por dia. Verifique os detalhes na nota de preços.
- Para o avatar de Conversão de Texto em Fala, o uso é cobrado por segundo.
- Para Conversão de Fala em Texto e Conversão de Texto em Fala (incluindo Avatar), a hospedagem de ponto de extremidade para modelos personalizados é cobrada por segundo por modelo.
-
O serviço de Fala permite que os usuários adaptem modelos de linha de base com base em seus próprios dados acústicos e de linguagem, levando a modelos de fala personalizados que podem ser usados tanto em Conversão de Fala em Texto quanto em Tradução de Fala.
-
O modelo de linguagem é uma distribuição de probabilidade por sequências de palavras. O modelo de linguagem ajuda o sistema a decidir entre sequências de palavras que soam parecidas, com base na probabilidade das próprias sequências de palavras. Por exemplo, “reconhecer fala” e “amolecer bala” soam parecido, mas a primeira hipótese é muito mais provável de ocorrer e, portanto, terá atribuída a ela uma pontuação mais elevada pelo modelo de linguagem. Se você espera que consultas de voz para seu aplicativo contenham itens de vocabulário específicos, como nomes de produto ou jargões que raramente ocorrem na fala comum, é provável que você possa obter desempenho aprimorado personalizando o modelo de linguagem. Por exemplo, se você está compilando um aplicativo para pesquisar o MSDN por voz, é provável que termos como “orientado a objeto” ou “namespace” ou “dot net” apareçam com mais frequência do que em aplicativos de voz típicos. Personalizar o modelo de linguagem permitirá que o sistema aprenda isso.
-
O modelo acústico é um classificador que rotula fragmentos de áudio curtos em um de diversos fonemas ou unidades sonoras em cada linguagem. Esses fonemas podem então ser costurados para formar palavras. Por exemplo, a palavra “speech” é composta de quatro fonemas, “s p iy ch”. Essas classificações são feitas aproximadamente 100 vezes por segundo. Personalizar o modelo acústico pode permitir que o sistema aprenda a reconhecer melhor a fala em ambientes atípicos. Por exemplo, se você tiver um aplicativo projetado para ser usado por trabalhadores em um depósito ou fábrica, um modelo acústico personalizado poderá reconhecer fala de modo mais preciso na presença dos ruídos encontrados nesses ambientes.
-
O serviço de Fala oferece uma grande variedade de fontes de voz de TTS (conversão de texto em fala). No entanto, a Sintetização de Voz Personalizada permite que você crie sua voz personalizada, adequada às suas necessidades e à sua marca. Leia o blog para obter mais informações.
-
identificação de idioma permite que você identifique uma opção no idioma falado e transcreva a fala adequadamente. Isso pode ser aplicado em cenários em que o idioma do áudio é desconhecido ou quando o(s) locutor(es) pode(m) falar vários idiomas. A Identificação de Idioma Único está disponível sem custo adicional. A Identificação Contínua de Idioma é um recurso de complemento aprimorado. Acesse documentos para saber mais.
-
- A avaliação de pronúncia avalia a pronúncia da fala e fornece feedback aos falantes sobre a precisão e a fluência do áudio falado. Com a avaliação de pronúncia, os alunos de idiomas podem praticar, obter feedback instantâneo e melhorar sua pronúncia para que possam falar e apresentar com confiança. Os educadores podem usar a capacidade de avaliar a pronúncia de vários falantes em tempo real. Visite docs para saber mais.
- É cobrado como Speech to Text padrão, exemplo:
Para avaliação de 8 segundos de fala, será cobrado cerca de $-
Converse com um especialista em vendas para saber mais sobre os preços do Azure. Entenda os preços da sua solução de nuvem.
Obtenha serviços de nuvem gratuitos e um crédito de $200 para explorar o Azure por 30 dias.