Ignorar navegação

Preços dos Serviços Cognitivos – Serviços de Fala

Use as APIs de inteligência para habilitar capacidades de visão, fala, linguagem e conhecimento

Os serviços de Fala unificados fornecem uma ampla gama de funcionalidades de reconhecimento e geração de fala, incluindo transcrição de fala, conversão de texto em fala e tradução de fala.

Detalhes dos preços

Instância Solicitação simultânea Recursos Preço
Gratuito 1 solicitação simultânea Tradução de Fala 5 horas grátis por mês
Conversão de Fala em Texto 5 horas grátis por mês
Conversão de Fala em Texto com Modelo de Fala Personalizado 5 horas grátis por mês
Hospedagem de Ponto de Extremidade de Fala1 1 modelo grátis por mês
Conversão de Texto em Fala com Vozes Standard 5 milhões de caracteres grátis por mês
Conversão de Texto em Fala com Fonte de Voz Personalizada 5 milhões de caracteres grátis por mês
Conversão de Texto em Fala com Vozes Neurais 0,5 milhão de caracteres grátis por mês
Hospedagem de Fonte de Voz Personalizada1 1 modelo grátis por mês
Padrão 20 solicitações simultâneas Tradução de Fala $- por hora
Conversão de Fala em Texto $- por hora
Conversão de Fala em Texto com Modelo de Fala Personalizado $- por hora
Hospedagem de Ponto de Extremidade de Fala $-/modelo/mês
Conversão de Texto em Fala com Vozes Standard $- por um milhão de caracteres
Conversão de Texto em Fala com Fonte de Voz Personalizada $- por um milhão de caracteres
Conversão de Texto em Fala com Vozes Neurais $- por um milhão de caracteres2
Hospedagem de Fonte de Voz Personalizada $-/modelo/mês
1Modelos não usados serão automaticamente desativados após 7 dias.
2Este é um preço de versão prévia pública para Conversão de Texto em Fala com Vozes Neurais.

Suporte e Contrato de Nível de Serviço

  • Suporte gratuito para gerenciamento de cobrança e assinaturas está incluso.
  • Garantimos que os Serviços Cognitivos em execução na camada Standard estarão disponíveis durante, pelo menos, 99,9% do tempo. Nenhum SLA é fornecido para a avaliação gratuita. Leia o SLA.

Perguntas Frequentes

Serviços de Fala

    • Para Tradução de Fala, Conversão de Fala em Texto e Conversão de Fala em Texto com Modelo de Fala Personalizado: o uso é cobrado por incrementos de um segundo
    • Para Conversão de Texto em Fala e Conversão de Texto em Fala com Fonte de Voz Personalizada: o uso é cobrado por caractere
    • Para Hospedagem de Modelo de Fala Personalizado e Hospedagem de Fonte de Voz Personalizada: o uso é cobrado por dia
  • O serviço de Fala permite que os usuários adaptem modelos de linha de base com base em seus próprios dados acústicos e de linguagem, levando a modelos de fala personalizados que podem ser usados tanto em Conversão de Fala em Texto quanto em Tradução de Fala.

  • O modelo de linguagem é uma distribuição de probabilidade por sequências de palavras. O modelo de linguagem ajuda o sistema a decidir entre sequências de palavras que soam parecidas, com base na probabilidade das próprias sequências de palavras. Por exemplo, “reconhecer fala” e “amolecer bala” soam parecido, mas a primeira hipótese é muito mais provável de ocorrer e, portanto, terá atribuída a ela uma pontuação mais elevada pelo modelo de linguagem. Se você espera que consultas de voz para seu aplicativo contenham itens de vocabulário específicos, como nomes de produto ou jargões que raramente ocorrem na fala comum, é provável que você possa obter desempenho aprimorado personalizando o modelo de linguagem. Por exemplo, se você está compilando um aplicativo para pesquisar o MSDN por voz, é provável que termos como “orientado a objeto” ou “namespace” ou “dot net” apareçam com mais frequência do que em aplicativos de voz típicos. Personalizar o modelo de linguagem permitirá que o sistema aprenda isso.

  • O modelo acústico é um classificador que rotula fragmentos de áudio curtos em um de diversos fonemas ou unidades sonoras em cada linguagem. Esses fonemas podem então ser costurados para formar palavras. Por exemplo, a palavra “speech” é composta de quatro fonemas, “s p iy ch”. Essas classificações são feitas aproximadamente 100 vezes por segundo. Personalizar o modelo acústico pode permitir que o sistema aprenda a reconhecer melhor a fala em ambientes atípicos. Por exemplo, se você tiver um aplicativo projetado para ser usado por trabalhadores em um depósito ou fábrica, um modelo acústico personalizado poderá reconhecer fala de modo mais preciso na presença dos ruídos encontrados nesses ambientes.

  • Os Serviços de Fala da Microsoft fornecem mais de 70 vozes padrão (também conhecidas como fontes de voz) em mais de 40 idiomas para ajudar você a converter seu texto em áudio. No entanto, com a ascensão de assistentes virtuais e de vários aplicativos habilitados para fala, muitas empresas gostariam de ter uma voz única que representasse seus negócios e fosse cuidadosamente projetada para sua própria identidade de marca. Por exemplo, se você estiver desenvolvendo um chatbot para o seu serviço de atendimento ao cliente, poderá associá-lo a uma voz de marca exclusiva da sua empresa para desenvolver o vínculo do cliente. Da mesma forma, um desenvolvedor de software de navegação automotiva pode habilitar a Conversão de Texto em Fala com diferentes vozes personalizadas para enriquecer a experiência do usuário.

    Com o Voice Studio, o portal de criação de vozes personalizadas, isso é fácil. Usando seus próprios dados de áudio (voz humana gravada com seus scripts associados), você pode gerar uma fonte de voz personalizada que será implantada no serviço de Conversão de Texto em Fala da Microsoft e pode ser facilmente conectada a seus aplicativos com um ponto de extremidade da API para seu próprio uso.

Geral

  • As APIs de Pesquisa do Bing são cobradas com base no número de transações (também conhecidas como chamadas à API). Esses planos são pagos conforme o uso e não estão sujeitos a custos adicionais para consultas complexas e mais de 10 resultados (até 50 resultados na maioria dos casos).

  • Caso você exceda o número de TPS (transações por segundo) mencionado, seu uso será restringido para se ajustar ao limite especificado. Se for necessário que seu aplicativo tenha um limite de TPS maior do que o mencionado nesta página, entre em contato com a equipe de suporte do Azure.

  • Para fins de cobrança, uma transação é uma solicitação de chamada à API do Bing com êxito (embora haja restrições para ataques de negação de serviço). Para fins de geração de registros e relatórios, como para o Suplemento de Estatísticas do Bing, uma transação é qualquer chamada à API do Bing, independentemente de ter sido realizada com êxito ou não.

  • Você pode alterar a camada de serviço a qualquer momento. Certifique-se de utilizar as chaves apropriadas em suas chamadas à API. Caso tenha um Contrato Enterprise com a Microsoft, entre em contato com seu executivo de contas.

Recursos

Faça a estimativa de seus custos mensais com os serviços do Azure

Verifique as perguntas frequentes sobre preços do Azure

Saiba mais sobre Serviços Cognitivos

Consulte tutoriais técnicos, vídeos e outros recursos

Adicionado à estimativa. Pressione ‘v’ para exibir na calculadora Exibir na calculadora

Aprenda e crie com $200 de crédito e continue gratuitamente