Preços dos Serviços Cognitivos – Serviços de Fala

Use APIs de inteligência para habilitar a visão, a linguagem e as funcionalidades de pesquisa.

Os serviços de Fala unificados fornecem uma ampla gama de funcionalidades de reconhecimento e geração de fala, incluindo transcrição de fala, conversão de texto em fala e tradução de fala. O serviço de Fala fornece uma ampla gama de funcionalidades de reconhecimento e geração de fala, incluindo transcrição de fala, conversão de texto em fala, tradução de fala e reconhecimento do locutor.

Detalhes dos preços

Instância Categoria Recursos Preço
Gratuito - Web/Contêiner
1 solicitação simultânea1
Conversão de Fala em Texto Padrão 5 horas de áudio gratuitas por mês
Personalizado 5 horas de áudio gratuitas por mês
Hospedagem de ponto de extremidade: 1 modelo gratuito por mês 2
Áudio Multicanal de Transcrição de Conversas VISUALIZAÇÃO 3 5 horas de áudio gratuitas por mês
Conversão de Texto em Fala Padrão 5 million caracteres gratuitos por mês
Neural 0.5 million caracteres gratuitos por mês
Personalizado 5 million caracteres gratuitos por mês
Hospedagem de ponto de extremidade: 1 modelo gratuito por mês
Tradução de Fala Padrão 5 horas de áudio gratuitas por mês
Reconhecimento do Locutor7 Verificação do Locutor 10,000transações gratuitas por mês
Identificação do Locutor 10,000transações gratuitas por mês
Padrão - Web/Contêiner
20 solicitação simultânea 1
Conversão de Fala em Texto Padrão $- por hora de áudio
Personalizado $- por hora de áudio
Hospedagem de ponto de extremidade: $- por modelo por hora
Áudio Multicanal de Transcrição de Conversas VISUALIZAÇÃO 3 $- por hora de áudio 4
Conversão de Texto em Fala Padrão $- por 1 milhão de caracteres
Neural $- por 1 milhão de caracteres 5
Criação de áudio longo: $- por 1 milhão de caracteres
Personalizado $- por 1 milhão de caracteres
Hospedagem de ponto de extremidade: $- por modelo por hora
Criação de Sintetização de Voz VISUALIZAÇÃO 6 Personalizada: entre em contato conosco
Síntese em tempo real: $- por 1 milhão de caracteres
Hospedagem de ponto de extremidade: $- por modelo por hora
Criação de áudio longo: $- por 1 milhão de caracteres
Tradução de Fala Padrão $- por hora de áudio
Reconhecimento do Locutor7 Verificação do Locutor $- por 1,000 transações
Identificação do Locutor $- por 1,000 transações

1Para aumentar as solicitações simultâneas, confira as instruções.

2Modelos não usados serão automaticamente desativados após 7 dias.

3O Multicanal de Transcrição de Conversas recomenda um dispositivo de matriz de microfone circular. Para saber mais, consulte o SDK de Dispositivo de Fala da Microsoft.

4Isso reflete o preço da versão prévia pública. O preço de GA será anunciado mais tarde na GA.

5Confira a documentação neural para as regiões nas quais a Conversão de Texto em Fala Neural está disponível.

6A funcionalidade de Sintetização de Voz Personalizada está na versão prévia restrita. Saiba mais sobre o processo de restrição.

7Atualmente, o Reconhecimento do Locutor está disponível apenas no Oeste dos EUA. Selecione "Oeste dos EUA" como Região para ver os preços do Reconhecimento do Locutor.

Suporte e Contrato de Nível de Serviço

  • Suporte gratuito para gerenciamento de cobrança e assinaturas está incluso.
  • Garantimos que os Serviços Cognitivos em execução na camada Standard estarão disponíveis durante, pelo menos, 99,9% do tempo. Nenhum SLA é fornecido para a avaliação gratuita. Leia o SLA.

Perguntas Frequentes

    • Para Tradução de Fala, Conversão de Fala em Texto e Conversão de Fala em Texto com Modelo de Fala Personalizada: o uso é cobrado por incrementos de um segundo.
    • Para Conversão de Texto em Fala e Conversão de Texto em Fala com Fonte de Voz Personalizada: o uso é cobrado por caractere.
    • Para Hospedagem de Modelo de Fala Personalizada: o uso é cobrado por hora. Para Hospedagem de Fonte de Voz Personalizada: o uso é cobrado por dia.
    • Para Comandos Personalizados: a cobrança é controlada como consumo de Conversão de Fala em Texto, Conversão de Texto em Fala e Reconhecimento Vocal. Os Comandos Personalizados não introduzem novos medidores de cobrança.
  • O serviço de Fala permite que os usuários adaptem modelos de linha de base com base em seus próprios dados acústicos e de linguagem, levando a modelos de fala personalizados que podem ser usados tanto em Conversão de Fala em Texto quanto em Tradução de Fala.

  • O modelo de linguagem é uma distribuição de probabilidade por sequências de palavras. O modelo de linguagem ajuda o sistema a decidir entre sequências de palavras que soam parecidas, com base na probabilidade das próprias sequências de palavras. Por exemplo, “reconhecer fala” e “amolecer bala” soam parecido, mas a primeira hipótese é muito mais provável de ocorrer e, portanto, terá atribuída a ela uma pontuação mais elevada pelo modelo de linguagem. Se você espera que consultas de voz para seu aplicativo contenham itens de vocabulário específicos, como nomes de produto ou jargões que raramente ocorrem na fala comum, é provável que você possa obter desempenho aprimorado personalizando o modelo de linguagem. Por exemplo, se você está compilando um aplicativo para pesquisar o MSDN por voz, é provável que termos como “orientado a objeto” ou “namespace” ou “dot net” apareçam com mais frequência do que em aplicativos de voz típicos. Personalizar o modelo de linguagem permitirá que o sistema aprenda isso.

  • O modelo acústico é um classificador que rotula fragmentos de áudio curtos em um de diversos fonemas ou unidades sonoras em cada linguagem. Esses fonemas podem então ser costurados para formar palavras. Por exemplo, a palavra “speech” é composta de quatro fonemas, “s p iy ch”. Essas classificações são feitas aproximadamente 100 vezes por segundo. Personalizar o modelo acústico pode permitir que o sistema aprenda a reconhecer melhor a fala em ambientes atípicos. Por exemplo, se você tiver um aplicativo projetado para ser usado por trabalhadores em um depósito ou fábrica, um modelo acústico personalizado poderá reconhecer fala de modo mais preciso na presença dos ruídos encontrados nesses ambientes.

  • Os Serviços de Fala da Microsoft fornecem mais de 70 vozes padrão (também conhecidas como fontes de voz) em mais de 40 idiomas para ajudar você a converter seu texto em áudio. No entanto, com a ascensão de assistentes virtuais e de vários aplicativos habilitados para fala, muitas empresas gostariam de ter uma voz única que representasse seus negócios e fosse cuidadosamente projetada para sua própria identidade de marca. Por exemplo, se você estiver desenvolvendo um chatbot para o seu serviço de atendimento ao cliente, poderá associá-lo a uma voz de marca exclusiva da sua empresa para desenvolver o vínculo do cliente. Da mesma forma, um desenvolvedor de software de navegação automotiva pode habilitar a Conversão de Texto em Fala com diferentes vozes personalizadas para enriquecer a experiência do usuário.

    Com o Voice Studio, o portal de criação de vozes personalizadas, isso é fácil. Usando seus próprios dados de áudio (voz humana gravada com seus scripts associados), você pode gerar uma fonte de voz personalizada que será implantada no serviço de Conversão de Texto em Fala da Microsoft e pode ser facilmente conectada a seus aplicativos com um ponto de extremidade da API para seu próprio uso.

Recursos

Faça a estimativa de seus custos mensais com os serviços do Azure

Verifique as perguntas frequentes sobre preços do Azure

Saiba mais sobre Serviços Cognitivos do Azure

Consulte tutoriais técnicos, vídeos e outros recursos

Adicionado à estimativa. Pressione ‘v’ para exibir na calculadora

Aprenda e crie com $200 de crédito e continue gratuitamente