Preços dos Serviços Cognitivos – Serviços de Voz

Utilize as APIs de informações para ativar as capacidades de visão, linguagem e pesquisa.

Os serviços de Voz unificados oferecem uma ampla variedade de funcionalidades de reconhecimento e geração de voz, incluindo transcrição de voz, conversão de texto em voz e tradução de voz.

Detalhes dos Preços

Conversão de Texto em Voz - o Neural tem agora disponibilidade geral. Os preços apresentados são preços de Disponibilidade Geral, que entram em vigor a 1 de julho de 2019. Até 30 de junho de 2019, será cobrada com 50% de desconto.

O contentor de voz está em pré-visualização pública.

Instância Categoria Funcionalidades Preço
Gratuito - Web/Contentor
1 pedido simultâneo1
Conversão de Voz em Texto Standard 5 horas de áudio gratuitas por mês
Personalizados 5 horas de áudio gratuitas por mês
Alojamento de pontos finais: 1 modelo gratuito por mês 2
Áudio Multicanal de Transcrição de Conversas PRÉ-VISUALIZAÇÃO 3 5 horas de áudio gratuitas por mês
Conversão de Texto em Voz Standard 5 milhões de carateres gratuitos por mês
Neural 0.5 milhões de carateres gratuitos por mês
Personalizados 5 milhões de carateres gratuitos por mês
Alojamento de pontos finais: 1 modelo gratuito por mês
Tradução de Voz Standard 5 horas de áudio gratuitas por mês
Standard - Web/Contentor
20 pedido simultâneo 1
Conversão de Voz em Texto Standard $- por hora de áudio
Personalizados $- por hora de áudio
Alojamento de pontos finais: $- por modelo por hora
Áudio Multicanal de Transcrição de Conversas PRÉ-VISUALIZAÇÃO 3 $- por hora de áudio 4
Conversão de Texto em Voz Standard $- por um milhão de carateres
Neural $- por um milhão de carateres 5
Personalizados $- por um milhão de carateres
Alojamento de pontos finais: $- por modelo por mês
Neural Personalizada PRÉ-VISUALIZAÇÃO 6 Sintetização em tempo real: $- por um milhão de carateres
Compilação de voz: contacte-nos
Alojamento de pontos finais: $- por modelo por hora
Criação de áudio longo: $- por um milhão de carateres
Tradução de Voz Standard $- por hora de áudio

1Pedidos em simultâneo aplicados a pontos finais web apenas.

2Os modelos não utilizados vão ser encerrados automaticamente após 7 dias.

3A Transcrição de Conversas Multicanal recomenda um dispositivo-matriz de microfone circular. Para mais informações, pode consultar o SDK de Dispositivos de Voz Microsoft.

4Encontram-se refletidos os preços de pré-visualização pública. O preço de disponibilidade geral será anunciado mais tarde, quando o serviço tiver disponibilidade geral.

5Os preços apresentados são preços de Disponibilidade Geral, que entram em vigor a 1 de julho de 2019. Até 30 de junho de 2019, a TTS Neural será cobrada com 50% de desconto. Consulte a documentação neural para as regiões onde a Conversão de Texto em Voz Neural está disponível.

6A funcionalidade Voz Neural Personalizada está em pré-visualização controlada. Obtenha mais informações sobre o processo de controlo.

Suporte e SLA

  • A faturação gratuita e apoio à gestão da subscrição estão incluídas.
  • Garantimos que os Serviços Cognitivos em execução no escalão standard estarão disponíveis, pelo menos, 99,9% do tempo. Não é fornecido um SLA para a avaliação gratuita. Ler o SLA

FAQ

    • Para Tradução de Voz, Conversão de Voz em Texto e Conversão de Voz em Texto com Modelo de Voz Personalizada: a utilização é cobrada em incrementos de um segundo
    • Para Conversão de Texto em Voz e Conversão de Texto em Voz com Tipo de Voz Personalizada: a utilização é cobrada por caráter
    • Para Alojamento de Modelo de Voz Personalizada: utilização cobrada à hora; Para Alojamento de Tipo de Voz Personalizada: utilização cobrada ao dia.
  • O serviço de Voz permite aos utilizadores adaptarem os modelos da linha de base com base nos seus próprios dados acústicos e de linguagem, conduzindo a modelos de voz personalizada que podem ser utilizados na Conversão de Voz em Texto e na Tradução de Voz.

  • O modelo de idioma é uma distribuição de probabilidade sobre sequências de palavras. O modelo de idioma ajuda o sistema a decidir entre sequências de palavras que soam de forma semelhante, com base na probabilidade das próprias sequências de palavras. Por exemplo, “recognize speech” e “wreck a nice beach” soam de forma parecida, mas a primeira hipótese é muito mais provável de ocorrer e, portanto, será atribuída uma melhor classificação pelo modelo do idioma. Se espera que as consultas de voz na sua aplicação contenham itens de vocabulário particulares, como nomes de produtos ou gíria, que ocorrem raramente no discurso habitual, é provável que consiga obter um melhor desempenho ao personalizar o modelo de idioma. Por exemplo, se estava a criar uma aplicação para pesquisar o MSDN por voz, é provável que termos como “orientado por objetos” ou “espaço de nomes” ou “ponto net” apareçam com mais frequência do que em aplicações de discurso habitual. A personalização do modelo de idioma irá permitir que o sistema aprenda isto.

  • O modelo acústico é um classificador que rotula fragmentos curtos de áudio num de vários fonemas, ou unidades de som, em cada idioma. Estes fonemas podem ser unidos para formar palavras. Por exemplo, a palavra “speech” é constituída por quatro fonemas “s p iy ch”. Estas classificações são feitas na ordem de 100 vezes por segundo. A personalização do modelo acústico pode permitir que o sistema aprenda a melhorar o reconhecimento de voz em ambientes atípicos. Por exemplo, se tem uma aplicação concebida para ser utilizada por trabalhadores num armazém ou numa fábrica, um modelo acústico personalizado pode reconhecer com mais precisão a voz na presença dos ruídos encontrados nestes ambientes.

  • Os Serviços de Voz da Microsoft oferecem mais de 70 vozes predefinidas (também conhecidas como tipos de vozes) em mais de 40 idiomas, para o ajudar a converter o seu texto em áudio. Com o aparecimento do assistente virtual e de várias aplicações com funcionalidade de voz, no entanto, muitas empresas gostariam de ter uma voz única que representasse os seus negócios e fosse cuidadosamente criada para a sua própria identidade da marca. Por exemplo, se estiver a desenvolver um chatbot para o serviço de atendimento ao cliente, pode associá-lo a uma voz única da marca da sua empresa para desenvolver uma ligação com o cliente. Da mesma forma, um programador de software de navegação no automóvel pode ativar a Conversão de Texto em Voz em diferentes vozes personalizadas para enriquecer a experiência do utilizador.

    Com o Voice Studio, o portal de criação de voz personalizada, é fácil de o fazer. Através dos próprios dados de áudio (voz humana gravada com os seus scripts associados), pode gerar um tipo de voz personalizada que será então implementada no serviço de Conversão de Texto em Voz da Microsoft e pode ser facilmente ligada às suas aplicações com um ponto final da API para utilização pessoal.

Recursos

Calcule o custo mensal dos serviços Azure

Reveja as perguntas mais frequentes sobre os preços do Azure

Saiba mais sobre Serviços Cognitivos

Reveja tutoriais técnicos, vídeos e outros recursos

Adicionar à estimativa. Prima "v" para ver na calculadora

Aprender e criar com um crédito de $200, e continuar gratuitamente