Preços dos Serviços Cognitivos – Serviços de Voz

Utilize as APIs de informações para ativar as capacidades de visão, linguagem e pesquisa.

Os serviços de Voz unificados oferecem uma ampla variedade de funcionalidades de reconhecimento e geração de voz, incluindo transcrição de voz, conversão de texto em voz e tradução de voz. O serviço de Voz oferece uma ampla variedade de capacidades de reconhecimento e geração de voz, incluindo transcrição de voz, conversão de texto em voz, tradução de voz e reconhecimento de orador.

Detalhes dos Preços

Instância Categoria Funcionalidades Preço
Gratuito - Web/Contentor
1 pedido simultâneo1
Conversão de Voz em Texto Standard 5 horas de áudio gratuitas por mês
Personalizados 5 horas de áudio gratuitas por mês
Alojamento de pontos finais: 1 modelo gratuito por mês 2
Áudio Multicanal de Transcrição de Conversas PRÉ-VISUALIZAÇÃO 3 5 horas de áudio gratuitas por mês
Conversão de Texto em Voz Standard 5 milhões de carateres gratuitos por mês
Neural 0.5 milhões de carateres gratuitos por mês
Personalizados 5 milhões de carateres gratuitos por mês
Alojamento de pontos finais: 1 modelo gratuito por mês
Tradução de Voz Standard 5 horas de áudio gratuitas por mês
Reconhecimento de Orador7 Verificação de Orador 10,000 Transações gratuitas por mês
Identificação de Orador 10,000 Transações gratuitas por mês
Standard - Web/Contentor
20 pedido simultâneo 1
Conversão de Voz em Texto Standard $- por hora de áudio
Personalizados $- por hora de áudio
Alojamento de pontos finais: $- por modelo por hora
Áudio Multicanal de Transcrição de Conversas PRÉ-VISUALIZAÇÃO 3 $- por hora de áudio 4
Conversão de Texto em Voz Standard $- por um milhão de carateres
Neural $- por um milhão de carateres 5
Criação de áudio longo: $- por um milhão de carateres
Personalizados $- por um milhão de carateres
Alojamento de pontos finais: $- por modelo por hora
Neural Personalizada PRÉ-VISUALIZAÇÃO 6 Compilação de voz: contacte-nos
Sintetização em tempo real: $- por um milhão de carateres
Alojamento de pontos finais: $- por modelo por hora
Criação de áudio longo: $- por um milhão de carateres
Tradução de Voz Standard $- por hora de áudio
Reconhecimento de Orador7 Verificação de Orador $- por 1,000 transações
Identificação de Orador $- por 1,000 transações

1Pedidos em simultâneo aplicados a pontos finais web apenas.

2Os modelos não utilizados vão ser encerrados automaticamente após 7 dias.

3A Transcrição de Conversas Multicanal recomenda um dispositivo-matriz de microfone circular. Para mais informações, pode consultar o SDK de Dispositivos de Voz Microsoft.

4Encontram-se refletidos os preços de pré-visualização pública. O preço de disponibilidade geral será anunciado mais tarde, quando o serviço tiver disponibilidade geral.

5Consulte a documentação neural para as regiões onde a Conversão de Texto em Voz Neural está disponível.

6A funcionalidade Voz Neural Personalizada está em pré-visualização controlada. Obtenha mais informações sobre o processo de controlo.

7Atualmente, o Reconhecimento de Orador só está disponível nos E.U.A. Oeste. Para ver os preços do Reconhecimento de Orador, selecione "E.U.A. Oeste" como a Região.

Suporte e SLA

  • A faturação gratuita e apoio à gestão da subscrição estão incluídas.
  • Garantimos que os Serviços Cognitivos em execução no escalão standard estarão disponíveis, pelo menos, 99,9% do tempo. Não é fornecido um SLA para a avaliação gratuita. Ler o SLA

FAQ

    • Para Tradução de Voz, Conversão de Voz em Texto e Conversão de Voz em Texto com Modelo de Voz Personalizada: a utilização é faturada em incrementos de um segundo.
    • Para Conversão de Texto em Voz e Conversão de Texto em Voz com Tipo de Voz Personalizada: a utilização é faturada por caráter.
    • Para Alojamento de Modelo de Discurso Personalizado: utilização cobrada à hora; Para Alojamento de Tipo de Voz Personalizada: utilização cobrada ao dia.
    • Para Comandos Personalizados: a faturação é controlada como consumo de Conversão de Voz em Texto, Conversão de Texto em Voz e Language Understanding. Os Comandos Personalizados não introduzem novos medidores de faturação.
  • O serviço de Voz permite aos utilizadores adaptarem os modelos da linha de base com base nos seus próprios dados acústicos e de linguagem, conduzindo a modelos de discurso personalizado que podem ser utilizados na Conversão de Voz em Texto e na Tradução de Voz.

  • O modelo de idioma é uma distribuição de probabilidade sobre sequências de palavras. O modelo de idioma ajuda o sistema a decidir entre sequências de palavras que soam de forma semelhante, com base na probabilidade das próprias sequências de palavras. Por exemplo, “recognize speech” e “wreck a nice beach” soam de forma parecida, mas a primeira hipótese é muito mais provável de ocorrer e, portanto, será atribuída uma melhor classificação pelo modelo do idioma. Se espera que as consultas de voz na sua aplicação contenham itens de vocabulário particulares, como nomes de produtos ou gíria, que ocorrem raramente no discurso habitual, é provável que consiga obter um melhor desempenho ao personalizar o modelo de idioma. Por exemplo, se estava a criar uma aplicação para pesquisar o MSDN por voz, é provável que termos como “orientado por objetos” ou “espaço de nomes” ou “ponto net” apareçam com mais frequência do que em aplicações de discurso habitual. A personalização do modelo de idioma irá permitir que o sistema aprenda isto.

  • O modelo acústico é um classificador que rotula fragmentos curtos de áudio num de vários fonemas, ou unidades de som, em cada idioma. Estes fonemas podem ser unidos para formar palavras. Por exemplo, a palavra “speech” é constituída por quatro fonemas “s p iy ch”. Estas classificações são feitas na ordem de 100 vezes por segundo. A personalização do modelo acústico pode permitir que o sistema aprenda a melhorar o reconhecimento de voz em ambientes atípicos. Por exemplo, se tem uma aplicação concebida para ser utilizada por trabalhadores num armazém ou numa fábrica, um modelo acústico personalizado pode reconhecer com mais precisão a voz na presença dos ruídos encontrados nestes ambientes.

  • Os Serviços de Voz da Microsoft oferecem mais de 70 vozes predefinidas (também conhecidas como tipos de vozes) em mais de 40 idiomas, para o ajudar a converter o seu texto em áudio. Com o aparecimento do assistente virtual e de várias aplicações com funcionalidade de voz, no entanto, muitas empresas gostariam de ter uma voz única que representasse os seus negócios e fosse cuidadosamente criada para a sua própria identidade da marca. Por exemplo, se estiver a desenvolver um chatbot para o serviço de atendimento ao cliente, pode associá-lo a uma voz única da marca da sua empresa para desenvolver uma ligação com o cliente. Da mesma forma, um programador de software de navegação no automóvel pode ativar a Conversão de Texto em Voz em diferentes vozes personalizadas para enriquecer a experiência do utilizador.

    Com o Voice Studio, o portal de criação de voz personalizada, é fácil de o fazer. Através dos próprios dados de áudio (voz humana gravada com os seus scripts associados), pode gerar um tipo de voz personalizada que será então implementada no serviço de Conversão de Texto em Voz da Microsoft e pode ser facilmente ligada às suas aplicações com um ponto final da API para utilização pessoal.

Recursos

Calcule o custo mensal dos serviços Azure

Reveja as perguntas mais frequentes sobre os preços do Azure

Saiba mais sobre o Serviços Cognitivos

Reveja tutoriais técnicos, vídeos e outros recursos

Adicionar à estimativa. Prima "v" para ver na calculadora

Aprender e criar com um crédito de $200, e continuar gratuitamente