Serviços de voz unificados para conversão de voz para texto, texto para voz e tradução de voz
Os serviços de Voz unificados oferecem uma ampla variedade de funcionalidades de reconhecimento e geração de voz, incluindo transcrição de voz, conversão de texto em voz e tradução de voz. O serviço de Voz oferece uma ampla variedade de capacidades de reconhecimento e geração de voz, incluindo transcrição de voz, conversão de texto em voz, tradução de voz e reconhecimento de orador.
Explorar opções de preços
Aplique filtros para personalizar as opções de preços à medida das suas necessidades.
Os preços são apenas estimativas e não têm o propósito de propostas de preços reais. Os preços reais podem variar dependendo do tipo de contrato estipulado com a Microsoft, da data de compra e da taxa de câmbio. Os preços são calculados com base em dólares americanos e convertidos utilizando as taxas de referência da Thomson Reuters atualizadas no primeiro dia de cada mês. Inicie sessão na calculadora de preços do Azure para ver os preços com base no seu programa/oferta atual com a Microsoft. Contacte um especialista em vendas do Azure para obter mais informações sobre preços ou para pedir um orçamento de preço. Para obter mais informações sobre preços do Azure, consulte as perguntas mais frequentes.
As entidades públicas dos E.U.A. são elegíveis para comprar serviços do Azure Government junto de um fornecedor de soluções de licenciamento sem compromisso financeiro inicial ou diretamente através de uma subscrição online pay as you go.
Importante — o preço em € é meramente uma referência; esta é uma transação internacional, pelo que o preço final está sujeito a taxas de câmbio e à inclusão de impostos sobre operações financeiras. Não será emitido um eNF.
As entidades públicas dos E.U.A. são elegíveis para comprar serviços do Azure Government junto de um fornecedor de soluções de licenciamento sem compromisso financeiro inicial ou diretamente através de uma subscrição online pay as you go.
Importante — o preço em € é meramente uma referência; esta é uma transação internacional, pelo que o preço final está sujeito a taxas de câmbio e à inclusão de impostos sobre operações financeiras. Não será emitido um eNF.
Gratuito (F0)
Categoria | Funcionalidades | Preço |
---|---|---|
Voz em Texto (faturação por segundo) |
Standard | 5 horas de áudio gratuitas por mês |
Personalizados |
5 horas de áudio gratuitas por mês Alojamento de pontos finais: 1 modelo gratuito por mês1 |
|
Áudio Multicanal de Transcrição de Conversas PRÉ-VISUALIZAÇÃO | 5 horas de áudio gratuitas por mês | |
Conversão de Texto em Voz (faturação por caráter) |
Neural | 0.5 million carateres gratuitos por mês |
Tradução de Voz (faturação por segundo) |
Standard | 5 horas de áudio gratuitas por mês |
Reconhecimento de Orador (faturação por transação) |
Verificação de Orador2 | 10,000 Transações gratuitas por mês |
Identificação de Orador2 | 10,000 Transações gratuitas por mês | |
Armazenamento do Perfil do Voice | 10,000 Transações gratuitas por mês |
Pay as You Go: pague apenas pelo que utilizar.
Categoria | Funcionalidades | Preço |
---|---|---|
Voz em Texto (faturação por segundo) |
Standard | $- por hora de áudio |
Personalizados |
$- por hora de áudio Alojamento de pontos finais: $- por modelo por hora |
|
Funcionalidades de suplemento melhoradas:
|
$- por hora de áudio por funcionalidade | |
Áudio Multicanal de Transcrição de Conversas PRÉ-VISUALIZAÇÃO | $- por hora de áudio1 | |
Conversão de Texto em Voz (faturação por caráter) |
Neural |
Síntese em tempo real e de lote: $- por 1 M
carateres Criação de áudio longo: $- por um milhão de carateres |
Neural Personalizada2 |
Preparação: $- por hora de computação, até $- por preparação Síntese em tempo real e de lote: $- por um milhão de carateres Alojamento de pontos finais: $- por modelo por hora Criação de áudio longo: $- por um milhão de carateres |
|
Tradução de Voz (faturação por segundo) |
Standard | $- por hora de áudio |
Reconhecimento de Orador (faturação por transação) |
Verificação de Orador3 | $- por 1,000 transações |
Identificação de Orador3 | $- por 1,000 transações | |
Armazenamento do Perfil do Voice | $- por 1,000 perfis de voz (10,000 perfis de voz gratuitos por mês) |
Camadas de Compromisso
Instância | Categoria | Funcionalidades | Preço (por mês) | Utilização excedida |
---|---|---|---|---|
Azure - Standard | Conversão de Voz em Texto | Standard | $- para 2,000 horas | $- por hora |
$- para 10,000 horas | $- por hora | |||
$- para 50,000 horas | $- por hora | |||
Personalizados | $- para 2,000 horas | $- por hora | ||
$- para 10,000 horas | $- por hora | |||
$- para 50,000 horas | $- por hora | |||
Conversão de Texto em Voz | Neural1 | $- para 80 M de carateres | $- por 1 M de carateres | |
$- para 400 M de carateres | $- por 1 M de carateres | |||
$- para 2,000 M de carateres | $- por 1 M de carateres | |||
Contentor ligado - Standard | Conversão de Voz em Texto | Standard | $- para 2,000 horas | $- por hora |
$- para 10,000 horas | $- por hora | |||
$- para 50,000 horas | $- por hora | |||
Personalizados | $- para 2,000 horas | $- por hora | ||
$- para 10,000 horas | $- por hora | |||
$- para 50,000 horas | $- por hora | |||
Conversão de Texto em Voz | Neural1 | $- para 80 M de carateres | $- por 1 M de carateres | |
$- para 400 M de carateres | $- por 1 M de carateres | |||
$- para 2,000 M de carateres | $- por 1 M de carateres | |||
Contentor Desligado | Conversão de Voz em Texto | Standard |
Inscreva-se para obter acesso
Saiba mais |
|
Personalizados |
Inscreva-se para obter acesso
Saiba mais |
|||
Conversão de Texto em Voz | Neural1 |
Inscreva-se para obter acesso
Saiba mais |
Estas funcionalidades estão a ser preteridas e apenas disponíveis para os clientes existentes usarem. Verifique os detalhes e aprenda a migrar para novas funcionalidades.
Instância | Categoria | Funcionalidades | Preço |
---|---|---|---|
Gratuito - Web/Contentor 1 pedido simultâneo |
Conversão de Texto em Voz | Standard | 5 million carateres gratuitos por mês |
Personalizados |
5 million carateres gratuitos por mês Alojamento de pontos finais: 1 modelo gratuito por mês |
||
Standard - Web/Contentor 100 pedidos simultâneos para o modelo Base 20 pedidos simultâneos para o modelo Personalizado |
Conversão de Texto em Voz | Standard | $- por um milhão de carateres |
Personalizados |
$- por um milhão de carateres Alojamento de pontos finais: $- por modelo por hora |
Preços e opções de compra do Azure

Entre em contacto direto connosco
Obtenha uma orientação dos preços do Azure. Compreenda os preços da sua solução cloud, saiba mais sobre a otimização de custos e solicite uma proposta personalizada.
Fale com um especialista em vendasVeja as formas de compra
Compre serviços do Azure através do site do Azure, de um representante da Microsoft ou de um parceiro do Azure.
Explore as suas opçõesRecursos adicionais
Serviços de Voz
Saiba mais sobre as funcionalidades e capacidades do Serviços de Voz.
Calculadora de preços
Faça uma estimativa dos seus custos mensais para utilizar qualquer combinação de produtos do Azure.
Documentação
Reveja tutoriais técnicos, vídeos e mais Serviços de Voz recursos.
Perguntas mais frequentes
-
- Para a Voz em Texto e a Tradução de Voz, a utilização é faturada em incrementos de um segundo.
- Para Conversão de Texto em Voz: a utilização é faturada por caráter. Veja a definição de caráter na nota de preços.
- Para a Voz em Texto e a Conversão de Texto em Voz, o alojamento de pontos finais para modelos personalizados é faturado por segundo e por modelo.
- Para Comandos Personalizados: a faturação é controlada como consumo de Conversão de Voz em Texto, Conversão de Texto em Voz e Language Understanding. Os Comandos Personalizados não introduzem novos medidores de faturação.
- A preparação de modelos da Voz em Texto não implica custos. Só existem custos para alojar pontos finais por modelo uma vez implementado e, em seguida, o custo por hora de áudio da Voz em Texto Personalizada.
-
O serviço de Voz permite aos utilizadores adaptarem os modelos da linha de base com base nos seus próprios dados acústicos e de linguagem, conduzindo a modelos de discurso personalizado que podem ser utilizados na Conversão de Voz em Texto e na Tradução de Voz.
-
O modelo de idioma é uma distribuição de probabilidade sobre sequências de palavras. O modelo de idioma ajuda o sistema a decidir entre sequências de palavras que soam de forma semelhante, com base na probabilidade das próprias sequências de palavras. Por exemplo, “recognize speech” e “wreck a nice beach” soam de forma parecida, mas a primeira hipótese é muito mais provável de ocorrer e, portanto, será atribuída uma melhor classificação pelo modelo do idioma. Se espera que as consultas de voz na sua aplicação contenham itens de vocabulário particulares, como nomes de produtos ou gíria, que ocorrem raramente no discurso habitual, é provável que consiga obter um melhor desempenho ao personalizar o modelo de idioma. Por exemplo, se estava a criar uma aplicação para pesquisar o MSDN por voz, é provável que termos como “orientado por objetos” ou “espaço de nomes” ou “ponto net” apareçam com mais frequência do que em aplicações de discurso habitual. A personalização do modelo de idioma irá permitir que o sistema aprenda isto.
-
O modelo acústico é um classificador que rotula fragmentos curtos de áudio num de vários fonemas, ou unidades de som, em cada idioma. Estes fonemas podem ser unidos para formar palavras. Por exemplo, a palavra “speech” é constituída por quatro fonemas “s p iy ch”. Estas classificações são feitas na ordem de 100 vezes por segundo. A personalização do modelo acústico pode permitir que o sistema aprenda a melhorar o reconhecimento de voz em ambientes atípicos. Por exemplo, se tem uma aplicação concebida para ser utilizada por trabalhadores num armazém ou numa fábrica, um modelo acústico personalizado pode reconhecer com mais precisão a voz na presença dos ruídos encontrados nestes ambientes.
-
O serviço de voz oferece um amplo conjunto de tipos de letra de voz de conversão de texto em voz (TTS); contudo, a voz neural personalizada permite-lhe criar a sua própria voz personalizada e que se adeque às suas necessidades e à sua marca. Leia o blogue para obter mais informações.
-
Language identification allows you to identify a switch in spoken language and transcribe speech accordingly. This can be applied in scenarios where the audio language is unknown, or when speaker(s) may speak multiple languages. Single Language Identification is available at no additional cost. Continuous Language Identification is an enhanced add-on feature. Visit docs to learn more.
Fale com um especialista em vendas para obter uma descrição detalhada dos preços do Azure. Compreenda os preços da sua solução cloud.
Obtenha serviços cloud gratuitos e um crédito de $200 para explorar o Azure durante 30 dias.