Preço de Serviços Cognitivos – VISUALIZAÇÃO do Serviço de Fala Personalizado

Use as APIs de inteligência para habilitar capacidades de visão, fala, linguagem e conhecimento

O Serviço de Fala Personalizado permite que você crie modelos de reconhecimento de fala e implante-os em um ponto de extremidade de fala para texto que é ajustado para o seu aplicativo. Com o Serviço de Fala Personalizado, você pode personalizar o modelo de linguagem do reconhecedor de fala de modo que ele aprenda o vocabulário de seu aplicativo e o estilo de fala de seus usuários. Você também pode personalizar o modelo acústico do reconhecedor de fala para corresponder melhor ao ambiente e população de usuários esperados do aplicativo.

Detalhes de preços

A adaptação de modelo é gratuita.

Gratuito S1
Implantações de Modelo Modelo 1 $-/modelo/mês
Adaptação de Modelo 3 horas/mês Ilimitado
Testes de Precisão 2 horas/mês 2 horas gratuitas e, depois, $-/hora
Expansão N/D $-/unidade/dia, em que cada unidade permite que você envie cinco solicitações simultâneas
Sem rastreamento N/D $-/modelo/mês
Preço de solicitação 2 horas/mês 2 horas gratuitas e, depois, $-/hora

Suporte e Contrato de Nível de Serviço

  • Suporte gratuito para gerenciamento de cobrança e assinaturas está incluso.
  • Precisa de assistência técnica para os serviços de visualização? Use nossos fóruns.
  • Garantimos que os Serviços Cognitivos em execução na camada Standard estarão disponíveis durante, pelo menos, 99,9% do tempo. Nenhum SLA é fornecido para a camada gratuita. Leia o SLA.
  • Não há SLA durante o período de visualização. Saiba mais.

Perguntas Frequentes

Serviço de Fala Personalizado

  • A camada 1 pode processar até quatro fragmentos de áudio (ou seja, quatro transcrições) simultaneamente e, ainda assim, responder em tempo real. Se o usuário enviar mais de quatro fragmentos simultâneos de áudio, cada fragmento subsequente de áudio será rejeitado e enviado de volta com um código de erro indicando excesso de reconhecimentos simultâneos. O mesmo se aplica à Camada 2, em que 12 transcrições simultâneas podem ser processadas. A Camada Gratuita oferece uma transcrição simultânea. Presume-se que o áudio será carregado em tempo real. Se o áudio for carregado mais rapidamente, para fins de simultaneidade, ainda se presumirá que a solicitação está em andamento até que a duração do áudio tenha transcorrido (embora o resultado do reconhecimento possa ser enviado de volta mais cedo).

    Observação: se um nível mais elevado de simultaneidade for necessário, contate-nos.

  • O modelo de linguagem é uma distribuição de probabilidade por sequências de palavras. O modelo de linguagem ajuda o sistema a decidir entre sequências de palavras que soam parecidas, com base na probabilidade das próprias sequências de palavras. Por exemplo, “reconhecer fala” e “amolecer bala” soam parecido, mas a primeira hipótese é muito mais provável de ocorrer e, portanto, terá atribuída a ela uma pontuação mais elevada pelo modelo de linguagem. Se você espera que consultas de voz para seu aplicativo contenham itens de vocabulário específicos, como nomes de produto ou jargões que raramente ocorrem na fala comum, é provável que você possa obter desempenho aprimorado personalizando o modelo de linguagem. Por exemplo, se você está compilando um aplicativo para pesquisar o MSDN por voz, é provável que termos como “orientado a objeto” ou “namespace” ou “dot net” apareçam com mais frequência do que em aplicativos de voz típicos. Personalizar o modelo de linguagem permitirá que o sistema aprenda isso.

  • O modelo acústico é um classificador que rotula fragmentos de áudio curtos em um de diversos fonemas ou unidades sonoras em cada linguagem. Esses fonemas podem então ser costurados para formar palavras. Por exemplo, a palavra “speech” é composta de quatro fonemas, “s p iy ch”. Essas classificações são feitas aproximadamente 100 vezes por segundo. Personalizar o modelo acústico pode permitir que o sistema aprenda a reconhecer melhor a fala em ambientes atípicos. Por exemplo, se você tiver um aplicativo projetado para ser usado por trabalhadores em um depósito ou fábrica, um modelo acústico personalizado poderá reconhecer fala de modo mais preciso na presença dos ruídos encontrados nesses ambientes.

  • O reconhecimento de Frase Curta dá suporte a declarações de até 15 segundos de duração. Quando usado com a biblioteca do Cliente de Fala, conforme os dados são enviados ao servidor, o cliente recebe vários resultados parciais e um resultado final com as múltiplas N melhores escolhas.

  • O reconhecimento de Ditado Longo dá suporte a declarações de até dois minutos de duração. Quando usado com a biblioteca do Cliente de Fala, conforme os dados são enviados ao servidor, o cliente recebe vários resultados parciais e vários resultados finais, com base nos pontos em que o servidor indica que estão as pausas nas sentenças.

  • Por exemplo, se um cliente utilizar a camada S1 para processar um milhão de transcrições, o preço da camada será cobrado dele ($-), as primeiras 100,000 transcrições serão cobradas a $- por 1,000 transcrições e as 900,000 transcrições restantes serão cobradas a $- por 1,000 transcrições. Portanto, na realidade, $- + 100,000 * ($- / 1,000) + 900,000 * ($- / 1,000) = $4500 será cobrado do cliente.

  • Veja as informações sobre o Serviço de Fala Personalizado na página da Web dos Serviços Cognitivos da Microsoft e no site do Serviço de Fala Personalizado, www.cris.ai.

  • A implantação de modelos personalizados é o processo de encapsular um modelo personalizado e, em seguida, expô-lo como um serviço. O modelo personalizado implantado resultante expõe um ponto de extremidade através do qual ele pode ser acessado. Os usuários podem optar por implantar tantos modelos quantos precisarem.

  • O Serviço de Fala Personalizado permite que os usuários adaptem modelos de linha de base com base em seus próprios dados acústicos e de idioma. Chamamos esse processo de personalização de modelo.

  • Quando um modelo personalizado é criado, os usuários têm a opção de carregar dados de teste para avaliar o modelo recém-criado. Os usuários podem testar os novos modelos personalizados com tantos dados quantos forem necessários, ou seja, executar testes de precisão ilimitados.

  • Quando um modelo personalizado é implantado, o URI desse modelo pode processar uma solicitação de áudio por vez. Para cenários que enviam mais de uma solicitação de áudio simultaneamente para esse URI, os usuários podem optar por escalar horizontalmente a uma taxa de cinco solicitações simultâneas por vez. Isto é alcançado através da aquisição de unidades de escala. Cada unidade de escala garante até cinco solicitações simultâneas de áudio a um custo de $200 por unidade de escala. Por exemplo, se um usuário pretender atingir esse ponto de extremidade com 23 solicitações de áudio simultâneas, o usuário precisará comprar cinco unidades de escala para assegurar até 25 solicitações simultâneas.

  • O gerenciamento de log permite que os usuários desativem o registro em log para seus modelos implantados. Os usuários preocupados com a privacidade podem optar por desativar o registro em log de um modelo implantado a uma taxa de $20 por mês.

  • O preço de solicitação refere-se ao custo de processamento de solicitações de áudio pelo ponto de extremidade de um modelo personalizado implantado.

Geral

  • The Emotion API, Face API, Language Understanding Intelligent Service API, Bing Speech-to-Text API, and Bing Text-to-Speech API are billed per 1.000 API transaction calls when a production API call is being actively executed. Billing is prorated for production API transaction call quantities.

    The Bing Long Form Speech API service is billed per hour of speech that is analyzed. The billing is prorated on a per-minute basis.

    The Recommendations API and Text Analytics API can be purchased in units of the standard tiers at a fixed price. Each unit of a tier comes with included quantities of API transactions. If the user exceeds the included quantities, overages are charged at the rate specified in the pricing table above. These overages are prorated, and the service is billed on a monthly basis. The included quantities in a tier are reset each month.

  • O uso ficará restrito se o limite de transações for atingido na camada gratuita. Os clientes não poderão acumular excedentes na Camada gratuita.

  • Any annotation to a document counts as a transaction. Batch scoring calls will also take into consideration the number of documents that need to be scored in that transaction. So for instance, if 1.000 documents are sent for sentiment analysis in a single API call, that will count for 1.000 transactions. If an API supports more than one annotation operation, that will also be considered. Let’s say an API call performs both sentiment analysis and key-phrase extraction on 1.000 documents, that will count for 2.000 transactions (2 annotations * 1.000 documents).

  • Se o uso em uma camada Standard for excedido, a conta começará a acumular excedentes. Esses excedentes são cobrados mensalmente e calculados com a taxa especificada para cada camada.

  • Qualquer chamada à API (com exceção das chamadas de pontuação de lote) contam como uma transação. As chamadas de pontuação de lote serão contadas com base no número de itens que precisam ser pontuados em uma transação.

  • O uso ficará restrito se o limite de transações for atingido na camada gratuita. Os clientes não poderão acumular excedentes na Camada gratuita. Não há suporte para pontuação de lote na camada gratuita.

  • A API de Recomendações pode ser adquirida em unidades das camadas standard por um preço fixo. Cada unidade de uma camada é fornecida com quantidades de transações de API incluídas. Se o usuário excede as quantidades incluídas, o excedente é cobrado de acordo com a tarifa especificada na tabela de preços acima. Esse excedente é dividido de maneira proporcional e o serviço é cobrado mensalmente. As quantidades incluídas em uma camada são reiniciadas a cada mês.

  • Você pode fazer a atualização para uma camada superior a qualquer momento. A tarifa de cobrança e as quantidades incluídas correspondentes à camada superior entrarão em vigor imediatamente.

  • Below table provides a list of available end-points for each API. The response for the same end-point of Bing Web Search API may vary depending on the Tier purchased. Refer to the next question for details.

    Included APIs Endpoints Available in Tiers
    API de Pesquisa da Web do Bing https://api.cognitive.microsoft.com/bing/v7.0/search S1-S8
    API de Pesquisa de Imagem do Bing https://api.cognitive.microsoft.com/bing/v7.0/images/search S1, S3, S7, S8
    API de Pesquisa de Notícias do Bing https://api.cognitive.microsoft.com/bing/v7.0/news/search S1, S5, S8
    API de Pesquisa de Vídeo do Bing https://api.cognitive.microsoft.com/bing/v7.0/videos/search S1, S4, S7, S8
    (Preview, EN-US Only)
    https://api.cognitive.microsoft.com/bing/v7.0/entities S1, S6
    Bing Autosuggest API https://api.cognitive.microsoft.com/bing/v7.0/autosuggest S1, S2
    Bing Spell Check API https://api.cognitive.microsoft.com/bing/v7.0/spellcheck S1, S2
  • No, the Bing Web Search API is curtailed to meet specific offering of each Tier. For example, Tier S3 is meant for customers wanting to utilize only web search results and images in their applications. The customers also have an option of calling just a specific end point within a tier and their transactions will count against the overall bundle transactions (for example in Tier S3 a customer can just call Image API end point and make 400 transactions and can call Web Search API end point for 600 transactions and the total will be counted as 1.000 transactions).

  • No, both the APIs could potentially return different results even if you are only looking for images. For example, for a certain type of query, Bing Web Search API may return a combination of web results, videos, news but may not return images. However, for the same query, Bing Image Search API may return images.

  • Tiers are priced based on the number of transactions. As an example, for Tier S3, price per 1.000 transactions is $4. At the end of billing period if 12.000 transactions are logged for the Bing Web Search API and 1.000 transactions are logged for the Bing Image Search API, then you will have billed for $52 calculated as $4*(13.000/1.000).

  • Bing Spell Check and Bing Autosuggest APIs are billed at 25.000 transactions increment in Tier S1. Whereas, other APIs are billed at 1.000 transactions increment in Tier S1.

    For example, if you are subscribed to Tier S1 and at the end of the billing period 15.000 transactions are logged for the Bing Web Search API, 3.000 transactions logged for Bing Video Search API, and 25.000 for Bing Autosuggest API. In this case, the approximate bill would be $133 calculated by $7*((15.000+3.000)/1.000) + $7*(25.000/25.000).

    Note: For billing, only the end-point is considered and not the requested response. For example, calling the Bing Web Search API only for image response will be counted towards the Bing Web Search API and not towards the Bing Image Search API.

Recursos

Faça a estimativa de seus custos mensais com os serviços do Azure

Verifique as perguntas frequentes sobre preços do Azure

Saiba mais sobre Cognitive Services

Consulte tutoriais técnicos, vídeos e outros recursos

Aprenda e crie com $200 de crédito e continue gratuitamente

Conta gratuita