Tarification de Cognitive Services - Service vocal personnalisé VERSION PRÉLIMINAIRE

Utilisez les API d’intelligence pour activer les fonctionnalités de vision, de synthèse vocale, de langage et de connaissances

Le service vocal personnalisé vous permet de créer des modèles de reconnaissance vocale personnalisés, et de les déployer vers un point de terminaison de reconnaissance vocale spécialement adapté pour votre application. Le service vocal personnalisé vous permet de personnaliser le modèle linguistique du moteur de reconnaissance vocale de façon à ce que celui-ci apprenne le vocabulaire de votre application et le style d’élocution des utilisateurs. Vous pouvez également personnaliser le modèle acoustique du moteur de reconnaissance vocale afin qu’il corresponde mieux à l’environnement anticipé de l’application et à la population d’utilisateurs.

Détails des prix appliqués

L’adaptation de modèle est gratuite.

Gratuit S1
Déploiements de modèle Modèle 1 $-/modèle/mois
Adaptation de modèle 3 heures/mois Illimité
Tests de précision 2 heures/mois 2 heures gratuites, puis $-/heure
Montée en charge N/A $-/unité/jour où chaque unité vous permet d’envoyer cinq demandes simultanées
Sans trace N/A $-/modèle/mois
Demander les tarifs 2 heures/mois 2 heures gratuites, puis $-/heure

Support technique et contrat SLA

  • Un support gratuit est fourni pour la gestion de la facturation et des abonnements.
  • Vous avez besoin d’un support technique pour les services en version préliminaire ? Utilisez nos forums.
  • Nous garantissons que le service Cognitive Services exécuté dans le niveau Standard est disponible au moins 99,9 % du temps. Aucun contrat SLA n’est fourni pour le niveau Gratuit. Lire le contrat SLA.
  • Aucun contrat SLA pendant la période de version préliminaire. En savoir plus.

Forum Aux Questions

Service vocal personnalisé

  • Le Niveau 1 permet de traiter jusqu’à quatre éléments audio (soit quatre transcriptions) simultanément en continuant à répondre en temps réel. Si l’utilisateur envoie plus de quatre éléments audio simultanés, chacun des éléments audio subséquents est rejeté et renvoyé avec un code d’erreur indiquant un nombre trop important de reconnaissances simultanées. Il en va de même pour le Niveau 2 permettant de traiter simultanément 12 transcriptions. Le niveau Gratuit permet de traiter une seule transcription à la fois. Le signal audio est supposé être téléchargé en temps réel. Si le signal audio est téléchargé plus rapidement, à des fins de simultanéité, la demande est supposée être en cours jusqu’à la fin de la transmission du signal audio (même si le résultat de la reconnaissance peut être renvoyé plus tôt).

    Remarque : si vous avez besoin d’un niveau plus élevé de simultanéité, veuillez nous contacter.

  • Le modèle linguistique est une distribution de probabilité sur des séquences de mots. Le modèle linguistique aide le système à opérer un choix parmi des séquences de mots homophones, en se basant sur la probabilité des séquences de mots elles-mêmes. Par exemple, les groupes de mots « séquence vocale » et « c’est quand ce veau cale » se prononcent de la même manière mais, la première hypothèse étant sensiblement plus probable, le modèle linguistique lui attribue un score supérieur. Si vous vous attendez à ce que les requêtes vocales adressées à votre application contiennent des éléments de vocabulaire particuliers, tels que des noms de produits ou des mots de jargon technique rarement rencontrés dans un discours ordinaire, vous obtiendrez probablement de meilleures performances en personnalisant le modèle linguistique. Par exemple, imaginons que vous construisez une application pour rechercher sur MSDN à l’aide de la voix. Il est probable que des termes tels que « orienté objet » ou « espace de noms » apparaissent plus fréquemment que dans des applications vocales ordinaires. La personnalisation du modèle linguistique permet au système d’apprendre cela.

  • Le modèle acoustique est un classifieur qui étiquette de courts fragments audio en l’un des quelques phonèmes, ou unités sonores, de chaque langue. Ces phonèmes peuvent être assemblés pour former des mots. Par exemple, le mot « vocal » comprend cinq phonèmes : « v », « o », « k », « a » et « l ». Ces classifications sont effectuées une centaine de fois par seconde. Une personnalisation du modèle acoustique peut permettre au système d’effectuer une meilleure reconnaissance vocale dans un environnement atypique. Par exemple, si vous avez une application conçue pour être utilisée par des ouvriers travaillant dans un entrepôt ou un atelier, un modèle acoustique personnalisé peut reconnaître de façon plus précise le discours en présence des bruits rencontrés dans ces environnements.

  • Le reconnaissance de phrase courte prend en charge des énoncés d’une longueur maximale de 15 secondes. Lorsqu’elle est utilisée avec la bibliothèque cliente vocale, lorsque des données sont envoyées au serveur, le client reçoit plusieurs résultats partiels et un résultat final consistant en N choix multiples.

  • La reconnaissance de dictée longue prend en charge des énoncés d’une longueur pouvant atteindre deux minutes. Lorsqu’elle est utilisée avec la bibliothèque cliente vocale, lorsque des données sont envoyées au serveur, le client reçoit plusieurs résultats partiels et plusieurs résultats finaux, basés sur les emplacements où le serveur indique des pauses dans la phrase.

  • Par exemple, si un client utilise le niveau S1 pour traiter un million de transcriptions, il lui est facturé le prix du niveau ($-) : les 100,000 premières transcriptions sont facturées au prix de $- par 1,000 transcriptions, et les 900,000 transcriptions restantes au prix de $- par 1,000 transcriptions. Le client est donc facturé $- + 100,000 * ($- / 1,000) + 900,000 * ($- / 1,000) = $4500.

  • Veuillez consulter les informations relatives au Service vocal personnalisé sur la page web Microsoft Cognitive Services et sur le site web relatif au Service vocal personnalisé, www.cris.ai.

  • Le déploiement de modèle personnalisé consiste à emballer un modèle personnalisé, puis à l’exposer en tant que service. Le modèle personnalisé déployé qui en résulte expose un point de terminaison via lequel il est accessible. Les utilisateurs peuvent choisir de déployer autant de modèles que nécessaire.

  • Le service vocal personnalisé permet aux utilisateurs d’adapter des modèles de base en fonction de leurs propres données acoustiques et linguistiques. Nous appelons ce processus la personnalisation du modèle.

  • Lorsqu’un modèle personnalisé est créé, les utilisateurs ont la possibilité de charger des données de test pour évaluer le modèle nouvellement créé. Les utilisateurs peuvent tester les nouveaux modèles personnalisés avec autant de données qu’ils le souhaitent. Ils peuvent par exemple exécuter un nombre illimité de tests de précision.

  • Lorsqu’un modèle personnalisé a été déployé, son URI peut traiter une demande audio à la fois. Pour les scénarios qui envoient simultanément plusieurs demandes audio à cet URI, les utilisateurs peuvent choisir d’augmenter la taille des instances pour traiter cinq demandes simultanées à la fois. Pour cela, il faut acheter des unités d’échelle. Chaque unité d’échelle garantit jusqu’à cinq demandes audio simultanées au prix de $200 par unité d’échelle. Par exemple, si un utilisateur envisage de toucher ce point de terminaison avec 23 demandes audio en même temps, il devra acheter cinq unités d’échelle pour garantir jusqu’à 25 demandes simultanées.

  • La gestion des journaux permet aux utilisateurs de désactiver la journalisation pour leurs modèles déployés. Les utilisateurs préoccupés par la confidentialité peuvent décider de désactiver la journalisation pour un modèle déployé au tarif de $20 par mois.

  • La demande de tarif fait référence au coût du traitement des demandes audio par le point de terminaison d’un modèle personnalisé déployé.

Général

  • The Emotion API, Face API, Language Understanding Intelligent Service API, Bing Speech-to-Text API, and Bing Text-to-Speech API are billed per 1 000 API transaction calls when a production API call is being actively executed. Billing is prorated for production API transaction call quantities.

    The Bing Long Form Speech API service is billed per hour of speech that is analyzed. The billing is prorated on a per-minute basis.

    The Recommendations API and Text Analytics API can be purchased in units of the standard tiers at a fixed price. Each unit of a tier comes with included quantities of API transactions. If the user exceeds the included quantities, overages are charged at the rate specified in the pricing table above. These overages are prorated, and the service is billed on a monthly basis. The included quantities in a tier are reset each month.

  • L’utilisation est restreinte si la limite du nombre de transactions est atteinte sur le niveau gratuit. Les clients ne peuvent pas accumuler de suppléments sur le niveau gratuit.

  • Any annotation to a document counts as a transaction. Batch scoring calls will also take into consideration the number of documents that need to be scored in that transaction. So for instance, if 1 000 documents are sent for sentiment analysis in a single API call, that will count for 1 000 transactions. If an API supports more than one annotation operation, that will also be considered. Let’s say an API call performs both sentiment analysis and key-phrase extraction on 1 000 documents, that will count for 2 000 transactions (2 annotations * 1 000 documents).

  • If the usage on a standard tier is exceeded, the account starts to accrue overages. These overages are billed on a monthly basis, and are calculated at the rate specified for each tier.

  • Les appels d’API (sauf les appels de notation par lots) sont comptabilisés comme une transaction. Les appels de notation par lots sont comptabilisés sur la base du nombre d’éléments devant être notés dans la transaction en question.

  • L’utilisation est restreinte si la limite du nombre de transactions est atteinte sur le niveau gratuit. Les clients ne peuvent pas accumuler de suppléments sur le niveau gratuit. La notation par lots n’est pas prise en charge par le niveau Gratuit.

  • L’API Recommandations peut être achetée en unités des niveaux standard à prix fixe. Chaque unité d’un niveau est fournie avec des quantités incluses de transactions d’API. Si l’utilisateur dépasse les quantités incluses, des suppléments sont facturés au taux spécifié dans le tableau de tarification ci-dessus. Ces suppléments sont calculés de façon proportionnelle, et le service est facturé sur une base mensuelle. Les quantités incluses dans un niveau sont réinitialisées chaque mois.

  • Vous pouvez passer à un niveau supérieur à tout moment. Le tarif de facturation et les quantités incluses correspondant au niveau le plus élevé s’appliquent immédiatement.

Resources

Estimate your monthly costs for Azure services

Review Azure pricing frequently asked questions

Learn more about Cognitive Services

Review technical tutorials, videos, and more resources

Learn and build with $200 in credit, and keep going for free

Free account