Tarification de Cognitive Services - Service vocal personnalisé VERSION PRÉLIMINAIRE

Utilisez les API d’intelligence pour activer les fonctionnalités de vision, de synthèse vocale, de langage et de connaissances

Le service vocal personnalisé vous permet de créer des modèles de reconnaissance vocale personnalisés, et de les déployer vers un point de terminaison de reconnaissance vocale spécialement adapté pour votre application. Le service vocal personnalisé vous permet de personnaliser le modèle linguistique du moteur de reconnaissance vocale de façon à ce que celui-ci apprenne le vocabulaire de votre application et le style d’élocution des utilisateurs. Vous pouvez également personnaliser le modèle acoustique du moteur de reconnaissance vocale afin qu’il corresponde mieux à l’environnement anticipé de l’application et à la population d’utilisateurs.

Détails des prix appliqués

L’adaptation de modèle est gratuite.

Gratuit S2
Déploiements de modèle Modèle 1 $-/modèle/mois
Adaptation de modèle 3 heures/mois Illimité
Tests de précision 2 heures/mois 2 heures gratuites, puis $-/heure
Montée en charge N/A $-/unité/jour où chaque unité vous permet d’envoyer cinq demandes simultanées
Sans trace N/A $-/modèle/mois
Demander les tarifs 2 heures/mois 2 heures gratuites, puis $-/heure

Support technique et contrat SLA

  • Free billing and subscription management support are included.
  • Need tech support for preview services? Use our forums.
  • We guarantee that Cognitive Services running in the standard tier will be available at least 99.9 percent of the time. No SLA is provided for the free tier. Read the SLA.
  • No SLA during preview period. Learn more.

Forum Aux Questions

Service vocal personnalisé

  • Le Niveau 1 permet de traiter jusqu’à quatre éléments audio (soit quatre transcriptions) simultanément en continuant à répondre en temps réel. Si l’utilisateur envoie plus de quatre éléments audio simultanés, chacun des éléments audio subséquents est rejeté et renvoyé avec un code d’erreur indiquant un nombre trop important de reconnaissances simultanées. Il en va de même pour le Niveau 2 permettant de traiter simultanément 12 transcriptions. Le niveau Gratuit permet de traiter une seule transcription à la fois. Le signal audio est supposé être téléchargé en temps réel. Si le signal audio est téléchargé plus rapidement, à des fins de simultanéité, la demande est supposée être en cours jusqu’à la fin de la transmission du signal audio (même si le résultat de la reconnaissance peut être renvoyé plus tôt).

    Remarque : si vous avez besoin d’un niveau plus élevé de simultanéité, veuillez nous contacter.

  • Le modèle linguistique est une distribution de probabilité sur des séquences de mots. Le modèle linguistique aide le système à opérer un choix parmi des séquences de mots homophones, en se basant sur la probabilité des séquences de mots elles-mêmes. Par exemple, les groupes de mots « séquence vocale » et « c’est quand ce veau cale » se prononcent de la même manière mais, la première hypothèse étant sensiblement plus probable, le modèle linguistique lui attribue un score supérieur. Si vous vous attendez à ce que les requêtes vocales adressées à votre application contiennent des éléments de vocabulaire particuliers, tels que des noms de produits ou des mots de jargon technique rarement rencontrés dans un discours ordinaire, vous obtiendrez probablement de meilleures performances en personnalisant le modèle linguistique. Par exemple, imaginons que vous construisez une application pour rechercher sur MSDN à l’aide de la voix. Il est probable que des termes tels que « orienté objet » ou « espace de noms » apparaissent plus fréquemment que dans des applications vocales ordinaires. La personnalisation du modèle linguistique permet au système d’apprendre cela.

  • Le modèle acoustique est un classifieur qui étiquette de courts fragments audio en l’un des quelques phonèmes, ou unités sonores, de chaque langue. Ces phonèmes peuvent être assemblés pour former des mots. Par exemple, le mot « vocal » comprend cinq phonèmes : « v », « o », « k », « a » et « l ». Ces classifications sont effectuées une centaine de fois par seconde. Une personnalisation du modèle acoustique peut permettre au système d’effectuer une meilleure reconnaissance vocale dans un environnement atypique. Par exemple, si vous avez une application conçue pour être utilisée par des ouvriers travaillant dans un entrepôt ou un atelier, un modèle acoustique personnalisé peut reconnaître de façon plus précise le discours en présence des bruits rencontrés dans ces environnements.

  • Le reconnaissance de phrase courte prend en charge des énoncés d’une longueur maximale de 15 secondes. Lorsqu’elle est utilisée avec la bibliothèque cliente vocale, lorsque des données sont envoyées au serveur, le client reçoit plusieurs résultats partiels et un résultat final consistant en N choix multiples.

  • La reconnaissance de dictée longue prend en charge des énoncés d’une longueur pouvant atteindre deux minutes. Lorsqu’elle est utilisée avec la bibliothèque cliente vocale, lorsque des données sont envoyées au serveur, le client reçoit plusieurs résultats partiels et plusieurs résultats finaux, basés sur les emplacements où le serveur indique des pauses dans la phrase.

  • Par exemple, si un client utilise le niveau S1 pour traiter un million de transcriptions, il lui est facturé le prix du niveau ($-) : les 100,000 premières transcriptions sont facturées au prix de $- par 1,000 transcriptions, et les 900,000 transcriptions restantes au prix de $- par 1,000 transcriptions. Le client est donc facturé $- + 100,000 * ($- / 1,000) + 900,000 * ($- / 1,000) = $4500.

  • Veuillez consulter les informations relatives au Service vocal personnalisé sur la page web Microsoft Cognitive Services et sur le site web relatif au Service vocal personnalisé, www.cris.ai.

  • Le déploiement de modèle personnalisé consiste à emballer un modèle personnalisé, puis à l’exposer en tant que service. Le modèle personnalisé déployé qui en résulte expose un point de terminaison via lequel il est accessible. Les utilisateurs peuvent choisir de déployer autant de modèles que nécessaire.

  • Le service vocal personnalisé permet aux utilisateurs d’adapter des modèles de base en fonction de leurs propres données acoustiques et linguistiques. Nous appelons ce processus la personnalisation du modèle.

  • Lorsqu’un modèle personnalisé est créé, les utilisateurs ont la possibilité de charger des données de test pour évaluer le modèle nouvellement créé. Les utilisateurs peuvent tester les nouveaux modèles personnalisés avec autant de données qu’ils le souhaitent. Ils peuvent par exemple exécuter un nombre illimité de tests de précision.

  • Lorsqu’un modèle personnalisé a été déployé, son URI peut traiter une demande audio à la fois. Pour les scénarios qui envoient simultanément plusieurs demandes audio à cet URI, les utilisateurs peuvent choisir d’augmenter la taille des instances pour traiter cinq demandes simultanées à la fois. Pour cela, il faut acheter des unités d’échelle. Chaque unité d’échelle garantit jusqu’à cinq demandes audio simultanées au prix de $200 par unité d’échelle. Par exemple, si un utilisateur envisage de toucher ce point de terminaison avec 23 demandes audio en même temps, il devra acheter cinq unités d’échelle pour garantir jusqu’à 25 demandes simultanées.

  • La gestion des journaux permet aux utilisateurs de désactiver la journalisation pour leurs modèles déployés. Les utilisateurs préoccupés par la confidentialité peuvent décider de désactiver la journalisation pour un modèle déployé au tarif de $20 par mois.

  • La demande de tarif fait référence au coût du traitement des demandes audio par le point de terminaison d’un modèle personnalisé déployé.

Général

  • Les API Émotion, Visage, LUIS (Language Understanding Intelligent Service), de reconnaissance vocale Bing et de synthèse vocale Bing sont facturées par 1 000 appels de transactions API quand un appel d’API de production est exécuté de façon active. La facturation est établie de façon proportionnelle sur la base des quantités d’appels de transactions d’API de production.

    Le service de l’API Dictée continue Bing est facturé à l’heure de discours analysé. La facturation est établie de façon proportionnelle sur la base d’une minute.

    Les API Recommandations et Analyse de texte peuvent être achetées en unités des niveaux standard à prix fixe. Chaque unité d’un niveau est fournie avec des quantités incluses de transactions d’API. Si l’utilisateur dépasse les quantités incluses, des suppléments sont facturés au taux spécifié dans le tableau de tarification ci-dessus. Ces suppléments sont calculés de façon proportionnelle, et le service est facturé sur une base mensuelle. Les quantités incluses dans un niveau sont réinitialisées chaque mois.

  • L’utilisation est restreinte si la limite du nombre de transactions est atteinte sur le niveau gratuit. Les clients ne peuvent pas accumuler de suppléments sur le niveau gratuit.

  • L’annotation d’un document est comptabilisée comme une transaction. Les appels de notation Batch tiennent également compte du nombre de documents devant être notés dans la transaction en question. Ainsi, par exemple, si 1 000 documents sont envoyés à des fins d’analyse des sentiments dans un appel d’API unique, 1 000 transactions sont comptabilisées. Si une API prend en charge plusieurs opérations d’annotation, cela est également pris en compte. Si un appel d’API effectue l’analyse des sentiments et l’extraction des principales expressions sur 1 000 documents, 2 000 transactions sont comptabilisées (2 annotations * 1 000 documents).

  • En cas de dépassement de l’utilisation sur un niveau standard, le compte commence à accumuler des suppléments. Ces dépassements sont facturés mensuellement et calculés au taux spécifié pour chaque niveau.

  • Les appels d’API (sauf les appels de notation par lots) sont comptabilisés comme une transaction. Les appels de notation par lots sont comptabilisés sur la base du nombre d’éléments devant être notés dans la transaction en question.

  • L’utilisation est restreinte si la limite du nombre de transactions est atteinte sur le niveau gratuit. Les clients ne peuvent pas accumuler de suppléments sur le niveau gratuit. La notation par lots n’est pas prise en charge par le niveau Gratuit.

  • L’API Recommandations peut être achetée en unités des niveaux standard à prix fixe. Chaque unité d’un niveau est fournie avec des quantités incluses de transactions d’API. Si l’utilisateur dépasse les quantités incluses, des suppléments sont facturés au taux spécifié dans le tableau de tarification ci-dessus. Ces suppléments sont calculés de façon proportionnelle, et le service est facturé sur une base mensuelle. Les quantités incluses dans un niveau sont réinitialisées chaque mois.

  • Vous pouvez passer à un niveau supérieur à tout moment. Le tarif de facturation et les quantités incluses correspondant au niveau le plus élevé s’appliquent immédiatement.

Ressources

Estimer les frais mensuels pour vos services Azure.

Consulter le Forum Aux Questions sur les prix appliqués à Azure

En savoir plus sur Cognitive Services

Consulter les didacticiels et vidéos techniques, et d’autres ressources

Ajout à des fins d’estimation. Appuyez sur « v » pour afficher sur la calculatrice Afficher sur la calculatrice

Apprenez et créez avec un crédit de $200 et poursuivez gratuitement

Compte gratuit