Tarification de Cognitive Services - Service vocal personnalisé VERSION PRÉLIMINAIRE

Utilisez les API d’intelligence pour activer les fonctionnalités de vision, de synthèse vocale, de langage et de connaissances

Le service vocal personnalisé vous permet de créer des modèles de reconnaissance vocale personnalisés, et de les déployer vers un point de terminaison de reconnaissance vocale spécialement adapté pour votre application. Le service vocal personnalisé vous permet de personnaliser le modèle linguistique du moteur de reconnaissance vocale de façon à ce que celui-ci apprenne le vocabulaire de votre application et le style d’élocution des utilisateurs. Vous pouvez également personnaliser le modèle acoustique du moteur de reconnaissance vocale afin qu’il corresponde mieux à l’environnement anticipé de l’application et à la population d’utilisateurs.

Détails des prix appliqués

L’adaptation de modèle est gratuite.

Gratuit S1
Model Deployments 1 model $-/model/month
Model Adaptation 3 hours/month Unlimited
Tests de précision 2 hours/month 2 hours free and then $-/hour
Montée en charge N/A $-/unité/jour où chaque unité vous permet d’envoyer cinq demandes simultanées
Sans trace N/A $-/modèle/mois
Demander les tarifs 2 hours/month 2 hours free and then $-/hour

Support technique et contrat SLA

  • Support technique gratuit pour la gestion de la facturation et des abonnements
  • Vous avez besoin d’un support technique pour les services en version préliminaire ? Utilisez nos forums
  • Nous garantissons que le service Cognitive Services exécuté dans le niveau Standard est disponible au moins 99,9 % du temps. Aucun contrat SLA n’est fourni pour le niveau Gratuit. Lire le contrat SLA
  • Aucun contrat SLA pendant la période de version préliminaire. En savoir plus

Forum Aux Questions

Service vocal personnalisé

  • Le Niveau 1 permet de traiter jusqu’à quatre éléments audio (soit quatre transcriptions) simultanément en continuant à répondre en temps réel. Si l’utilisateur envoie plus de quatre éléments audio simultanés, chacun des éléments audio subséquents est rejeté et renvoyé avec un code d’erreur indiquant un nombre trop important de reconnaissances simultanées. Il en va de même pour le Niveau 2 permettant de traiter simultanément 12 transcriptions. Le niveau Gratuit permet de traiter une seule transcription à la fois. Le signal audio est supposé être téléchargé en temps réel. Si le signal audio est téléchargé plus rapidement, à des fins de simultanéité, la demande est supposée être en cours jusqu’à la fin de la transmission du signal audio (même si le résultat de la reconnaissance peut être renvoyé plus tôt).

    Remarque : si vous avez besoin d’un niveau plus élevé de simultanéité, veuillez nous contacter.

  • Le modèle linguistique est une distribution de probabilité sur des séquences de mots. Le modèle linguistique aide le système à opérer un choix parmi des séquences de mots homophones, en se basant sur la probabilité des séquences de mots elles-mêmes. Par exemple, les groupes de mots « séquence vocale » et « c’est quand ce veau cale » se prononcent de la même manière mais, la première hypothèse étant sensiblement plus probable, le modèle linguistique lui attribue un score supérieur. Si vous vous attendez à ce que les requêtes vocales adressées à votre application contiennent des éléments de vocabulaire particuliers, tels que des noms de produits ou des mots de jargon technique rarement rencontrés dans un discours ordinaire, vous obtiendrez probablement de meilleures performances en personnalisant le modèle linguistique. Par exemple, imaginons que vous construisez une application pour rechercher sur MSDN à l’aide de la voix. Il est probable que des termes tels que « orienté objet » ou « espace de noms » apparaissent plus fréquemment que dans des applications vocales ordinaires. La personnalisation du modèle linguistique permet au système d’apprendre cela.

  • Le modèle acoustique est un classifieur qui étiquette de courts fragments audio en l’un des quelques phonèmes, ou unités sonores, de chaque langue. Ces phonèmes peuvent être assemblés pour former des mots. Par exemple, le mot « vocal » comprend cinq phonèmes : « v », « o », « k », « a » et « l ». Ces classifications sont effectuées une centaine de fois par seconde. Une personnalisation du modèle acoustique peut permettre au système d’effectuer une meilleure reconnaissance vocale dans un environnement atypique. Par exemple, si vous avez une application conçue pour être utilisée par des ouvriers travaillant dans un entrepôt ou un atelier, un modèle acoustique personnalisé peut reconnaître de façon plus précise le discours en présence des bruits rencontrés dans ces environnements.

  • Le reconnaissance de phrase courte prend en charge des énoncés d’une longueur maximale de 15 secondes. Lorsqu’elle est utilisée avec la bibliothèque cliente vocale, lorsque des données sont envoyées au serveur, le client reçoit plusieurs résultats partiels et un résultat final consistant en N choix multiples.

  • La reconnaissance de dictée longue prend en charge des énoncés d’une longueur pouvant atteindre deux minutes. Lorsqu’elle est utilisée avec la bibliothèque cliente vocale, lorsque des données sont envoyées au serveur, le client reçoit plusieurs résultats partiels et plusieurs résultats finaux, basés sur les emplacements où le serveur indique des pauses dans la phrase.

  • Par exemple, si un client utilise le niveau S1 pour traiter un million de transcriptions, il lui est facturé le prix du niveau ($-) : les 100,000 premières transcriptions sont facturées au prix de $- par 1,000 transcriptions, et les 900,000 transcriptions restantes au prix de $- par 1,000 transcriptions. Le client est donc facturé $- + 100,000 * ($- / 1,000) + 900,000 * ($- / 1,000) = $4500.

  • Veuillez consulter les informations relatives au Service vocal personnalisé sur la page web Microsoft Cognitive Services et sur le site web relatif au Service vocal personnalisé, www.cris.ai.

  • Le déploiement de modèle personnalisé consiste à emballer un modèle personnalisé, puis à l’exposer en tant que service. Le modèle personnalisé déployé qui en résulte expose un point de terminaison via lequel il est accessible. Les utilisateurs peuvent choisir de déployer autant de modèles que nécessaire.

  • Le service vocal personnalisé permet aux utilisateurs d’adapter des modèles de base en fonction de leurs propres données acoustiques et linguistiques. Nous appelons ce processus la personnalisation du modèle.

  • Lorsqu’un modèle personnalisé est créé, les utilisateurs ont la possibilité de charger des données de test pour évaluer le modèle nouvellement créé. Les utilisateurs peuvent tester les nouveaux modèles personnalisés avec autant de données qu’ils le souhaitent. Ils peuvent par exemple exécuter un nombre illimité de tests de précision.

  • Lorsqu’un modèle personnalisé a été déployé, son URI peut traiter une demande audio à la fois. Pour les scénarios qui envoient simultanément plusieurs demandes audio à cet URI, les utilisateurs peuvent choisir d’augmenter la taille des instances pour traiter cinq demandes simultanées à la fois. Pour cela, il faut acheter des unités d’échelle. Chaque unité d’échelle garantit jusqu’à cinq demandes audio simultanées au prix de $200 par unité d’échelle. Par exemple, si un utilisateur envisage de toucher ce point de terminaison avec 23 demandes audio en même temps, il devra acheter cinq unités d’échelle pour garantir jusqu’à 25 demandes simultanées.

  • La gestion des journaux permet aux utilisateurs de désactiver la journalisation pour leurs modèles déployés. Les utilisateurs préoccupés par la confidentialité peuvent décider de désactiver la journalisation pour un modèle déployé au tarif de $20 par mois.

  • La demande de tarif fait référence au coût du traitement des demandes audio par le point de terminaison d’un modèle personnalisé déployé.

Général

  • Les API Émotion, Visage, LUIS (Language Understanding Intelligent Service), API Reconnaissance de la parole-texte Bing et Synthèse vocale Bing sont facturées tous les 1 000 appels de transactions d’API quand l’appel à une API de production est exécuté de façon active. La facturation est établie de façon proportionnelle sur la base des quantités d’appels de transactions d’API de production.

    Le service de l’API Dictée continue Bing est facturé à l’heure de discours analysé. La facturation est établie de façon proportionnelle sur la base d’une minute.

    Les API Recommandations et Analyse de texte peuvent être achetées en unités des niveaux standard à prix fixe. Chaque unité d’un niveau est fournie avec des quantités incluses de transactions d’API. Si l’utilisateur dépasse les quantités incluses, des suppléments sont facturés au taux spécifié dans le tableau de tarification ci-dessus. Ces suppléments sont calculés de façon proportionnelle et le service est facturé sur une base mensuelle. Les quantités incluses dans un niveau sont réinitialisées chaque mois.

  • L’utilisation est restreinte si la limite du nombre de transactions est atteinte sur le niveau gratuit. Les clients ne peuvent pas accumuler de suppléments sur le niveau gratuit.

  • En cas de dépassement de l’utilisation sur un niveau standard, le compte commence à accumuler les suppléments. Ceux-ci sont facturés mensuellement et calculés au taux spécifié pour chaque niveau.

  • Les appels d’API (sauf les appels de notation par lots) sont comptabilisés comme une transaction. Les appels de notation par lots sont comptabilisés sur la base du nombre d’éléments devant être notés dans la transaction en question.

  • L’utilisation est restreinte si la limite du nombre de transactions est atteinte sur le niveau gratuit. Les clients ne peuvent pas accumuler de suppléments sur le niveau gratuit. La notation par lots n’est pas prise en charge par le niveau Gratuit.

  • L’API Recommandations peut être achetée en unités des niveaux standard à prix fixe. Chaque unité d’un niveau est fournie avec des quantités incluses de transactions d’API. Si l’utilisateur dépasse les quantités incluses, des suppléments sont facturés au taux spécifié dans le tableau de tarification ci-dessus. Ces suppléments sont calculés de façon proportionnelle et le service est facturé sur une base mensuelle. Les quantités incluses dans un niveau sont réinitialisées chaque mois.

  • Les API Recherche Bing, Suggestion automatique Bing et Vérification orthographique Bing sont facturées mensuellement. Selon le niveau acheté, il y aura des quantités incluses de transactions définies en tant qu’appels d’API. Les quantités incluses sont toujours liées au mois calendaire, quel que soit la date de début de l’utilisation. Si l’utilisateur dépasse les quantités incluses, des dépassements sont facturés au tarif spécifié dans le tableau de tarification. Ces dépassements ne sont pas calculés de façon proportionnelle et le service est facturé sur une base mensuelle. Les quantités incluses pour chaque niveau sont réinitialisées chaque mois.

  • Please visit the Cognitive Services subscription page to request free trials.

  • Vous pouvez passer à un niveau supérieur à tout moment. Le tarif de facturation et les quantités incluses correspondant au niveau le plus élevé s’appliquent immédiatement.

Ressources

Calculatrice

Estimer les frais mensuels pour vos services Azure.

Forum Aux Questions - Achat

Consulter le Forum Aux Questions sur les prix appliqués à Azure

Détails du produit

En savoir plus sur Cognitive Services

Documentation

Consulter les didacticiels et vidéos techniques, et d’autres ressources

Inscrivez-vous dès maintenant et obtenez $200 de crédits Azure

Commencez dès aujourd'hui