Passer la navigation

Tarification de Cognitive Services - Service vocal personnalisé VERSION PRÉLIMINAIRE

Utilisez les API d’intelligence pour activer les fonctionnalités de vision, de synthèse vocale, de langage et de connaissances

Le service vocal personnalisé vous permet de créer des modèles de reconnaissance vocale personnalisés, et de les déployer vers un point de terminaison de reconnaissance vocale spécialement adapté pour votre application. Le service vocal personnalisé vous permet de personnaliser le modèle linguistique du moteur de reconnaissance vocale de façon à ce que celui-ci apprenne le vocabulaire de votre application et le style d’élocution des utilisateurs. Vous pouvez également personnaliser le modèle acoustique du moteur de reconnaissance vocale afin qu’il corresponde mieux à l’environnement anticipé de l’application et à la population d’utilisateurs.

Détails des prix appliqués

L’adaptation de modèle est gratuite.

Gratuit S2
Déploiements de modèle Modèle 1 $-/modèle/mois
Adaptation de modèle 3 heures/mois Illimité
Tests de précision 2 heures/mois 2 heures gratuites, puis $-/heure
Montée en charge N/A $-/unité/jour où chaque unité vous permet d’envoyer cinq demandes simultanées
Sans trace N/A $-/modèle/mois
Demander les tarifs 2 heures/mois 2 heures gratuites, puis $-/heure

Assistance et contrat SLA

  • Un support gratuit est fourni pour la gestion de la facturation et des abonnements.
  • Vous avez besoin d’un support technique pour les services en version préliminaire ? Utilisez nos forums.
  • Nous garantissons que le service Cognitive Services exécuté dans le niveau Standard est disponible au moins 99,9 % du temps. Aucun contrat SLA n’est fourni pour le niveau Gratuit. Lire le contrat SLA.
  • Aucun contrat SLA pendant la période de version préliminaire. En savoir plus.

Forum Aux Questions

Service vocal personnalisé

  • Le Niveau 1 permet de traiter jusqu’à quatre éléments audio (soit quatre transcriptions) simultanément en continuant à répondre en temps réel. Si l’utilisateur envoie plus de quatre éléments audio simultanés, chacun des éléments audio subséquents est rejeté et renvoyé avec un code d’erreur indiquant un nombre trop important de reconnaissances simultanées. Il en va de même pour le Niveau 2 permettant de traiter simultanément 12 transcriptions. Le niveau Gratuit permet de traiter une seule transcription à la fois. Le signal audio est supposé être téléchargé en temps réel. Si le signal audio est téléchargé plus rapidement, à des fins de simultanéité, la demande est supposée être en cours jusqu’à la fin de la transmission du signal audio (même si le résultat de la reconnaissance peut être renvoyé plus tôt).

    Remarque : si vous avez besoin d’un niveau plus élevé de simultanéité, veuillez nous contacter.

  • Le modèle linguistique est une distribution de probabilité sur des séquences de mots. Le modèle linguistique aide le système à opérer un choix parmi des séquences de mots homophones, en se basant sur la probabilité des séquences de mots elles-mêmes. Par exemple, les groupes de mots « séquence vocale » et « c’est quand ce veau cale » se prononcent de la même manière mais, la première hypothèse étant sensiblement plus probable, le modèle linguistique lui attribue un score supérieur. Si vous vous attendez à ce que les requêtes vocales adressées à votre application contiennent des éléments de vocabulaire particuliers, tels que des noms de produits ou des mots de jargon technique rarement rencontrés dans un discours ordinaire, vous obtiendrez probablement de meilleures performances en personnalisant le modèle linguistique. Par exemple, imaginons que vous construisez une application pour rechercher sur MSDN à l’aide de la voix. Il est probable que des termes tels que « orienté objet » ou « espace de noms » apparaissent plus fréquemment que dans des applications vocales ordinaires. La personnalisation du modèle linguistique permet au système d’apprendre cela.

  • Le modèle acoustique est un classifieur qui étiquette de courts fragments audio en l’un des quelques phonèmes, ou unités sonores, de chaque langue. Ces phonèmes peuvent être assemblés pour former des mots. Par exemple, le mot « vocal » comprend cinq phonèmes : « v », « o », « k », « a » et « l ». Ces classifications sont effectuées une centaine de fois par seconde. Une personnalisation du modèle acoustique peut permettre au système d’effectuer une meilleure reconnaissance vocale dans un environnement atypique. Par exemple, si vous avez une application conçue pour être utilisée par des ouvriers travaillant dans un entrepôt ou un atelier, un modèle acoustique personnalisé peut reconnaître de façon plus précise le discours en présence des bruits rencontrés dans ces environnements.

  • Le reconnaissance de phrase courte prend en charge des énoncés d’une longueur maximale de 15 secondes. Lorsqu’elle est utilisée avec la bibliothèque cliente vocale, lorsque des données sont envoyées au serveur, le client reçoit plusieurs résultats partiels et un résultat final consistant en N choix multiples.

  • La reconnaissance de dictée longue prend en charge des énoncés d’une longueur pouvant atteindre deux minutes. Lorsqu’elle est utilisée avec la bibliothèque cliente vocale, lorsque des données sont envoyées au serveur, le client reçoit plusieurs résultats partiels et plusieurs résultats finaux, basés sur les emplacements où le serveur indique des pauses dans la phrase.

  • Par exemple, si un client utilise le niveau S1 pour traiter un million de transcriptions, il lui est facturé le prix du niveau ($-) : les 100,000 premières transcriptions sont facturées au prix de $- par 1,000 transcriptions, et les 900,000 transcriptions restantes au prix de $- par 1,000 transcriptions. Le client est donc facturé $- + 100,000 * ($- / 1,000) + 900,000 * ($- / 1,000) = $4500.

  • Veuillez consulter les informations relatives au Service vocal personnalisé sur la page web Microsoft Cognitive Services et sur le site web relatif au Service vocal personnalisé, www.cris.ai.

  • Le déploiement de modèle personnalisé consiste à emballer un modèle personnalisé, puis à l’exposer en tant que service. Le modèle personnalisé déployé qui en résulte expose un point de terminaison via lequel il est accessible. Les utilisateurs peuvent choisir de déployer autant de modèles que nécessaire.

  • Le service vocal personnalisé permet aux utilisateurs d’adapter des modèles de base en fonction de leurs propres données acoustiques et linguistiques. Nous appelons ce processus la personnalisation du modèle.

  • Lorsqu’un modèle personnalisé est créé, les utilisateurs ont la possibilité de charger des données de test pour évaluer le modèle nouvellement créé. Les utilisateurs peuvent tester les nouveaux modèles personnalisés avec autant de données qu’ils le souhaitent. Ils peuvent par exemple exécuter un nombre illimité de tests de précision.

  • Lorsqu’un modèle personnalisé a été déployé, son URI peut traiter une demande audio à la fois. Pour les scénarios qui envoient simultanément plusieurs demandes audio à cet URI, les utilisateurs peuvent choisir d’augmenter la taille des instances pour traiter cinq demandes simultanées à la fois. Pour cela, il faut acheter des unités d’échelle. Chaque unité d’échelle garantit jusqu’à cinq demandes audio simultanées au prix de $200 par unité d’échelle. Par exemple, si un utilisateur envisage de toucher ce point de terminaison avec 23 demandes audio en même temps, il devra acheter cinq unités d’échelle pour garantir jusqu’à 25 demandes simultanées.

  • La gestion des journaux permet aux utilisateurs de désactiver la journalisation pour leurs modèles déployés. Les utilisateurs préoccupés par la confidentialité peuvent décider de désactiver la journalisation pour un modèle déployé au tarif de $20 par mois.

  • La demande de tarif fait référence au coût du traitement des demandes audio par le point de terminaison d’un modèle personnalisé déployé.

Général

  • Bing Search APIs are invoiced based on number of transactions (also known as API calls). These plans are pay-as-you-go and doesn’t incur additional cost for complex queries and more than 10 results (up to 50 results in most cases).

  • If you happen to exceed the mentioned number of transactions per second (TPS), your usage will be throttled to be within the mentioned limit. If your application needs to have higher TPS than the ones mentioned on this page, please reach out to the Azure support team.

  • For billing purposes, a transaction is a successful Bing API call request (though there are caveats for DoS attacks). For logging and reporting purposes such as for the Bing Statistics Add-in, it is any Bing API call irrespective of whether it is successful or not.

  • You can change the tier of service anytime. Please make sure you use appropriate keys in your API calls. If you are having enterprise agreement with Microsoft, please work with your account executive.

Ressources

Estimer les frais mensuels pour vos services Azure.

Consulter le Forum Aux Questions sur les prix appliqués à Azure

En savoir plus sur Cognitive Services

Consulter les didacticiels et vidéos techniques, et d’autres ressources

Ajout à des fins d’estimation. Appuyez sur « v » pour afficher sur la calculatrice Afficher sur la calculatrice

Apprenez et créez avec un crédit de $200 et poursuivez gratuitement