Tarification Cognitive Services - Services Speech

Utilisez les API d’intelligence pour activer les fonctionnalités de vision, de langage et de recherche.

Les services Speech unifiés offrent un large éventail de fonctionnalités de reconnaissance vocale et de génération, notamment la transcription de la parole, la synthèse vocale et la traduction vocale. Les services Speech offrent un large éventail de fonctionnalités de reconnaissance vocale et de génération, notamment la transcription de la parole, la synthèse vocale, la traduction vocale et la reconnaissance de l’orateur. La nouvelle fonctionnalité Reconnaissance de l’orateur sera disponible le 1er juin 2020.

Détails de la tarification

Le conteneur Speech est en préversion publique.

Instance Catégorie Fonctionnalités Tarif
Gratuit - Web/conteneur
1 demandes simultanées1
Reconnaissance vocale Standard 5 heures audio gratuites par mois
API Web 5 heures audio gratuites par mois
Hébergement de point de terminaison : 1 modèle gratuit par mois 2
Audio multicanal de transcription de conversation VERSION PRÉLIMINAIRE 3 5 heures audio gratuites par mois
Synthèse vocale Standard 5 millions de caractères gratuits par mois
Neuronal 0.5 millions de caractères gratuits par mois
API Web 5 millions de caractères gratuits par mois
Hébergement de point de terminaison : 1 modèle gratuit par mois
Traduction vocale Standard 5 heures audio gratuites par mois
Standard - Web/conteneur
20 demandes simultanées 1
Reconnaissance vocale Standard $- par heure audio
API Web $- par heure audio
Hébergement de point de terminaison : $- par modèle par heure
Audio multicanal de transcription de conversation VERSION PRÉLIMINAIRE 3 $- par heure audio 4
Synthèse vocale Standard $- tous les 1 million de caractères
Neuronal $- tous les 1 million de caractères 5
API Web $- tous les 1 million de caractères
Hébergement de point de terminaison : $- par modèle par heure
Neural personnalisé VERSION PRÉLIMINAIRE 6 Création vocale : nous contacter
Synthèse en temps réel : $- tous les 1 million de caractères
Hébergement de point de terminaison : $- par modèle par heure
Création de fichiers audio longs : $- tous les 1 million de caractères
Traduction vocale Standard $- par heure audio

1Les demandes simultanées s’appliquent uniquement aux points de terminaison web.

2Les modèles inutilisés sont automatiquement retirés après 7 jours.

3Le multicanal de transcription de conversation recommande un périphérique à réseau de microphones circulaire. Pour plus de détails, vous pouvez vous référer au Microsoft Speech Device SDK.

4Ceci tient compte du tarif de la préversion publique. Le tarif de la mise à la disposition générale sera annoncé plus tard au moment de son application

5Recherchez dans la documentation sur les systèmes neuronaux les régions dans lesquelles la synthèse vocale neuronale est disponible.

6La fonctionnalité de voix neuronale personnalisée est en préversion contrôlée. En savoir plus sur le processus de contrôle.

Support technique et contrat SLA

  • Un support gratuit est fourni pour la gestion de la facturation et des abonnements.
  • Nous garantissons que le service Cognitive Services exécuté dans le niveau Standard est disponible au moins 99,9 % du temps. Aucun contrat SLA n’est fourni pour l’essai gratuit. Lire le contrat SLA.

Forum Aux Questions

    • Pour Traduction vocale, Synthèse vocale et Synthèse vocale avec modèle vocal personnalisé : l’utilisation est facturée par incréments d’une seconde
    • Pour Synthèse vocale et Synthèse vocale avec police de la voix personnalisée : l’utilisation est facturée par caractère
    • Pour l’hébergement Modèle vocal personnalisé, l’utilisation est facturée à l’heure. Pour l’hébergement Police de la voix personnalisée, l’utilisation est facturée quotidiennement.
  • Le service vocal Speech permet aux utilisateurs d’adapter des modèles de base en fonction de leurs propres données acoustiques et linguistiques, produisant ainsi des modèles vocaux personnalisés qui peuvent être utilisés avec la reconnaissance vocale et la traduction vocale.

  • Le modèle linguistique est une distribution de probabilité sur des séquences de mots. Le modèle linguistique aide le système à opérer un choix parmi des séquences de mots homophones, en se basant sur la probabilité des séquences de mots elles-mêmes. Par exemple, les groupes de mots « séquence vocale » et « c’est quand ce veau cale » se prononcent de la même manière mais, la première hypothèse étant sensiblement plus probable, le modèle linguistique lui attribue un score supérieur. Si vous vous attendez à ce que les requêtes vocales adressées à votre application contiennent des éléments de vocabulaire particuliers, tels que des noms de produits ou des mots de jargon technique rarement rencontrés dans un discours ordinaire, vous obtiendrez probablement de meilleures performances en personnalisant le modèle linguistique. Par exemple, imaginons que vous construisez une application pour rechercher sur MSDN à l’aide de la voix. Il est probable que des termes tels que « orienté objet » ou « espace de noms » apparaissent plus fréquemment que dans des applications vocales ordinaires. La personnalisation du modèle linguistique permet au système d’apprendre cela.

  • Le modèle acoustique est un classifieur qui étiquette de courts fragments audio en l’un des quelques phonèmes, ou unités sonores, de chaque langue. Ces phonèmes peuvent être assemblés pour former des mots. Par exemple, le mot « vocal » comprend cinq phonèmes : « v », « o », « k », « a » et « l ». Ces classifications sont effectuées une centaine de fois par seconde. Une personnalisation du modèle acoustique peut permettre au système d’effectuer une meilleure reconnaissance vocale dans un environnement atypique. Par exemple, si vous avez une application conçue pour être utilisée par des ouvriers travaillant dans un entrepôt ou un atelier, un modèle acoustique personnalisé peut reconnaître de façon plus précise le discours en présence des bruits rencontrés dans ces environnements.

  • Les services Microsoft Speech fournissent plus de 70 voix par défaut (appelées polices de la voix) dans plus de 40 langues pour vous aider à convertir votre texte en audio. Avec la montée en puissance de l’assistant virtuel et les diverses applications vocales, de nombreuses entreprises souhaitent toutefois avoir une voix unique qui représente leur activité et est soigneusement conçue pour leur propre identité de marque. Par exemple, si vous développez un bot conversationnel pour votre service client, vous pouvez l’associer à une voix vocale unique représentant votre entreprise afin de développer l’attachement client. De même, un développeur de logiciel de navigation embarqué peut proposer une synthèse vocale avec différentes voix personnalisées pour enrichir l’expérience utilisateur.

    Grâce à Voice Studio, le portail de création de voix personnalisé, c’est facile. En utilisant vos propres données audio (voix humaine enregistrée avec leurs scripts associés), vous pouvez générer une police de la voix personnalisée qui est ensuite déployée dans le service de synthèse vocale Microsoft et peut être facilement connectée à vos applications avec un point de terminaison API pour votre propre utilisation.

Ressources

Estimer les frais mensuels pour vos services Azure.

Consulter le Forum Aux Questions sur les prix appliqués à Azure

En savoir plus sur Cognitive Services

Consulter les didacticiels et vidéos techniques, et d’autres ressources

Ajout à des fins d’estimation. Appuyez sur « v » pour afficher sur la calculatrice

Apprenez et créez avec un crédit de $200 et poursuivez gratuitement