Tarification Cognitive Services - Services Speech

Utiliser les API d’intelligence pour activer les fonctionnalités de vision, de langage et de recherche

Les services Speech unifiés offrent un large éventail de fonctionnalités de reconnaissance vocale et de génération, notamment la transcription de la parole, la synthèse vocale et la traduction vocale. Les services Speech offrent un large éventail de fonctionnalités de reconnaissance vocale et de génération, notamment la transcription de la parole, la synthèse vocale, la traduction vocale et la reconnaissance de l’orateur.

Détails de la tarification

Instance Catégorie Fonctionnalités Tarif
Gratuit - Web/conteneur
1 demandes simultanées1
Reconnaissance vocale Standard 5 heures audio gratuites par mois
API Web 5 heures audio gratuites par mois
Hébergement de point de terminaison : 1 modèle gratuit par mois 2
Audio multicanal de transcription de conversation VERSION PRÉLIMINAIRE 3 5 heures audio gratuites par mois
Synthèse vocale Standard 5 million millions de caractères gratuits par mois
Neuronal 0.5 million millions de caractères gratuits par mois
API Web 5 million millions de caractères gratuits par mois
Hébergement de point de terminaison : 1 modèle gratuit par mois
Traduction vocale Standard 5 heures audio gratuites par mois
Reconnaissance de l’orateur7 Vérification de l’orateur 10,000 transactions gratuites par mois
Identification de l’orateur 10,000 transactions gratuites par mois
Standard - Web/conteneur
20 demandes simultanées 1
Reconnaissance vocale Standard $- par heure audio
API Web $- par heure audio
Hébergement de point de terminaison : $- par modèle par heure
Audio multicanal de transcription de conversation VERSION PRÉLIMINAIRE 3 $- par heure audio 4
Synthèse vocale Standard $- tous les 1 million de caractères
Neuronal $- tous les 1 million de caractères 5
Création de fichiers audio longs : $- tous les 1 million de caractères
API Web $- tous les 1 million de caractères
Hébergement de point de terminaison : $- par modèle par heure
Neural personnalisé VERSION PRÉLIMINAIRE 6 Création vocale : nous contacter
Synthèse en temps réel : $- tous les 1 million de caractères
Hébergement de point de terminaison : $- par modèle par heure
Création de fichiers audio longs : $- tous les 1 million de caractères
Traduction vocale Standard $- par heure audio
Reconnaissance de l’orateur7 Vérification de l’orateur $- toutes les 1,000 transactions
Identification de l’orateur $- toutes les 1,000 transactions

Pour plus d’informations sur les quotas et les limites de tous les niveaux tarifaires, consultez la documentation.

1Pour augmenter les demandes simultanées, consultez les instructions.

2Les modèles inutilisés sont automatiquement retirés après 7 jours.

3Le multicanal de transcription de conversation recommande un périphérique à réseau de microphones circulaire. Pour plus de détails, vous pouvez vous référer au Microsoft Speech Device SDK.

4Ceci tient compte du tarif de la préversion publique. Le tarif de la mise à la disposition générale sera annoncé plus tard au moment de son application

5Recherchez dans la documentation sur les systèmes neuronaux les régions dans lesquelles la synthèse vocale neuronale est disponible.

6La fonctionnalité de voix neuronale personnalisée est en préversion contrôlée. En savoir plus sur le processus de contrôle.

7Pour le moment, la Reconnaissance de l'orateur est uniquement disponible dans la région USA Ouest. Sélectionnez la région « USA Ouest  » pour consulter la tarification de la Reconnaissance de l'orateur.

Support technique et contrat SLA

  • Un support gratuit est fourni pour la gestion de la facturation et des abonnements.
  • Nous garantissons que le service Cognitive Services exécuté dans le niveau Standard est disponible au moins 99,9 % du temps. Aucun contrat SLA n’est fourni pour l’essai gratuit. Lire le contrat SLA.

Forum Aux Questions

    • Pour Traduction vocale, Reconnaissance vocale et Synthèse vocale avec modèle vocal personnalisé : l’utilisation est facturée par incréments d’une seconde.
    • Pour Synthèse vocale et Synthèse vocale avec police de la voix personnalisée : l’utilisation est facturée par caractère.
    • Pour l’hébergement Modèle vocal personnalisé, l’utilisation est facturée à l’heure. Pour l’hébergement Police de la voix personnalisée, l’utilisation est facturée quotidiennement.
    • Pour les commandes personnalisées : la facturation suit la consommation Reconnaissance vocale, Synthèse vocale et Language Understanding. Les commandes personnalisées ne donnent pas lieu à de nouveaux compteurs de facturation.
    • L’entraînement des modèles vocaux est gratuit. Les seuls coûts sont ceux liés à l’hébergement du modèle une fois que celui-ci a été formé et à chaque heure de transcription vocale facturée.
  • Le service vocal Speech permet aux utilisateurs d’adapter des modèles de base en fonction de leurs propres données acoustiques et linguistiques, produisant ainsi des modèles vocaux personnalisés qui peuvent être utilisés avec la reconnaissance vocale et la traduction vocale.

  • Le modèle linguistique est une distribution de probabilité sur des séquences de mots. Le modèle linguistique aide le système à opérer un choix parmi des séquences de mots homophones, en se basant sur la probabilité des séquences de mots elles-mêmes. Par exemple, les groupes de mots « séquence vocale » et « c’est quand ce veau cale » se prononcent de la même manière mais, la première hypothèse étant sensiblement plus probable, le modèle linguistique lui attribue un score supérieur. Si vous vous attendez à ce que les requêtes vocales adressées à votre application contiennent des éléments de vocabulaire particuliers, tels que des noms de produits ou des mots de jargon technique rarement rencontrés dans un discours ordinaire, vous obtiendrez probablement de meilleures performances en personnalisant le modèle linguistique. Par exemple, imaginons que vous construisez une application pour rechercher sur MSDN à l’aide de la voix. Il est probable que des termes tels que « orienté objet » ou « espace de noms » apparaissent plus fréquemment que dans des applications vocales ordinaires. La personnalisation du modèle linguistique permet au système d’apprendre cela.

  • Le modèle acoustique est un classifieur qui étiquette de courts fragments audio en l’un des quelques phonèmes, ou unités sonores, de chaque langue. Ces phonèmes peuvent être assemblés pour former des mots. Par exemple, le mot « vocal » comprend cinq phonèmes : « v », « o », « k », « a » et « l ». Ces classifications sont effectuées une centaine de fois par seconde. Une personnalisation du modèle acoustique peut permettre au système d’effectuer une meilleure reconnaissance vocale dans un environnement atypique. Par exemple, si vous avez une application conçue pour être utilisée par des ouvriers travaillant dans un entrepôt ou un atelier, un modèle acoustique personnalisé peut reconnaître de façon plus précise le discours en présence des bruits rencontrés dans ces environnements.

  • Les services Microsoft Speech fournissent plus de 70 voix par défaut (appelées polices de la voix) dans plus de 40 langues pour vous aider à convertir votre texte en audio. Avec la montée en puissance de l’assistant virtuel et les diverses applications vocales, de nombreuses entreprises souhaitent toutefois avoir une voix unique qui représente leur activité et est soigneusement conçue pour leur propre identité de marque. Par exemple, si vous développez un bot conversationnel pour votre service client, vous pouvez l’associer à une voix vocale unique représentant votre entreprise afin de développer l’attachement client. De même, un développeur de logiciel de navigation embarqué peut proposer une synthèse vocale avec différentes voix personnalisées pour enrichir l’expérience utilisateur.

    Grâce à Voice Studio, le portail de création de voix personnalisé, c’est facile. En utilisant vos propres données audio (voix humaine enregistrée avec leurs scripts associés), vous pouvez générer une police de la voix personnalisée qui est ensuite déployée dans le service de synthèse vocale Microsoft et peut être facilement connectée à vos applications avec un point de terminaison API pour votre propre utilisation.

Ressources

Estimer les frais mensuels pour vos services Azure.

Consulter le Forum Aux Questions sur les prix appliqués à Azure

En savoir plus sur Azure Cognitive Services

Consulter les didacticiels et vidéos techniques, et d’autres ressources

Ajout à des fins d’estimation. Appuyez sur « v » pour afficher sur la calculatrice

Discutez avec un spécialiste des ventes pour qu’il vous explique en détail la tarification Azure. Comprendre la tarification de votre solution cloud.

Profitez de services cloud gratuits et d’un crédit de $200 pour découvrir Azure pendant 30 jours.