Passer la navigation

Tarification Services Speech

Services vocaux unifiés pour la reconnaissance vocale, la synthèse vocale et la traduction vocale

Les services Speech unifiés offrent un large éventail de fonctionnalités de reconnaissance vocale et de génération, notamment la transcription de la parole, la synthèse vocale et la traduction vocale. Les services Speech offrent un large éventail de fonctionnalités de reconnaissance vocale et de génération, notamment la transcription de la parole, la synthèse vocale, la traduction vocale et la reconnaissance de l’orateur.

Explorez les options tarifaires

Appliquez des filtres pour personnaliser les options de tarification à vos besoins.

Les prix sont uniquement des estimations et ne constituent pas des prix réels. Les prix réels peuvent varier en fonction du type d'accord conclu avec Microsoft, de la date d'achat et du taux de change. Les prix sont calculés en dollars US et convertis à l'aide des taux de référence Thomson Reuters actualisés le premier jour de chaque mois civil. Connectez-vous à la Calculatrice de prix Azure pour consulter la tarification en fonction de votre programme/offre actuel avec Microsoft. Contactez un Spécialiste des ventes Azure pour plus d’informations sur la tarification ou pour demander un devis. Consultez les questions fréquemment posées sur la tarification Azure.

Gratuit

Instance Catégorie Fonctionnalités Tarif
Gratuit - Web/conteneur
1 demandes simultanées1
Reconnaissance vocale Standard2 5 heures audio gratuites par mois
API Web 5 heures audio gratuites par mois
Hébergement de point de terminaison : 1 modèle gratuit par mois 3
Audio multicanal de transcription de conversation VERSION PRÉLIMINAIRE 4 5 heures audio gratuites par mois
Synthèse vocale Neuronal 0.5 million millions de caractères gratuits par mois
Traduction vocale Standard 5 heures audio gratuites par mois
Reconnaissance de l’orateur Vérification de l’orateur 10,000 transactions gratuites par mois
Identification de l’orateur 10,000 transactions gratuites par mois
Stockage vocal 10,000 transactions gratuites par mois

Pour plus d’informations sur les quotas et les limites de tous les niveaux tarifaires, consultez la documentation.

1Pour augmenter les demandes simultanées, consultez les instructions.

2La reconnaissance vocale inclut désormais une fonctionnalité d’évaluation de la prononciation, tant pour l’instance gratuite (par exemple, 5 heures d’audio gratuites par mois), ainsi que pour l’instance standard qui sera sujette à la tarification standard de $1 par heure d’audio.

3Les modèles inutilisés sont automatiquement retirés après 7 jours.

4Le multicanal de transcription de conversation recommande un périphérique à réseau de microphones circulaire. Pour plus de détails, vous pouvez vous référer au Microsoft Speech Device SDK.

Paiement à l’utilisation

Instance Catégorie Fonctionnalités Tarif
Standard - Web/Conteneur
100 demandes simultanées pour le modèle de base
20 demandes simultanées pour le modèle personnalisé1
Reconnaissance vocale Standard2 $- par heure audio
API Web $- par heure audio
Hébergement de point de terminaison : $- par modèle par heure
Audio multicanal de transcription de conversation VERSION PRÉLIMINAIRE $- par heure audio3
Synthèse vocale Neuronal4 Synthèse en temps réel : $- tous les 1 million de caractères4
Création de fichiers audio longs : $- tous les 1 million de caractères
Neural personnalisé4, 5 Formation : $- par heure de calcul, jusqu'à $- par formation
Synthèse en temps réel : $- tous les 1 million de caractères
Hébergement de point de terminaison : $- par modèle par heure
Création de fichiers audio longs : $- tous les 1 million de caractères
Traduction vocale Standard $- par heure audio
Reconnaissance de l’orateur Vérification de l’orateur $- toutes les 1,000 transactions
Identification de l’orateur $- toutes les 1,000 transactions
Stockage vocal $- tous les 1,000 profils vocaux (10,000 profils vocaux gratuits par mois)

Pour plus d’informations sur les quotas et les limites de tous les niveaux tarifaires, consultez la documentation.

1 Pour augmenter les demandes simultanées, consultez les instructions.

2 La reconnaissance vocale inclut désormais une fonctionnalité d’évaluation de la prononciation, tant pour l’instance gratuite (par exemple, 5 heures d’audio gratuites par mois), ainsi que pour l’instance standard qui sera sujette à la tarification standard de $1 par heure d’audio.

3 Ceci tient compte du tarif de la préversion publique. Le tarif de la mise à la disposition générale sera annoncé plus tard au moment de son application

4 Synthèse vocale est facturé pour chaque caractère converti en parole, y compris la ponctuation. En savoir plus.

5 Voix neuronale personnalisée (CNV) est une fonctionnalité d’accès limité avec les versions Pro et Lite. Avec CNV Lite (préversion publique), les clients peuvent enregistrer leur propre voix et créer un modèle pour la démonstration/évaluation, avant dedemander l’accès à Pro. Découvrez où CNV est disponible.

Niveaux d’engagement

Cette tarification est un accès limité. Appliquer ici.

Instance Catégorie Fonctionnalités Prix (par mois) Dépassement
Azure - Standard Reconnaissance vocale Standard $- pendant 2,000 heures $- par heure
$- pendant 10,000 heures $- par heure
$- pendant 50,000 heures $- par heure
Synthèse vocale Neuronal1 $- pour 80 M de caractères $- par lot de 1 M de caractères
$- pour 400 M de caractères $- par lot de 1 M de caractères
$- pour 2,000 M de caractères $- par lot de 1 M de caractères
Conteneur connecté - Standard Reconnaissance vocale Standard $- pendant 2,000 heures $- par heure
$- pendant 10,000 heures $- par heure
$- pendant 50,000 heures $- par heure
Synthèse vocale Neuronal1 $- pour 80 M de caractères $- par lot de 1 M de caractères
$- pour 400 M de caractères $- par lot de 1 M de caractères
$- pour 2,000 M de caractères $- par lot de 1 M de caractères
Conteneur déconnecté Reconnaissance vocale Standard Inscrivez-vous pour obtenir l'accès.
En savoir plus
Synthèse vocale Neuronal1 Inscrivez-vous pour obtenir l'accès.
En savoir plus
1 La synthèse en temps réel uniquement, cela n’inclut pas la création audio longue.

Ces fonctionnalités sont déconseillées et ne sont disponibles que pour les clients existants. Consultez les détails et découvrez comment migrer vers de nouvelles fonctionnalités.

Instance Catégorie Fonctionnalités Tarif
Gratuit - Web/conteneur
1 demandes simultanées
Synthèse vocale Standard 5 million millions de caractères gratuits par mois
API Web 5 million millions de caractères gratuits par mois
Hébergement de point de terminaison : 1 modèle gratuit par mois
Standard - Web/Conteneur
100 demandes simultanées pour le modèle de base
20 demandes simultanées pour le modèle personnalisé
Synthèse vocale Standard $- tous les 1 million de caractères
API Web $- tous les 1 million de caractères
Hébergement de point de terminaison : $- par modèle par heure

Tarification et options d’achat Azure

Connectez-vous directement avec nous

Obtenez une procédure pas à pas de la tarification Azure. Comprenez la tarification de votre solution cloud, découvrez l’optimisation des coûts et demandez une offre personnalisée.

Discuter avec un spécialiste des ventes

Découvrez les modalités d'achat

Achetez des services Azure via le site web Azure, un représentant Azure ou un partenaire Azure.

Explorez vos options

Ressources supplémentaires

Services Speech

En savoir plus sur les fonctionnalités et capacités Services Speech.

Calculatrice de prix

Estimez vos coûts mensuels pour l’utilisation des différentes combinaisons de produits Azure.

Documentation

Consulter les didacticiels et vidéos techniques, et d’autres ressources Services Speech.

    • Pour Traduction vocale, Reconnaissance vocale et Synthèse vocale avec modèle vocal personnalisé : l’utilisation est facturée par incréments d’une seconde.
    • Pour la synthèse vocale avec des voix neuronales ou neuronales personnalisées : l’utilisation est facturée par caractère. Vérifiez la définition du terme caractère dans la Remarque sur la tarification.
    • Pour l’hébergement Modèle vocal personnalisé, l’utilisation est facturée à l’heure. Pour l’hébergement Police de la voix personnalisée, l’utilisation est facturée quotidiennement.
    • Pour les commandes personnalisées : la facturation suit la consommation Reconnaissance vocale, Synthèse vocale et Language Understanding. Les commandes personnalisées ne donnent pas lieu à de nouveaux compteurs de facturation.
    • L’entraînement des modèles vocaux est gratuit. Les seuls coûts sont ceux liés à l’hébergement du modèle une fois que celui-ci a été formé et à chaque heure de transcription vocale facturée.
  • Le service vocal Speech permet aux utilisateurs d’adapter des modèles de base en fonction de leurs propres données acoustiques et linguistiques, produisant ainsi des modèles vocaux personnalisés qui peuvent être utilisés avec la reconnaissance vocale et la traduction vocale.

  • Le modèle linguistique est une distribution de probabilité sur des séquences de mots. Le modèle linguistique aide le système à opérer un choix parmi des séquences de mots homophones, en se basant sur la probabilité des séquences de mots elles-mêmes. Par exemple, les groupes de mots « séquence vocale » et « c’est quand ce veau cale » se prononcent de la même manière mais, la première hypothèse étant sensiblement plus probable, le modèle linguistique lui attribue un score supérieur. Si vous vous attendez à ce que les requêtes vocales adressées à votre application contiennent des éléments de vocabulaire particuliers, tels que des noms de produits ou des mots de jargon technique rarement rencontrés dans un discours ordinaire, vous obtiendrez probablement de meilleures performances en personnalisant le modèle linguistique. Par exemple, imaginons que vous construisez une application pour rechercher sur MSDN à l’aide de la voix. Il est probable que des termes tels que « orienté objet » ou « espace de noms » apparaissent plus fréquemment que dans des applications vocales ordinaires. La personnalisation du modèle linguistique permet au système d’apprendre cela.

  • Le modèle acoustique est un classifieur qui étiquette de courts fragments audio en l’un des quelques phonèmes, ou unités sonores, de chaque langue. Ces phonèmes peuvent être assemblés pour former des mots. Par exemple, le mot « vocal » comprend cinq phonèmes : « v », « o », « k », « a » et « l ». Ces classifications sont effectuées une centaine de fois par seconde. Une personnalisation du modèle acoustique peut permettre au système d’effectuer une meilleure reconnaissance vocale dans un environnement atypique. Par exemple, si vous avez une application conçue pour être utilisée par des ouvriers travaillant dans un entrepôt ou un atelier, un modèle acoustique personnalisé peut reconnaître de façon plus précise le discours en présence des bruits rencontrés dans ces environnements.

  • Le service Speech offre un vaste éventail de polices de la voix pour la synthèse vocale (TTS). Toutefois, la voix neuronale personnalisée vous permet de créer votre propre voix personnalisée, adaptée à vos besoins et à votre image de marque. Pour plus d’informations, lisez le blog.

  • Il existe des scénarios dans lesquels un ou plusieurs orateurs peuvent parler plusieurs langues sur le même fichier audio ou la même présentation en direct. La détection de la langue en continu vous permet d’identifier un commutateur dans la langue parlée et de transcrire la parole avec précision en conséquence. Cette fonctionnalité gratuite en préversion privée est accessible via le Kit de développement logiciel (SDK) Speech. Pour en savoir plus, consultez la documentation.

Discutez avec un spécialiste des ventes pour qu’il vous explique en détail la tarification Azure. Comprendre la tarification de votre solution cloud.

Profitez de services cloud gratuits et d’un crédit de $200 pour découvrir Azure pendant 30 jours.

Ajout à des fins d’estimation. Appuyez sur « v » pour afficher sur la calculatrice
Pouvons-nous vous aider ?