Services vocaux unifiés pour la reconnaissance vocale, la synthèse vocale et la traduction vocale
Les services Speech unifiés offrent un large éventail de fonctionnalités de reconnaissance vocale et de génération, notamment la transcription de la parole, la synthèse vocale et la traduction vocale. Les services Speech offrent un large éventail de fonctionnalités de reconnaissance vocale et de génération, notamment la transcription de la parole, la synthèse vocale, la traduction vocale et la reconnaissance de l’orateur.
Explorez les options tarifaires
Appliquez des filtres pour personnaliser les options de tarification à vos besoins.
Prices are estimates only and are not intended as actual price quotes. Actual pricing may vary depending on the type of agreement entered with Microsoft, date of purchase, and the currency exchange rate. Prices are calculated based on US dollars and converted using London closing spot rates that are captured in the two business days prior to the last business day of the previous month end. If the two business days prior to the end of the month fall on a bank holiday in major markets, the rate setting day is generally the day immediately preceding the two business days. This rate applies to all transactions during the upcoming month. Sign in to the Azure pricing calculator to see pricing based on your current program/offer with Microsoft. Contact an Azure sales specialist for more information on pricing or to request a price quote. See frequently asked questions about Azure pricing.
Les services fédéraux américains (US Government) peuvent acheter les services Azure Government auprès d’un fournisseur de solutions de licence, sans engagement financier initial, ou directement par le biais d’un abonnement en ligne avec paiement à l’utilisation.
Important : le prix en réal brésilien est donné à titre indicatif uniquement ; s’agissant d’une transaction internationale, le prix final dépend du taux de change et de la présence éventuelle de taxes. Aucun eNF ne sera émis.
Les services fédéraux américains (US Government) peuvent acheter les services Azure Government auprès d’un fournisseur de solutions de licence, sans engagement financier initial, ou directement par le biais d’un abonnement en ligne avec paiement à l’utilisation.
Important : le prix en réal brésilien est donné à titre indicatif uniquement ; s’agissant d’une transaction internationale, le prix final dépend du taux de change et de la présence éventuelle de taxes. Aucun eNF ne sera émis.
Gratuit (F0)
Catégorie | Fonctionnalités | Tarif |
---|---|---|
Reconnaissance vocale (facturation par seconde) |
Standard | 5 heures audio gratuites par mois3 |
API Web |
5 heures audio gratuites par mois3 Hébergement de point de terminaison : 1 modèle gratuit par mois1 |
|
Audio multicanal de transcription de conversation VERSION PRÉLIMINAIRE | 5 heures audio gratuites par mois | |
Synthèse vocale (facturation par caractère) |
Neuronal | 0.5 million millions de caractères gratuits par mois |
Traduction vocale (facturation par seconde) |
Standard | 5 heures audio gratuites par mois |
Reconnaissance de l'orateur (facturation par transaction) |
Vérification de l’orateur2 | 10,000 transactions gratuites par mois |
Identification de l’orateur2 | 10,000 transactions gratuites par mois | |
Stockage du profil vocal | 10,000 transactions gratuites par mois |
Paiement à l’utilisation : payez uniquement pour ce que vous utilisez.
Catégorie | Fonctionnalités | Tarif |
---|---|---|
Reconnaissance vocale (facturation par seconde) |
Standard | $- par heure |
API Web |
$- par heure Hébergement de point de terminaison : $- par modèle par heure |
|
Fonctionnalités améliorées du module complémentaire :
|
$- par heure par fonctionnalité | |
Audio multicanal de transcription de conversation VERSION PRÉLIMINAIRE | $- par heure1 | |
Synthèse vocale (facturation par caractère) |
Neuronal |
Synthèse en temps réel et par lots : $- tous les 1 million de
caractères Création de fichiers audio longs : $- tous les 1 million de caractères |
Neural personnalisé2 |
Formation : $- par heure de calcul, jusqu'à $- par formation Synthèse en temps réel et par lots : $- tous les 1 million de caractères Hébergement de point de terminaison : $- par modèle par heure Création de fichiers audio longs : $- tous les 1 million de caractères |
|
Traduction vocale (facturation par seconde) |
Standard | $- par heure audio |
Reconnaissance de l'orateur (facturation par transaction) |
Vérification de l’orateur3 | $- toutes les 1,000 transactions |
Identification de l’orateur3 | $- toutes les 1,000 transactions | |
Stockage du profil vocal | $- tous les 1,000 profils vocaux (10,000 profils vocaux gratuits par mois) |
Niveaux d’engagement
Instance | Catégorie | Fonctionnalités | Prix (par mois) | Dépassement |
---|---|---|---|---|
Azure - Standard | Reconnaissance vocale | Standard | $- pendant 2,000 heures | $- par heure |
$- pendant 10,000 heures | $- par heure | |||
$- pendant 50,000 heures | $- par heure | |||
API Web | $- pendant 2,000 heures | $- par heure | ||
$- pendant 10,000 heures | $- par heure | |||
$- pendant 50,000 heures | $- par heure | |||
Synthèse vocale | Neuronal1 | $- pour 80 M de caractères | $- par lot de 1 M de caractères | |
$- pour 400 M de caractères | $- par lot de 1 M de caractères | |||
$- pour 2,000 M de caractères | $- par lot de 1 M de caractères | |||
Conteneur connecté - Standard | Reconnaissance vocale | Standard | $- pendant 2,000 heures | $- par heure |
$- pendant 10,000 heures | $- par heure | |||
$- pendant 50,000 heures | $- par heure | |||
API Web | $- pendant 2,000 heures | $- par heure | ||
$- pendant 10,000 heures | $- par heure | |||
$- pendant 50,000 heures | $- par heure | |||
Synthèse vocale | Neuronal1 | $- pour 80 M de caractères | $- par lot de 1 M de caractères | |
$- pour 400 M de caractères | $- par lot de 1 M de caractères | |||
$- pour 2,000 M de caractères | $- par lot de 1 M de caractères |
Conteneur déconnecté
Instance | Catégorie | Fonctionnalités | Prix par an | Utilisation maximale par an | Utilisation attendue par mois |
---|---|---|---|---|---|
Conteneur déconnecté | Reconnaissance vocale | Standard |
$-
$- Inscrivez-vous pour obtenir l'accès. En savoir plus |
120 000 heures
600 000 heures |
10 000 heures
50 000 heures |
API Web |
$-
$- Inscrivez-vous pour obtenir l'accès. En savoir plus |
120 000 heures
600 000 heures |
10 000 heures
50 000 heures |
||
Synthèse vocale | Neuronal1 |
$-
$- Inscrivez-vous pour obtenir l'accès. En savoir plus |
4,8 milliards de caractères
24B caractères |
400 millions de caractères
2 000 millions de caractères |
Ces fonctionnalités sont déconseillées et ne sont disponibles que pour les clients existants. Consultez les détails et découvrez comment migrer vers de nouvelles fonctionnalités.
Instance | Catégorie | Fonctionnalités | Tarif |
---|---|---|---|
Gratuit - Web/conteneur 1 demandes simultanées |
Synthèse vocale | Standard | 5 million millions de caractères gratuits par mois |
API Web |
5 million millions de caractères gratuits par mois Hébergement de point de terminaison : 1 modèle gratuit par mois |
||
Standard - Web/Conteneur 100 demandes simultanées pour le modèle de base 20 demandes simultanées pour le modèle personnalisé |
Synthèse vocale | Standard | $- tous les 1 million de caractères |
API Web |
$- tous les 1 million de caractères Hébergement de point de terminaison : $- par modèle par heure |
Tarification et options d’achat Azure

Connectez-vous directement avec nous
Obtenez un guide pas à pas de la tarification Azure. Comprenez la tarification de votre solution cloud, découvrez l’optimisation des coûts et demandez une offre personnalisée.
Discuter avec un spécialiste des ventesDécouvrez les modalités d'achat
Achetez des services Azure via le site web Azure, un représentant Azure ou un partenaire Azure.
Explorez vos optionsRessources supplémentaires
Azure AI Speech
En savoir plus sur les fonctionnalités et capacités Azure AI Speech.
Calculatrice de prix
Estimez vos coûts mensuels pour l’utilisation des différentes combinaisons de produits Azure.
Documentation
Consulter les didacticiels et vidéos techniques, et d’autres ressources Azure AI Speech.
Forum Aux Questions
-
- Pour la reconnaissance vocale et la traduction vocale, l’utilisation est facturée par incréments d’une seconde.
- Pour la synthèse vocale : l’utilisation est facturée par caractère. Vérifiez la définition d’un caractère dans les notes sur la tarification.
- Pour la reconnaissance vocale et la synthèse vocale, l’hébergement de points de terminaison pour les modèles personnalisés est facturé par seconde et par modèle.
- Pour les commandes personnalisées : la facturation suit la consommation Reconnaissance vocale, Synthèse vocale et Language Understanding. Les commandes personnalisées ne donnent pas lieu à de nouveaux compteurs de facturation.
- L’entraînement des modèles de la reconnaissance vocale n’entraîne aucuns frais. Les seuls coûts sont pour l’hébergement de point de terminaison par modèle une fois déployé, puis le coût par heure audio de la reconnaissance vocale personnalisée.
-
Le service vocal Speech permet aux utilisateurs d’adapter des modèles de base en fonction de leurs propres données acoustiques et linguistiques, produisant ainsi des modèles vocaux personnalisés qui peuvent être utilisés avec la reconnaissance vocale et la traduction vocale.
-
Le modèle linguistique est une distribution de probabilité sur des séquences de mots. Le modèle linguistique aide le système à opérer un choix parmi des séquences de mots homophones, en se basant sur la probabilité des séquences de mots elles-mêmes. Par exemple, les groupes de mots « séquence vocale » et « c’est quand ce veau cale » se prononcent de la même manière mais, la première hypothèse étant sensiblement plus probable, le modèle linguistique lui attribue un score supérieur. Si vous vous attendez à ce que les requêtes vocales adressées à votre application contiennent des éléments de vocabulaire particuliers, tels que des noms de produits ou des mots de jargon technique rarement rencontrés dans un discours ordinaire, vous obtiendrez probablement de meilleures performances en personnalisant le modèle linguistique. Par exemple, imaginons que vous construisez une application pour rechercher sur MSDN à l’aide de la voix. Il est probable que des termes tels que « orienté objet » ou « espace de noms » apparaissent plus fréquemment que dans des applications vocales ordinaires. La personnalisation du modèle linguistique permet au système d’apprendre cela.
-
Le modèle acoustique est un classifieur qui étiquette de courts fragments audio en l’un des quelques phonèmes, ou unités sonores, de chaque langue. Ces phonèmes peuvent être assemblés pour former des mots. Par exemple, le mot « vocal » comprend cinq phonèmes : « v », « o », « k », « a » et « l ». Ces classifications sont effectuées une centaine de fois par seconde. Une personnalisation du modèle acoustique peut permettre au système d’effectuer une meilleure reconnaissance vocale dans un environnement atypique. Par exemple, si vous avez une application conçue pour être utilisée par des ouvriers travaillant dans un entrepôt ou un atelier, un modèle acoustique personnalisé peut reconnaître de façon plus précise le discours en présence des bruits rencontrés dans ces environnements.
-
Le service Speech offre un vaste éventail de polices de la voix pour la synthèse vocale (TTS). Toutefois, la voix neuronale personnalisée vous permet de créer votre propre voix personnalisée, adaptée à vos besoins et à votre image de marque. Pour plus d’informations, lisez le blog.
-
L'identification de la langue vous permet d'identifier un changement de langue parlée et de transcrire la parole en conséquence. Cela peut être appliqué dans des scénarios où la langue audio est inconnue ou lorsque le ou les locuteurs peuvent parler plusieurs langues. L'identification en une seule langue est disponible sans frais supplémentaires. L'identification continue de la langue est une fonction complémentaire améliorée. Consultez les documents pour en savoir plus.
-
- L'évaluation de la prononciation évalue la prononciation de la parole et donne aux locuteurs des informations sur la précision et la fluidité de l'audio parlé. Grâce à l'évaluation de la prononciation, les apprenants en langues peuvent s'entraîner, obtenir des commentaires instantanés et améliorer leur prononciation afin de pouvoir parler et présenter en toute confiance. Les éducateurs peuvent utiliser la capacité d'évaluer la prononciation de plusieurs locuteurs en temps réel. Visitez docs pour apprendre plus.
- Il est facturé en standard Speech to Text, exemple :
Pour l'évaluation de 8 secondes de parole, vous serez facturé environ $-
Discutez avec un spécialiste des ventes pour qu’il vous explique en détail la tarification Azure. Comprendre la tarification de votre solution cloud.
Profitez de services cloud gratuits et d’un crédit de $200 pour découvrir Azure pendant 30 jours.