tarification de Azure AI Speech

Services vocaux unifiés pour la reconnaissance vocale, la synthèse vocale et la traduction vocale

Les services Speech unifiés offrent un large éventail de fonctionnalités de reconnaissance vocale et de génération, notamment la transcription de la parole, la synthèse vocale et la traduction vocale. Les services Speech offrent un large éventail de fonctionnalités de reconnaissance vocale et de génération, notamment la transcription de la parole, la synthèse vocale, la traduction vocale et la reconnaissance de l’orateur.

Explorez les options tarifaires

Appliquez des filtres pour personnaliser les options de tarification à vos besoins.

Les prix ne sont que des estimations et ne sont pas destinés à être des devis réels. Le prix réel peut varier selon le type de contrat conclu avec Microsoft, la date d'achat et le taux de change. Les prix sont calculés en dollars américains et convertis à l'aide des taux de clôture au comptant de Londres saisis au cours des deux jours ouvrables précédant le dernier jour ouvrable de la fin du mois précédent. Si les deux jours ouvrables précédant la fin du mois tombent un jour férié sur les principaux marchés, le jour de fixation des taux est généralement le jour précédant immédiatement les deux jours ouvrables. Ce taux s'applique à toutes les transactions du mois à venir. Connectez-vous au calculateur de prix Azure pour voir les prix en fonction de votre programme/offre actuel avec Microsoft. Contactez un spécialiste des ventes Azure pour plus d'informations sur les prix ou pour demander un devis. Consultez les questions fréquemment posées sur la tarification Azure.

Région :

Devise:

Gratuit (F0)

Consultez la documentation pour plus d’informations sur les quotas, les limites et les instructions sur l’augmentation des demandes simultanées.

¹Les modèles inutilisés sont automatiquement retirés après 7 jours.

²La reconnaissance de l'orateur est une fonctionnalité d’accès limité qui nécessite de faire une demande pour y accéder.

³Les heures audio gratuites pour la reconnaissance vocale sont partagées entre Standard et Personnalisé, le lot n'est pas pris en charge.
Catégorie	Fonctionnalités	Tarif
Reconnaissance vocale (facturation par seconde)	Standard	5 heures audio gratuites par mois³
	API Web	5 heures audio gratuites par mois³ Hébergement de point de terminaison : 1 modèle gratuit par mois¹
	Audio multicanal de transcription de conversation ^{VERSION PRÉLIMINAIRE}	5 heures audio gratuites par mois
Synthèse vocale (facturation par caractère)	Neuronal	0.5 million millions de caractères gratuits par mois
Traduction vocale (facturation par seconde)	Standard	5 heures audio gratuites par mois
Reconnaissance de l'orateur (facturation par transaction)	Vérification de l’orateur²	10,000 transactions gratuites par mois
	Identification de l’orateur²	10,000 transactions gratuites par mois
	Stockage du profil vocal	10,000 transactions gratuites par mois

Paiement à l’utilisation : payez uniquement pour ce que vous utilisez.

Consultez la documentation pour plus d’informations sur les quotas, les limites et les instructions sur l’augmentation des demandes simultanées.

Les heures de reconnaissance vocale sont mesurées comme les heures d'audio envoyées au service, facturées par seconde.

¹ Ceci tient compte du tarif de la préversion publique. Le tarif de la mise à la disposition générale sera annoncé plus tard au moment de son application

² Voix neuronale personnalisée (CNV) est une fonctionnalité d’accès limité avec les versions Pro et Lite. Avec CNV Lite (préversion publique), les clients peuvent enregistrer leur propre voix et créer un modèle pour la démonstration/évaluation, avant dedemander l’accès à Pro. Découvrez où CNV est disponible.

³ La reconnaissance de l'orateur est une fonctionnalité d’accès limité qui nécessite de faire une demande pour y accéder.

⁴ Pour bénéficier de cette nouvelle tarification, vous devez utiliser la nouvelle conversion de parole en texte API REST V3.2. Voir Créer une transcription par lot – Service Speech– Services Azure AI | Microsoft Learn pour plus d’informations sur l’utilisation de la nouvelle API de prévisualisation v3.2.

⁵ Les fonctionnalités du module complémentaire améliorées sont incluses dans le prix de lot pour toutes les versions de lot de l’API.

⁶ Custom Speech s’applique à la personnalisation de tout modèle de base commercialisé à partir du 1er octobre 2023.

⁷ Ce prix comprend 1 entrée et sortie audio, jusqu'à 2 langues de traduction de texte utilisant la Reconnaissance vocale standard ou personnalisée et la traduction standard. Pour une traduction personnalisée ou plus de 3 langues de traduction, veuillez consulter la page de tarification de la traduction de texte Azure AI Translator.

⁸ Cela reflète la tarification de la préversion publique. Le prix GA sera annoncé plus tard lors de GA. Personal Voice est une fonctionnalité à accès limité réservée à certains cas d'utilisation pré-approuvés uniquement, avec la nécessité de demander l'accès. Pour en savoir plus sur le service, vérifier le document.

⁹ L'avatar personnalisé est une fonctionnalité à accès limité avec la nécessité de demander l'accès
Catégorie	Fonctionnalités	Tarif
Reconnaissance vocale (facturation par seconde)		Temps réel	Lot API v3.2 ou ultérieure⁴
	Standard	$- par heure	$- par heure
	API Web	$- par heure Hébergement de point de terminaison : $- par modèle par heure	$- par heure Hébergement de point de terminaison : N/A
	Formation Custom Speech⁶	$- par heure de calcul
	Fonctionnalités améliorées du module complémentaire : Identification continue de la langue Diarisation Évaluation de la prononciation (prosodie, grammaire, vocabulaire, sujet)	$- par heure par fonctionnalité	Identification et journalisation continue de la langue incluses⁵
	Audio multicanal de transcription de conversation ^{VERSION PRÉLIMINAIRE}	$- par heure¹	N/A
Synthèse vocale (facturation par caractère)	Neuronal	Synthèse en temps réel et par lots : $- tous les 1 million de caractères
	HD neural	Synthèse en temps réel et par lots : $- par 1 million de caractères
	Neural personnalisé²	Formation : $- par heure de calcul, jusqu'à $- par formation Synthèse en temps réel et par lots : $- tous les 1 million de caractères Hébergement de point de terminaison : $- par modèle par heure
	Voice personnelle⁸	Création de Voice : gratuit Stockage du profil Voice : $- pour 1 000 profils vocaux par mois Synthèse : $- par 1 million de caractères
Avatar de synthèse vocale (facturation à la seconde)	Avatar	Temps réel et synthèse du lot : $- par minute
Avatar de synthèse vocale (facturation à la seconde)	Avatar personnalisé⁹	Synthèse en temps réel : $- par minute Synthèse par lots : $- par minute Hébergement de point de terminaison : $- par modèle et par heure
Traduction vocale (facturation par seconde)	Standard	$- par heure audio⁷
Reconnaissance de l'orateur (facturation par transaction)	Vérification de l’orateur³	$- toutes les 1,000 transactions
	Identification de l’orateur³	$- toutes les 1,000 transactions
	Stockage du profil vocal	$- tous les 1,000 profils vocaux (10,000 profils vocaux gratuits par mois)

Niveaux d'engagement – Azure – Standard

Catégorie	Fonctionnalités	Prix (par mois)	Dépassement
Reconnaissance vocale	Standard	$- pendant 2,000 heures	$- par heure
		$- pendant 10,000 heures	$- par heure
		$- pendant 50,000 heures	$- par heure
	API Web	$- pendant 2,000 heures	$- par heure
		$- pendant 10,000 heures	$- par heure
		$- pendant 50,000 heures	$- par heure
	Fonctionnalités améliorées du module complémentaire :² Identification continue de la langue Diarisation Évaluation de la prononciation (prosodie, grammaire, vocabulaire, sujet)	$- pendant 2,000 heures	$- par heure
		$- pendant 10,000 heures	$- par heure
		$- pendant 50,000 heures	$- par heure
Synthèse vocale	Neuronal¹	$- pour 80 M de caractères	$- par lot de 1 M de caractères
		$- pour 400 M de caractères	$- par lot de 1 M de caractères
		$- pour 2,000 M de caractères	$- par lot de 1 M de caractères

¹La synthèse en temps réel uniquement, cela n’inclut pas la création audio longue.

²Parole en texte en temps réel uniquement, fonctionnalités complémentaires d'identification continue du langage et de diarisation incluses avec la reconnaissance vocale par lots.

Niveaux d'engagement – Conteneur connecté

Catégorie	Fonctionnalités	Prix (par mois)	Dépassement
Reconnaissance vocale²	Standard	$- pendant 2,000 heures	$- par heure
		$- pendant 10,000 heures	$- par heure
		$- pendant 50,000 heures	$- par heure
	API Web	$- pendant 2,000 heures	$- par heure
		$- pendant 10,000 heures	$- par heure
		$- pendant 50,000 heures	$- par heure
	Fonctionnalités améliorées du module complémentaire :² Identification de la langue Diarisation	$- pendant 2,000 heures	$- par heure
		$- pendant 10,000 heures	$- par heure
		$- pendant 50,000 heures	$- par heure
Synthèse vocale	Neuronal¹	$- pour 80 M de caractères	$- par lot de 1 M de caractères
		$- pour 400 M de caractères	$- par lot de 1 M de caractères
		$- pour 2,000 M de caractères	$- par lot de 1 M de caractères

¹La synthèse en temps réel uniquement, cela n’inclut pas la création audio longue.

²La tarification s’applique aux cas d’utilisation en temps réel et par lots. Il n’existe pas de prix de lot distinct pour les conteneurs.

Consultez la documentation pour plus d'informations sur les niveaux d'engagement.

Niveaux d'engagement – Conteneur déconnecté

Inscrivez-vous pour accéder à la parole dans des conteneurs déconnectés ou en savoir plus

Catégorie	Fonctionnalités	Prix (par an)	Utilisation maximale (par an)	Utilisation projetée (par mois)
Reconnaissance vocale²	Standard	$- $- Inscrivez-vous pour obtenir l'accès. En savoir plus	120 000 heures 600 000 heures	10 000 heures 50 000 heures
	API Web	$- $- Inscrivez-vous pour obtenir l'accès. En savoir plus	120 000 heures 600 000 heures	10 000 heures 50 000 heures
	Fonctionnalités améliorées du module complémentaire : Identification de la langue Diarisation	$- $-	120 000 heures 600 000 heures	10 000 heures 50 000 heures
Synthèse vocale	Neuronal¹	$- $- Inscrivez-vous pour obtenir l'accès. En savoir plus	4,8 milliards de caractères 24B caractères	400 millions de caractères 2 000 millions de caractères

¹La synthèse en temps réel uniquement, cela n’inclut pas la création audio longue.

²La tarification s’applique aux cas d’utilisation en temps réel et par lots. Il n’existe pas de prix de lot distinct pour les conteneurs.

Ces fonctionnalités sont déconseillées et ne sont disponibles que pour les clients existants. Consultez les détails et découvrez comment migrer vers de nouvelles fonctionnalités.

Instance	Catégorie	Fonctionnalités	Tarif
Gratuit - Web/conteneur 1 demandes simultanées	Synthèse vocale	Standard	5 million millions de caractères gratuits par mois
Gratuit - Web/conteneur 1 demandes simultanées	Synthèse vocale	API Web	5 million millions de caractères gratuits par mois Hébergement de point de terminaison : 1 modèle gratuit par mois
Standard - Web/Conteneur 100 demandes simultanées pour le modèle de base 20 demandes simultanées pour le modèle personnalisé	Synthèse vocale	Standard	$- tous les 1 million de caractères
	Synthèse vocale	API Web	$- tous les 1 million de caractères Hébergement de point de terminaison : $- par modèle par heure

Tarification et options d’achat Azure

Connectez-vous directement avec nous

Obtenez un guide pas à pas de la tarification Azure. Comprenez la tarification de votre solution cloud, découvrez l’optimisation des coûts et demandez une offre personnalisée.

Discuter avec un spécialiste des ventes

Découvrez les modalités d'achat

Achetez des services Azure via le site web Azure, un représentant Azure ou un partenaire Azure.

Explorez vos options

Ressources supplémentaires

Forum Aux Questions

Forum aux questions sur la tarification Azure

- Pour la reconnaissance vocale et la traduction vocale, l’utilisation est facturée par incréments d’une seconde.
- Pour la synthèse vocale : l’utilisation est facturée par caractère. Vérifiez la définition d’un caractère dans les notes sur la tarification.
- Pour l'hébergement vocal neural personnalisé : l'utilisation est facturée par point de terminaison et par seconde. Vérifiez les détails dans la note de prix.
- Pour le stockage de profils vocaux personnels : l'utilisation est facturée par profil vocal et par jour. Vérifiez les détails dans la note de prix.
- Pour l’avatar Synthèse vocale, l’utilisation est facturée par seconde.
- Pour Reconnaissance vocale et Synthèse vocale (y compris Avatar), l’hébergement des points de terminaison pour les modèles personnalisés est facturé à la seconde et par modèle.
Le service vocal Speech permet aux utilisateurs d’adapter des modèles de base en fonction de leurs propres données acoustiques et linguistiques, produisant ainsi des modèles vocaux personnalisés qui peuvent être utilisés avec la reconnaissance vocale et la traduction vocale.
Le modèle linguistique est une distribution de probabilité sur des séquences de mots. Le modèle linguistique aide le système à opérer un choix parmi des séquences de mots homophones, en se basant sur la probabilité des séquences de mots elles-mêmes. Par exemple, les groupes de mots « séquence vocale » et « c’est quand ce veau cale » se prononcent de la même manière mais, la première hypothèse étant sensiblement plus probable, le modèle linguistique lui attribue un score supérieur. Si vous vous attendez à ce que les requêtes vocales adressées à votre application contiennent des éléments de vocabulaire particuliers, tels que des noms de produits ou des mots de jargon technique rarement rencontrés dans un discours ordinaire, vous obtiendrez probablement de meilleures performances en personnalisant le modèle linguistique. Par exemple, imaginons que vous construisez une application pour rechercher sur MSDN à l’aide de la voix. Il est probable que des termes tels que « orienté objet » ou « espace de noms » apparaissent plus fréquemment que dans des applications vocales ordinaires. La personnalisation du modèle linguistique permet au système d’apprendre cela.
Le modèle acoustique est un classifieur qui étiquette de courts fragments audio en l’un des quelques phonèmes, ou unités sonores, de chaque langue. Ces phonèmes peuvent être assemblés pour former des mots. Par exemple, le mot « vocal » comprend cinq phonèmes : « v », « o », « k », « a » et « l ». Ces classifications sont effectuées une centaine de fois par seconde. Une personnalisation du modèle acoustique peut permettre au système d’effectuer une meilleure reconnaissance vocale dans un environnement atypique. Par exemple, si vous avez une application conçue pour être utilisée par des ouvriers travaillant dans un entrepôt ou un atelier, un modèle acoustique personnalisé peut reconnaître de façon plus précise le discours en présence des bruits rencontrés dans ces environnements.
Le service Speech offre un vaste éventail de polices de la voix pour la synthèse vocale (TTS). Toutefois, la voix neuronale personnalisée vous permet de créer votre propre voix personnalisée, adaptée à vos besoins et à votre image de marque. Pour plus d’informations, lisez le blog.
L'identification de la langue vous permet d'identifier un changement de langue parlée et de transcrire la parole en conséquence. Cela peut être appliqué dans des scénarios où la langue audio est inconnue ou lorsque le ou les locuteurs peuvent parler plusieurs langues. L'identification en une seule langue est disponible sans frais supplémentaires. L'identification continue de la langue est une fonction complémentaire améliorée. Consultez les documents pour en savoir plus.
- L'évaluation de la prononciation évalue la prononciation de la parole et donne aux locuteurs des informations sur la précision et la fluidité de l'audio parlé. Grâce à l'évaluation de la prononciation, les apprenants en langues peuvent s'entraîner, obtenir des commentaires instantanés et améliorer leur prononciation afin de pouvoir parler et présenter en toute confiance. Les éducateurs peuvent utiliser la capacité d'évaluer la prononciation de plusieurs locuteurs en temps réel. Visitez docs pour apprendre plus.
- Il est facturé en standard Speech to Text, exemple :
  Pour l'évaluation de 8 secondes de parole, vous serez facturé environ $-

Discutez avec un spécialiste des ventes pour qu’il vous explique en détail la tarification Azure. Comprendre la tarification de votre solution cloud.

Demander un devis

Profitez de services cloud gratuits et d’un crédit de $200 pour découvrir Azure pendant 30 jours.

Essayez Azure gratuitement

Tarification Azure AI Speech

Services vocaux unifiés pour la reconnaissance vocale, la synthèse vocale et la traduction vocale

Explorez les options tarifaires

Gratuit (F0)

Paiement à l’utilisation : payez uniquement pour ce que vous utilisez.

Niveaux d'engagement – Azure – Standard

Niveaux d'engagement – Conteneur connecté

Niveaux d'engagement – Conteneur déconnecté

Déconseillé

Tarification et options d’achat Azure

Connectez-vous directement avec nous

Découvrez les modalités d'achat

Ressources supplémentaires

Azure AI Speech

Calculatrice de prix

Documentation

Forum Aux Questions

Sélection

IA + Machine Learning

Analyse

Calcul

Conteneurs

Bases de données

DevOps

Outils de développement

Hybride + multicloud

Identité

Intégration

Internet des Objets

Gestion et gouvernance

Données multimédias

Migration

Réalité mixte

Mobile

Mise en réseau

Sécurité

Stockage

Web

Bureau virtuel Windows

Cas d'utilisation

Développement d’applications

IA

Migration et modernisation cloud

Données et analyse

Cloud hybride et infrastructure

Internet des Objets

Sécurité et gouvernance

Type d’organisation

Ressources

Tarification Azure AI Speech

Services vocaux unifiés pour la reconnaissance vocale, la synthèse vocale et la traduction vocale

Explorez les options tarifaires

Gratuit (F0)

Paiement à l’utilisation : payez uniquement pour ce que vous utilisez.

Niveaux d'engagement – Azure – Standard

Niveaux d'engagement – Conteneur connecté

Niveaux d'engagement – Conteneur déconnecté

Déconseillé

Tarification et options d’achat Azure

Connectez-vous directement avec nous

Découvrez les modalités d'achat

Ressources supplémentaires

Azure AI Speech

Calculatrice de prix

Documentation

Forum Aux Questions