Vue d’ensemble de la tarification d’Azure OpenAI Service
Pour aider les clients dans le parcours, nous proposons des solutions de tarification et de gestion des coûts pour répondre à vos besoins. y compris :
- Standard (à la demande) : Paiement à l’utilisation pour les jetons d’entrée et de sortie.
- Approvisionné (PTUS) : Allouez un débit avec des coûts prévisibles, avec des réservations mensuelles et annuelles disponibles pour réduire les dépenses globales.
- Lot API : Les modèles de langage sont également désormais disponibles dans l’API Batch pour les déploiements globaux et dans trois régions, qui renvoie les données complétées dans les 24 heures pour une réduction de 50 % par rapport à la tarification standard mondiale.
- Déploiement global – Référence SKU globale
- Déploiement de zone de données : basé sur une zone géographique (UE ou États-Unis)
- Déploiement régional – Région locale (jusqu’à 27 régions)
Explorez les options tarifaires
Appliquez des filtres pour personnaliser les options de tarification à vos besoins.
Les prix ne sont que des estimations et ne sont pas destinés à être des devis réels. Le prix réel peut varier selon le type de contrat conclu avec Microsoft, la date d'achat et le taux de change. Les prix sont calculés en dollars américains et convertis à l'aide des taux de clôture au comptant de Londres saisis au cours des deux jours ouvrables précédant le dernier jour ouvrable de la fin du mois précédent. Si les deux jours ouvrables précédant la fin du mois tombent un jour férié sur les principaux marchés, le jour de fixation des taux est généralement le jour précédant immédiatement les deux jours ouvrables. Ce taux s'applique à toutes les transactions du mois à venir. Connectez-vous au calculateur de prix Azure pour voir les prix en fonction de votre programme/offre actuel avec Microsoft. Contactez un spécialiste des ventes Azure pour plus d'informations sur les prix ou pour demander un devis. Consultez les questions fréquemment posées sur la tarification Azure.
Les services fédéraux américains (US Government) peuvent acheter les services Azure Government auprès d’un fournisseur de solutions de licence, sans engagement financier initial, ou directement par le biais d’un abonnement en ligne avec paiement à l’utilisation.
Important : le prix en réal brésilien est donné à titre indicatif uniquement ; s’agissant d’une transaction internationale, le prix final dépend du taux de change et de la présence éventuelle de taxes. Aucun eNF ne sera émis.
Les services fédéraux américains (US Government) peuvent acheter les services Azure Government auprès d’un fournisseur de solutions de licence, sans engagement financier initial, ou directement par le biais d’un abonnement en ligne avec paiement à l’utilisation.
Important : le prix en réal brésilien est donné à titre indicatif uniquement ; s’agissant d’une transaction internationale, le prix final dépend du taux de change et de la présence éventuelle de taxes. Aucun eNF ne sera émis.
o3
o3 is a powerful reasoning model from the o-series of reasoning models, pushing the frontier across coding, math, science, and visual perception. It excels in complex queries requiring multi-faceted analysis and performs strongly in visual tasks like analyzing images, charts, and graphics. The model features a 200K token context window and has a knowledge cutoff of June 2024.
Modèle | Tarification (1 million de jetons) | Tarification avec l’API Batch (1 million de jetons) |
---|---|---|
o3 2025-04-16 |
Entrée: $- Entrée mise en cache: $- Sortie: $- |
N/A |
o4-mini
o4-mini is a compact, efficient, and cost-effective reasoning model from OpenAI's o-series. It excels in math, coding, and visual tasks. The model features a 200K token context window and has a knowledge cutoff of June 2024.
Modèle | Tarification (1 million de jetons) | Tarification avec l’API Batch (1 million de jetons) |
---|---|---|
o4-mini 2025-04-16 |
Entrée: $- Entrée mise en cache: $- Sortie: $- |
N/A |
GPT-4.1 series
GPT-4.1 series is a highly advanced general-purpose model with extensive world knowledge and an enhanced ability to understand user intent, making it particularly adept at creative tasks and agentic planning. The series features a 1 million token context window and has a knowledge cutoff of June 2024.
Modèle | Tarification (1 million de jetons) | Tarification avec l’API Batch (1 million de jetons) |
---|---|---|
GPT-4.1-2025-04-14 |
Entrée: $- Entrée mise en cache: $- Sortie: $- |
N/A |
GPT-4.1-mini-2025-04-14 |
Entrée: $- Entrée mise en cache: $- Sortie: $- |
N/A |
GPT-4.1-nano-2025-04-14 |
Entrée: $- Entrée mise en cache: $- Sortie: $- |
N/A |
GPT-4.5
GPT-4.5 Aperçu est le dernier modèle à usage général, doté d'une connaissance approfondie du monde et d'une meilleure compréhension de l'intention de l'utilisateur(-trice), ce qui le rend efficace pour les tâches créatives et la planification agentique. Le modèle a un contexte de 128K et une date limite de connaissance d'octobre 2023.
Modèle | Tarification (1 million de jetons) | Tarification avec l’API Batch (1 million de jetons) |
---|---|---|
GPT-4.5-Preview-2025-02-27 Global |
Entrée: $- Entrée mise en cache: $- Sortie: $- |
N/A |
o1
o1 est la nouvelle série de modèles de raisonnement pour les tâches complexes. Le modèle a un contexte de 200K et un seuil de connaissances en octobre 2023.
Modèle | Tarification (1 million de jetons) | Tarification avec l’API Batch (1 million de jetons) |
---|---|---|
o1 2024-12-17 global |
Entrée: $- Entrée mise en cache: $- Sortie: $- |
N/A |
o1 2024-12-17 US/EU – Zones de données |
Entrée: $- Entrée mise en cache: $- Sortie: $- |
N/A |
o1 2024-12-17 régional |
Entrée: $- Entrée mise en cache: $- Sortie: $- |
N/A |
o1 préversion 2024-09-12 global |
Entrée: $- Entrée mise en cache: $- Sortie: $- |
N/A |
o1 préversion 2024-09-12 US/EU – Zones de données |
Entrée: $- Entrée mise en cache: $- Sortie: $- |
N/A |
o1 préversion 2024-09-12 régional |
Entrée: $- Entrée mise en cache: $- Sortie: $- |
N/A |
Planifier avec la Calculatrice de prix
o3 Mini
Le modèle o3 mini est la version actualisée du modèle o1 mini. o3-mini est un modèle de raisonnement rapide et économique adapté aux cas d’utilisation liés au codage, aux mathématiques et aux sciences.
Le modèle o3-mini dispose désormais d’une fenêtre d’entrée contextuelle élargie à 200 000 jetons et d’une sortie maximale de 100 000 jetons, ce qui offre suffisamment d’espace pour des réponses complexes et détaillées. L’entrée contextuelle du modèle o1 mini est de 128K. Les modèles o3 et o1 ont une date limite de connaissance fixée à octobre 2023.
Modèle | Tarification (1 million de jetons) | Tarification avec l’API Batch (1 million de jetons) |
---|---|---|
o3 mini 2025-01-31 global |
Entrée: $- Entrée mise en cache: $- Sortie: $- |
Entrée: $- Sortie: $- |
o3 mini 2025-01-31-US/EU – Zones de données |
Entrée: $- Entrée mise en cache: $- Sortie: $- |
Entrée: $- Sortie: $- |
o3 mini 2025-01-31 régional |
Entrée: $- Entrée mise en cache: $- Sortie: $- |
N/A |
o1-mini 2024-09-12 global |
Entrée: $- Entrée mise en cache: $- Sortie: $- |
N/A |
o1-mini 2024-09-12 US/EU – Zones de données |
Entrée: $- Entrée mise en cache: $- Sortie: $- |
N/A |
o1-mini 2024-09-12 régional |
Entrée: $- Entrée mise en cache: $- Sortie: $- |
N/A |
Planifier avec la Calculatrice de prix
Agent d'utilisation de l'ordinateur (CUA)
L'Agent Computer-Using (CUA) est un modèle d'IA spécialisé qui permet à l'IA d'interagir avec des interfaces utilisateur graphiques (GUI), de naviguer dans des applications et d'automatiser des tâches en plusieurs étapes, le tout grâce à des instructions en langage naturel. Le modèle CUA peut être utilisé comme outil dans l'API Responses.
Modèle | Tarification |
---|---|
Aperçu de l'utilisation de l'ordinateur Global |
Entrée: $-/1M de jetons Sortie: $-/1M de jetons |
Outils intégrés
L’API Réponses et l’API Assistants permettent une interaction transparente avec des outils tels que l’utilisation d’ordinateurs, l’interpréteur de code, les appels de fonction et la recherche de fichiers, ce qui permet aux développeurs de créer facilement des agents IA.
Outil | Entrée |
---|---|
Utilisation de l'ordinateur (API de réponses uniquement) |
Entrée: $-/1M de jetons Sortie: $-/1M de jetons |
Appel de l’outil de recherche de fichiers (API réponses uniquement) | Appels de l’outil /1K$- |
Recherche de fichiers* | $- / Go de stockage vectoriel par jour (1 Go gratuit) |
Interpréteur de code** | $- / session |
*Go fait référence à des gigaoctets binaires, où 1 Go correspond à 2^30 octets.
**Si votre assistant appelle l’interpréteur de code simultanément dans deux threads différents, cela créera deux sessions d’interpréteur de code (2 * $-). Chaque session est active par défaut pendant une heure, ce qui signifie que vous ne paierez ces frais qu'une seule fois si votre utilisateur continue de donner des instructions à l’interpréteur de code dans la même conversation pendant une heure maximum.
Le coût d’inférence (entrée et sortie) varie en fonction du modèle GPT utilisé avec chaque assistant. Si votre assistant appelle l’interpréteur de code simultanément dans deux conversations différentes, cela créera deux sessions d’interpréteur de code (2 * $-). Chaque session est active par défaut pendant une heure, ce qui signifie que le prix correspond à une heure maximum d’instructions fournies à l’interpréteur de code dans la même conversation.
API Temps réel
Proposé dans l’API Temps réel, le modèle GPT-4o-Realtime-Preview prend en charge les fonctionnalités de reconnaissance vocale multilingues. Optimisé pour les conversations en temps réel à faible latence, il permet des interactions naturelles avec un minimum de retard et convient très bien pour les chatbots et l’IA conversationnelle. GPT-4o est la version complète et plus puissante conçue pour des tâches complexes, alors que GPT-4o Mini est une option plus petite et plus économique, idéale pour des applications plus simples où la rentabilité et la rapidité sont des priorités.
Modèle | Tarification (1 million de jetons) |
---|---|
GPT-4o-Realtime-Preview-2024-12-17-Global |
Texte Entrée: $- Entrée mise en cache: $- Sortie: $- Audio Entrée: $- Entrée mise en cache: $- Sortie: $- |
GPT-4o-Realtime-Preview-2024-12-17-USA/EU – Zones de données |
Texte Entrée: $- Entrée mise en cache: $- Sortie: $- Audio Entrée: $- Entrée mise en cache: $- Sortie: $- |
GPT-4o-Realtime-Preview-2024-12-17-Régional |
Texte Entrée: $- Entrée mise en cache: $- Sortie: $- Audio Entrée: $- Entrée mise en cache: $- Sortie: $- |
GPT-4o-Mini-Realtime-Preview-2024-12-17-Global |
Texte Entrée: $- Entrée mise en cache: $- Sortie: $- Audio Entrée: $- Entrée mise en cache: $- Sortie: $- |
GPT-4o-Mini-Realtime-Preview-2024-12-17-USA/EU – Zones de données |
Texte Entrée: $- Entrée mise en cache: $- Sortie: $- Audio Entrée: $- Entrée mise en cache: $- Sortie: $- |
GPT-4o-Mini-Realtime-Preview-2024-12-17-Régional |
Texte Entrée: $- Entrée mise en cache: $- Sortie: $- Audio Entrée: $- Entrée mise en cache: $- Sortie: $- |
GPT-4o-Realtime-Preview-2024-10-01-Global |
Texte Entrée: $- Entrée mise en cache: $- Sortie: $- Audio Entrée: $- Entrée mise en cache: $- Sortie: $- |
GPT-4o-Realtime-Preview-2024-10-01-USA/EU – Zones de données |
Texte Entrée: $- Entrée mise en cache: $- Sortie: $- Audio Entrée: $- Entrée mise en cache: $- Sortie: $- |
GPT-4o-Realtime-Preview-2024-10-01-Régional |
Texte Entrée: $- Entrée mise en cache: $- Sortie: $- Audio Entrée: $- Entrée mise en cache: $- Sortie: $- |
API Completions de conversation
Proposé dans l’API Completions de conversation, le modèle GPT 4o-Audio-Preview traite et génère du contenu audio. Il prend en charge des fonctionnalités avancées telles que la reconnaissance vocale et la synthèse audio, idéales pour les interactions vocales asynchrones et l’analyse des sentiments. GPT-4o est la version complète et plus puissante conçue pour des tâches complexes, alors que GPT-4o Mini est une option plus petite et plus économique, idéale pour des applications plus simples où la rentabilité et la rapidité sont des priorités.
Modèle | Tarification (1 million de jetons) |
---|---|
GPT-4o-Audio-Preview-2024-12-17-Global |
Texte Entrée: $- Sortie: $- Audio Entrée: $- Sortie: $- |
GPT-4o-Audio-Preview-2024-12-17-USA/EU – Zones de données |
Texte Entrée: $- Sortie: $- Audio Entrée: $- Sortie: $- |
GPT-4o-Audio-Preview-2024-12-17-Régional |
Texte Entrée: $- Sortie: $- Audio Entrée: $- Sortie: $- |
GPT-4o-Mini-Audio-Preview-2024-12-17-Global |
Texte Entrée: $- Sortie: $- Audio Entrée: $- Sortie: $- |
GPT-4o-Mini-Audio-Preview-2024-12-17-USA/EU – Zones de données |
Texte Entrée: $- Sortie: $- Audio Entrée: $- Sortie: $- |
GPT-4o-Mini-Audio-Preview-2024-12-17-Régional |
Texte Entrée: $- Sortie: $- Audio Entrée: $- Sortie: $- |
GPT-4o
Le GPT-4o est le modèle multimodal le plus avancé, plus rapide et moins cher que le GPT-4 Turbo, avec des capacités de vision plus importantes. Le modèle a un contexte de 128K et une date limite de connaissance d'octobre 2023.
Modèle | Tarification (1 million de jetons) | Tarification avec l’API Batch (1 million de jetons) |
---|---|---|
GPT-4o-2024-1120 Mondial |
Entrée: $- Entrée mise en cache: $- Sortie: $- |
Entrée: $- Sortie: $- |
GPT-4o-2024-1120 États-Unis/UE – Zones de données |
Entrée: $- Entrée mise en cache: $- Sortie: $- |
Entrée: $- Sortie: $- |
GPT-4o-2024-1120 Régional |
Entrée: $- Entrée mise en cache: $- Sortie: $- |
N/A |
GPT-4o-2024-08-06 Global |
Entrée: $- Entrée mise en cache: $- Sortie: $- |
Entrée: $- Sortie: $- |
GPT-4o-2024-08-06 États-Unis/UE – Zones de données |
Entrée: $- Entrée mise en cache: $- Sortie: $- |
Entrée: $- Sortie: $- |
GPT-4o-2024-08-06 Régional |
Entrée: $- Entrée mise en cache: $- Sortie: $- |
N/A |
GPT-4o-2024-0513 Global |
Entrée: $- Sortie: $- |
Entrée: $- Sortie: $- |
GPT-4o-2024-0513 États-Unis/UE – Zones de données |
Entrée: $- Sortie: $- |
N/A |
GPT-4o-2024-0513 Régional |
Entrée: $- Sortie: $- |
N/A |
Planifier avec la Calculatrice de prix
GPT-4o-mini
GPT-4o mini est le petit modèle le plus économique et offre des fonctionnalités de vision. Le modèle a un contexte de 128K et une date limite de connaissance d'octobre 2023.
Modèle | Tarification (1 million de jetons) | Tarification avec l’API Batch (1 million de jetons) |
---|---|---|
GPT-4o-mini-0718 Global |
Entrée: $- Entrée mise en cache: $- Sortie: $- |
Entrée: $- Sortie: $- |
GPT-4o-mini-0718 USA/EU – Zones de données |
Entrée: $- Entrée mise en cache: $- Sortie: $- |
Entrée: $- Sortie: $- |
GPT-4o-mini-0718 Régional |
Entrée: $- Entrée mise en cache: $- Sortie: $- |
N/A |
Planifier avec la Calculatrice de prix
Approvisionné
Vous pouvez allouer et gérer le débit pour les déploiements, ce qui garantit des performances prévisibles et une capacité stable. Vous êtes facturé à un tarif horaire par modèle, quelle que soit l’utilisation, mais vous pouvez également réaliser des économies supplémentaires via des réservations mensuelles et annuelles. Découvrez comment effectuer la transition de vos déploiements régionaux et réservations approvisionnées vers des zones globales et de données sur cette page Learn.
Modèle | Nombre minimal d’UC | Tarification horaire PTU | Tarification de réservation mensuelle PTU | Tarification de réservation annuelle PTU |
---|---|---|---|---|
GPT-4o Global | 15 | $- | $- | $- |
Zones de données USA/UE GPT-4o | 15 | $- | $- | $- |
GPT-4o Régional | 50 | $- | $- | $- |
GPT-4o-Régional ajusté | 50 | $- | $- | $- |
Mini-global GPT-4o | 15 | $- | $- | $- |
Zones de données GPT-4o Mini USA/UE | 15 | $- | $- | $- |
GPT-4o Mini régional | 25 | $- | $- | $- |
GPT-4o-Mini régional ajusté | 25 | $- | $- | $- |
Planifier avec la Calculatrice de prix
Modèles De base
Modèles | Utilisation pour 1 000 jetons |
---|---|
Babbage-002 | $- |
Davinci-002 | $- |
Modèles de mise au point
Modèle | Tarification | |
---|---|---|
GPT-4.1 | Régional |
Entrée: $-/1M de jetons Entrée mise en cache: $-/1M de jetons Sortie: $-/1M de jetons Formation: $-/1M de jetons Hosting: $-/heure |
Mondial |
Entrée: $-/1M de jetons Entrée mise en cache: $-/1M de jetons Sortie: $-/1M de jetons Formation: $-/1M de jetons Hosting: $-/heure |
|
GPT-4.1-mini | Régional |
Entrée: $-/1M de jetons Entrée mise en cache: $-/1M de jetons Sortie: $-/1M de jetons Formation: $-/1M de jetons Hosting: $-/heure |
Mondial |
Entrée: $-/1M de jetons Entrée mise en cache: $-/1M de jetons Sortie: $-/1M de jetons Formation: $-/1M de jetons Hosting: $-/heure |
|
GPT-4o-2024-08-06 | Régional |
Entrée: $-/1M de jetons Entrée mise en cache: $-/1M de jetons Sortie: $-/1M de jetons Formation: $-/1M de jetons Hosting: $-/heure |
Mondial |
Entrée: $-/1M de jetons Entrée mise en cache: $-/1M de jetons Sortie: $-/1M de jetons Formation: utilisation régional Hosting: $-/heure |
|
GPT-4o-mini | Régional |
Entrée: $-/1M de jetons Entrée mise en cache: $-/1M de jetons Sortie: $-/1M de jetons Formation: $-/1M de jetons Hosting: $-/heure |
Mondial |
Entrée: $-/1M de jetons Entrée mise en cache: $-/1M de jetons Sortie: $-/1M de jetons Formation: utilisation régional Hosting: $-/heure |
|
GPT-3.5-Turbo (16K) | Régional |
Entrée: $-/1M de jetons Sortie: $-/1M de jetons Formation: $-/1M de jetons Hosting: $-/heure |
GPT-3.5-Turbo (4K) | Régional |
Entrée: $-/1M de jetons Sortie: $-/1M de jetons Formation: $-/1M de jetons Hosting: $-/heure |
Modèles d’image
Modèles | Qualité | Résolution | Prix (par 100 images) |
---|---|---|---|
Dall-E-3 | Standard | 1024 * 1024 | $- |
Standard | 1024 * 1792, 1792 * 1024 |
$- | |
Dall-E-3 | HD | 1024 * 1024 | $- |
HD | 1024 * 1792, 1792 * 1024 |
$- | |
Dall-E-2 | Standard | 1024 * 1024 | $- |
Incorporation de modèles
Modèles | Par 1 000 jetons |
---|---|
Ada | $- |
text-embedding-3-large | $- |
text-embedding-3-small | $- |
Modèles de discours
Modèles | Tarif |
---|---|
Chuchoter | $-/heure |
TTS (Synthèse vocale) | $- / 1 million de caractères |
TTS HD | $- / 1 million de caractères |
Modèles de langage hérités
Modèles | Contexte | Entrée (par 1 million de jetons) | Sortie (par 1 million de jetons) |
---|---|---|---|
GPT-3.5-Turbo-0301 | 4K | $- | $- |
GPT-3.5-Turbo-0613 | 4K | $- | $- |
GPT-3.5-Turbo-0613 | 16K | $- | $- |
GPT-3.5-Turbo-1106 | 16K | $- | $- |
GPT-3.5-Turbo-0125 | 16K | $- | $- |
GPT-3.5-Turbo-Instruct | 4K | $- | $- |
GPT-4-Turbo | 128K | $- | $- |
GPT-4-Turbo-Vision | 128K | $- | $- |
GPT-4 | 8K | $- | $- |
GPT-4 | 32K | $- | $- |
Tarification et options d’achat Azure

Connectez-vous directement avec nous
Obtenez un guide pas à pas de la tarification Azure. Comprenez la tarification de votre solution cloud, découvrez l’optimisation des coûts et demandez une offre personnalisée.
Discuter avec un spécialiste des ventesDécouvrez les modalités d'achat
Achetez des services Azure via le site web Azure, un représentant Azure ou un partenaire Azure.
Explorez vos optionsRessources supplémentaires
Azure OpenAI Service
En savoir plus sur les fonctionnalités et capacités Azure OpenAI Service.
Calculatrice de prix
Estimez vos coûts mensuels pour l’utilisation des différentes combinaisons de produits Azure.
SLA
Consultez le Contrat de niveau de service (SLA) pour Azure OpenAI Service.
Documentation
Consulter les didacticiels et vidéos techniques, et d’autres ressources Azure OpenAI Service.
Forum Aux Questions
-
Azure OpenAI Service propose une tarification basée à la fois sur le paiement à l'utilisation et sur les unités de débit provisionnées (PTU). Pay-As-You-Go vous permet de payer pour les ressources que vous consommez, ce qui le rend flexible pour les charges de travail variables. Les PTU offrent un modèle de tarification prévisible dans lequel vous réservez et déployez une quantité spécifique de capacité de traitement de modèle. Ce modèle est idéal pour les charges de travail avec des modèles d'utilisation cohérents ou prévisibles, offrant stabilité et contrôle des coûts.
-
Si vous souhaitez découvrir plus d’informations sur les Unités de débit approvisionnées (PTU) et la tarification d’Azure OpenAI, veuillez lire la documentation sur les PTU ou contacter notre spécialiste des ventes.
Discutez avec un spécialiste des ventes pour qu’il vous explique en détail la tarification Azure. Comprendre la tarification de votre solution cloud.
Profitez de services cloud gratuits et d’un crédit de $200 pour découvrir Azure pendant 30 jours.