Passer directement au contenu principal
Azure

Tarification Azure OpenAI Service

Vue d’ensemble de la tarification d’Azure OpenAI Service

Azure OpenAI Service delivers enterprise-ready generative AI featuring powerful models from OpenAI, enabling organizations to innovate with text, audio, and vision capabilities. Beyond the cutting-edge models, companies choose Azure OpenAI Service for built-in data privacy, regional/area/global flexibility, and seamless integration into the Azure ecosystem including Fabric, Cosmos DB and Azure AI Search. Companies of all sizes can confidently scale AI solutions to enhance customer experience, automate workflows, and unlock creative potential, driving measurable impact and competitive differentiation.

To help customers in the journey, we offer pricing and cost management solutions to meet your needs. including:
  • Standard (On-Demand): Pay-as-you-go for input and output tokens.
  • Provisioned (PTUs): Allocate throughput with predictable costs, with monthly and annual reservations available to reduce overall spend.
  • Batch API: Language models are also now available in the Batch API for global deployments and three regions, that returns completions within 24 hours for a 50% discount on Global Standard Pricing.
You can choose from the following deployment types for Standard and Provisioned, which enable greater flexibility and control of pricing and performance. This flexibility helps when there is increasingly more restrictive data processing boundaries and need for increased throughput and lower price.
  • Global Deployment – Global SKU
  • Data Zone Deployment – Geographic based (EU or US)
  • Regional Deployment – Local Region (up to 27 regions)

Explorez les options tarifaires

Appliquez des filtres pour personnaliser les options de tarification à vos besoins.

Les prix ne sont que des estimations et ne sont pas destinés à être des devis réels. Le prix réel peut varier selon le type de contrat conclu avec Microsoft, la date d'achat et le taux de change. Les prix sont calculés en dollars américains et convertis à l'aide des taux de clôture au comptant de Londres saisis au cours des deux jours ouvrables précédant le dernier jour ouvrable de la fin du mois précédent. Si les deux jours ouvrables précédant la fin du mois tombent un jour férié sur les principaux marchés, le jour de fixation des taux est généralement le jour précédant immédiatement les deux jours ouvrables. Ce taux s'applique à toutes les transactions du mois à venir. Connectez-vous au calculateur de prix Azure pour voir les prix en fonction de votre programme/offre actuel avec Microsoft. Contactez un spécialiste des ventes Azure pour plus d'informations sur les prix ou pour demander un devis. Consultez les questions fréquemment posées sur la tarification Azure.

GPT-4.5

GPT-4.5-preview is the latest general purpose model with deep world knowledge and better understanding of user intent that makes it good at creative tasks and agentic planning. The model has 128K context and an October 2023 knowledge cutoff.

Modèle Tarification (1 million de jetons) Tarification avec l’API Batch (1 million de jetons)
GPT-4.5-Preview-2025-02-27 Global Entrée: $-
Entrée mise en cache: $-
Sortie: $-
N/A

o1

o1 est la nouvelle série de modèles de raisonnement pour les tâches complexes. Le modèle a un contexte de 200K et un seuil de connaissances en octobre 2023.

Modèle Tarification (1 million de jetons) Tarification avec l’API Batch (1 million de jetons)
o1 2024-12-17 global Entrée: $-
Entrée mise en cache: $-
Sortie: $-
N/A
o1 2024-12-17 US/EU – Zones de données Entrée: $-
Entrée mise en cache: $-
Sortie: $-
N/A
o1 2024-12-17 régional Entrée: $-
Entrée mise en cache: $-
Sortie: $-
N/A
o1 préversion 2024-09-12 global Entrée: $-
Entrée mise en cache: $-
Sortie: $-
N/A
o1 préversion 2024-09-12 US/EU – Zones de données Entrée: $-
Entrée mise en cache: $-
Sortie: $-
N/A
o1 préversion 2024-09-12 régional Entrée: $-
Entrée mise en cache: $-
Sortie: $-
N/A

Planifier avec la Calculatrice de prix

o3 Mini

Le modèle o3 mini est la version actualisée du modèle o1 mini. o3-mini est un modèle de raisonnement rapide et économique adapté aux cas d’utilisation liés au codage, aux mathématiques et aux sciences.

Le modèle o3-mini dispose désormais d’une fenêtre d’entrée contextuelle élargie à 200 000 jetons et d’une sortie maximale de 100 000 jetons, ce qui offre suffisamment d’espace pour des réponses complexes et détaillées. L’entrée contextuelle du modèle o1 mini est de 128K. Les modèles o3 et o1 ont une date limite de connaissance fixée à octobre 2023.

Modèle Tarification (1 million de jetons) Tarification avec l’API Batch (1 million de jetons)
o3 mini 2025-01-31 global Entrée: $-
Entrée mise en cache: $-
Sortie: $-
Entrée: $-
Sortie: $-
o3 mini 2025-01-31-US/EU – Zones de données Entrée: $-
Entrée mise en cache: $-
Sortie: $-
Entrée: $-
Sortie: $-
o3 mini 2025-01-31 régional Entrée: $-
Entrée mise en cache: $-
Sortie: $-
N/A
o1-mini 2024-09-12 global Entrée: $-
Entrée mise en cache: $-
Sortie: $-
N/A
o1-mini 2024-09-12 US/EU – Zones de données Entrée: $-
Entrée mise en cache: $-
Sortie: $-
N/A
o1-mini 2024-09-12 régional Entrée: $-
Entrée mise en cache: $-
Sortie: $-
N/A

Planifier avec la Calculatrice de prix

Computer-Using Agent (CUA)

The Computer-Using Agent (CUA) is a specialized AI model that allows AI to interact with graphical user interfaces (GUIs), navigate applications, and automate multi-step tasks—all through natural language instructions. The CUA model can be used as a tool in the Responses API.

Modèle Tarification
computer-use-preview Global Entrée: $-/1M de jetons
Sortie: $-/1M de jetons

Built-in tools

The Responses API and the Assistants API enable seamless interaction with tools like computer use, code interpreter, function calling, and file search, making it easy for developers to build AI agents.

Outil Entrée
Computer Use (Responses API only) Entrée: $-/1M de jetons
Sortie: $-/1M de jetons
File Search Tool Call (Responses API only) $-/1K tool calls
Recherche de fichiers* $- / Go de stockage vectoriel par jour (1 Go gratuit)
Interpréteur de code** $- / session

*Go fait référence à des gigaoctets binaires, où 1 Go correspond à 2^30 octets.

**Si votre assistant appelle l’interpréteur de code simultanément dans deux threads différents, cela créera deux sessions d’interpréteur de code (2 * $-). Chaque session est active par défaut pendant une heure, ce qui signifie que vous ne paierez ces frais qu'une seule fois si votre utilisateur continue de donner des instructions à l’interpréteur de code dans la même conversation pendant une heure maximum.

Le coût d’inférence (entrée et sortie) varie en fonction du modèle GPT utilisé avec chaque assistant. Si votre assistant appelle l’interpréteur de code simultanément dans deux conversations différentes, cela créera deux sessions d’interpréteur de code (2 * $-). Chaque session est active par défaut pendant une heure, ce qui signifie que le prix correspond à une heure maximum d’instructions fournies à l’interpréteur de code dans la même conversation.

API Temps réel

Proposé dans l’API Temps réel, le modèle GPT-4o-Realtime-Preview prend en charge les fonctionnalités de reconnaissance vocale multilingues. Optimisé pour les conversations en temps réel à faible latence, il permet des interactions naturelles avec un minimum de retard et convient très bien pour les chatbots et l’IA conversationnelle. GPT-4o est la version complète et plus puissante conçue pour des tâches complexes, alors que GPT-4o Mini est une option plus petite et plus économique, idéale pour des applications plus simples où la rentabilité et la rapidité sont des priorités.

Modèle Tarification (1 million de jetons)
GPT-4o-Realtime-Preview-2024-12-17-Global Texte
Entrée: $-
Entrée mise en cache: $-
Sortie: $-

Audio
Entrée: $-
Entrée mise en cache: $-
Sortie: $-
GPT-4o-Realtime-Preview-2024-12-17-USA/EU – Zones de données Texte
Entrée: $-
Entrée mise en cache: $-
Sortie: $-

Audio
Entrée: $-
Entrée mise en cache: $-
Sortie: $-
GPT-4o-Realtime-Preview-2024-12-17-Régional Texte
Entrée: $-
Entrée mise en cache: $-
Sortie: $-

Audio
Entrée: $-
Entrée mise en cache: $-
Sortie: $-
GPT-4o-Mini-Realtime-Preview-2024-12-17-Global Texte
Entrée: $-
Entrée mise en cache: $-
Sortie: $-

Audio
Entrée: $-
Entrée mise en cache: $-
Sortie: $-
GPT-4o-Mini-Realtime-Preview-2024-12-17-USA/EU – Zones de données Texte
Entrée: $-
Entrée mise en cache: $-
Sortie: $-

Audio
Entrée: $-
Entrée mise en cache: $-
Sortie: $-
GPT-4o-Mini-Realtime-Preview-2024-12-17-Régional Texte
Entrée: $-
Entrée mise en cache: $-
Sortie: $-

Audio
Entrée: $-
Entrée mise en cache: $-
Sortie: $-
GPT-4o-Realtime-Preview-2024-10-01-Global Texte
Entrée: $-
Entrée mise en cache: $-
Sortie: $-

Audio
Entrée: $-
Entrée mise en cache: $-
Sortie: $-
GPT-4o-Realtime-Preview-2024-10-01-USA/EU – Zones de données Texte
Entrée: $-
Entrée mise en cache: $-
Sortie: $-

Audio
Entrée: $-
Entrée mise en cache: $-
Sortie: $-
GPT-4o-Realtime-Preview-2024-10-01-Régional Texte
Entrée: $-
Entrée mise en cache: $-
Sortie: $-

Audio
Entrée: $-
Entrée mise en cache: $-
Sortie: $-

API Completions de conversation

Proposé dans l’API Completions de conversation, le modèle GPT 4o-Audio-Preview traite et génère du contenu audio. Il prend en charge des fonctionnalités avancées telles que la reconnaissance vocale et la synthèse audio, idéales pour les interactions vocales asynchrones et l’analyse des sentiments. GPT-4o est la version complète et plus puissante conçue pour des tâches complexes, alors que GPT-4o Mini est une option plus petite et plus économique, idéale pour des applications plus simples où la rentabilité et la rapidité sont des priorités.

Modèle Tarification (1 million de jetons)
GPT-4o-Audio-Preview-2024-12-17-Global Texte
Entrée: $-
Sortie: $-

Audio
Entrée: $-
Sortie: $-
GPT-4o-Audio-Preview-2024-12-17-USA/EU – Zones de données Texte
Entrée: $-
Sortie: $-

Audio
Entrée: $-
Sortie: $-
GPT-4o-Audio-Preview-2024-12-17-Régional Texte
Entrée: $-
Sortie: $-

Audio
Entrée: $-
Sortie: $-
GPT-4o-Mini-Audio-Preview-2024-12-17-Global Texte
Entrée: $-
Sortie: $-

Audio
Entrée: $-
Sortie: $-
GPT-4o-Mini-Audio-Preview-2024-12-17-USA/EU – Zones de données Texte
Entrée: $-
Sortie: $-

Audio
Entrée: $-
Sortie: $-
GPT-4o-Mini-Audio-Preview-2024-12-17-Régional Texte
Entrée: $-
Sortie: $-

Audio
Entrée: $-
Sortie: $-

GPT-4o

Le GPT-4o est le modèle multimodal le plus avancé, plus rapide et moins cher que le GPT-4 Turbo, avec des capacités de vision plus importantes. Le modèle a un contexte de 128K et une date limite de connaissance d'octobre 2023.

Modèle Tarification (1 million de jetons) Tarification avec l’API Batch (1 million de jetons)
GPT-4o-2024-1120 Mondial Entrée: $-
Entrée mise en cache: $-
Sortie: $-
Entrée: $-
Sortie: $-
GPT-4o-2024-1120 États-Unis/UE – Zones de données Entrée: $-
Entrée mise en cache: $-
Sortie: $-
Entrée: $-
Sortie: $-
GPT-4o-2024-1120 Régional Entrée: $-
Entrée mise en cache: $-
Sortie: $-
N/A
GPT-4o-2024-08-06 Global Entrée: $-
Entrée mise en cache: $-
Sortie: $-
Entrée: $-
Sortie: $-
GPT-4o-2024-08-06 États-Unis/UE – Zones de données Entrée: $-
Entrée mise en cache: $-
Sortie: $-
Entrée: $-
Sortie: $-
GPT-4o-2024-08-06 Régional Entrée: $-
Entrée mise en cache: $-
Sortie: $-
N/A
GPT-4o-2024-0513 Global Entrée: $-
Sortie: $-
Entrée: $-
Sortie: $-
GPT-4o-2024-0513 États-Unis/UE – Zones de données Entrée: $-
Sortie: $-
N/A
GPT-4o-2024-0513 Régional Entrée: $-
Sortie: $-
N/A

Planifier avec la Calculatrice de prix

GPT-4o-mini

GPT-4o mini est le petit modèle le plus économique et offre des fonctionnalités de vision. Le modèle a un contexte de 128K et une date limite de connaissance d'octobre 2023.

Modèle Tarification (1 million de jetons) Tarification avec l’API Batch (1 million de jetons)
GPT-4o-mini-0718 Global Entrée: $-
Entrée mise en cache: $-
Sortie: $-
Entrée: $-
Sortie: $-
GPT-4o-mini-0718 USA/EU – Zones de données Entrée: $-
Entrée mise en cache: $-
Sortie: $-
Entrée: $-
Sortie: $-
GPT-4o-mini-0718 Régional Entrée: $-
Entrée mise en cache: $-
Sortie: $-
N/A

Planifier avec la Calculatrice de prix

Approvisionné

Vous pouvez allouer et gérer le débit pour les déploiements, ce qui garantit des performances prévisibles et une capacité stable. Vous êtes facturé à un tarif horaire par modèle, quelle que soit l’utilisation, mais vous pouvez également réaliser des économies supplémentaires via des réservations mensuelles et annuelles. Découvrez comment effectuer la transition de vos déploiements régionaux et réservations approvisionnées vers des zones globales et de données sur cette page Learn.

Modèle Nombre minimal d’UC Tarification horaire PTU Tarification de réservation mensuelle PTU Tarification de réservation annuelle PTU
GPT-4o Global 15 $- $- $-
Zones de données USA/UE GPT-4o 15 $- $- $-
GPT-4o Régional 50 $- $- $-
GPT-4o-Régional ajusté 50 $- $- $-
Mini-global GPT-4o 15 $- $- $-
Zones de données GPT-4o Mini USA/UE 15 $- $- $-
GPT-4o Mini régional 25 $- $- $-
GPT-4o-Mini régional ajusté 25 $- $- $-

Planifier avec la Calculatrice de prix

Modèles De base

Modèles Utilisation pour 1 000 jetons
Babbage-002 $-
Davinci-002 $-

Modèles de mise au point

Modèle Tarification
GPT-4o-2024-08-06 Régional Entrée: $-/1M de jetons
Entrée mise en cache: $-/1M de jetons
Sortie: $-/1M de jetons
Formation: $-/1M de jetons
Hosting: $-/heure
Mondial Entrée: $-/1M de jetons
Entrée mise en cache: $-/1M de jetons
Sortie: $-/1M de jetons
Formation: utilisation régional
Hosting: $-/heure
GPT-4o-mini Régional Entrée: $-/1M de jetons
Entrée mise en cache: $-/1M de jetons
Sortie: $-/1M de jetons
Formation: $-/1M de jetons
Hosting: $-/heure
Mondial Entrée: $-/1M de jetons
Entrée mise en cache: $-/1M de jetons
Sortie: $-/1M de jetons
Formation: utilisation régional
Hosting: $-/heure
GPT-4-0613 (8K) Régional Entrée: $-/1M de jetons
Sortie: $-/1M de jetons
Formation: $-/1M de jetons
Hosting: $-/heure
GPT-3.5-Turbo (16K) Régional Entrée: $-/1M de jetons
Sortie: $-/1M de jetons
Formation: $-/1M de jetons
Hosting: $-/heure
GPT-3.5-Turbo (4K) Régional Entrée: $-/1M de jetons
Sortie: $-/1M de jetons
Formation: $-/1M de jetons
Hosting: $-/heure
Babbage-002 Entrée: $-/1M de jetons
Sortie: $-/1M de jetons
Formation: $-/1M de jetons
Hosting: $-/heure
Davinci-002 Entrée: $-/1M de jetons
Sortie: $-/1M de jetons
Formation: $-/1M de jetons
Hosting: $-/heure

Modèles d’image

Modèles Qualité Résolution Prix (par 100 images)
Dall-E-3 Standard 1024 * 1024 $-
Standard 1024 * 1792,
1792 * 1024
$-
Dall-E-3 HD 1024 * 1024 $-
HD 1024 * 1792,
1792 * 1024
$-
Dall-E-2 Standard 1024 * 1024 $-

Incorporation de modèles

Modèles Par 1 000 jetons
Ada $-
text-embedding-3-large $-
text-embedding-3-small $-

Modèles de discours

Modèles Tarif
Chuchoter $-/heure
TTS (Synthèse vocale) $- / 1 million de caractères
TTS HD $- / 1 million de caractères

Modèles de langage hérités

Modèles Contexte Entrée (par 1 million de jetons) Sortie (par 1 million de jetons)
GPT-3.5-Turbo-0301 4K $- $-
GPT-3.5-Turbo-0613 4K $- $-
GPT-3.5-Turbo-0613 16K $- $-
GPT-3.5-Turbo-1106 16K $- $-
GPT-3.5-Turbo-0125 16K $- $-
GPT-3.5-Turbo-Instruct 4K $- $-
GPT-4-Turbo 128K $- $-
GPT-4-Turbo-Vision 128K $- $-
GPT-4 8K $- $-
GPT-4 32K $- $-

Tarification et options d’achat Azure

Connectez-vous directement avec nous

Obtenez un guide pas à pas de la tarification Azure. Comprenez la tarification de votre solution cloud, découvrez l’optimisation des coûts et demandez une offre personnalisée.

Discuter avec un spécialiste des ventes

Découvrez les modalités d'achat

Achetez des services Azure via le site web Azure, un représentant Azure ou un partenaire Azure.

Explorez vos options

Ressources supplémentaires

Azure OpenAI Service

En savoir plus sur les fonctionnalités et capacités Azure OpenAI Service.

Calculatrice de prix

Estimez vos coûts mensuels pour l’utilisation des différentes combinaisons de produits Azure.

SLA

Consultez le Contrat de niveau de service (SLA) pour Azure OpenAI Service.

Documentation

Consulter les didacticiels et vidéos techniques, et d’autres ressources Azure OpenAI Service.

  • Azure OpenAI Service propose une tarification basée à la fois sur le paiement à l'utilisation et sur les unités de débit provisionnées (PTU). Pay-As-You-Go vous permet de payer pour les ressources que vous consommez, ce qui le rend flexible pour les charges de travail variables. Les PTU offrent un modèle de tarification prévisible dans lequel vous réservez et déployez une quantité spécifique de capacité de traitement de modèle. Ce modèle est idéal pour les charges de travail avec des modèles d'utilisation cohérents ou prévisibles, offrant stabilité et contrôle des coûts.
  • Si vous souhaitez découvrir plus d’informations sur les Unités de débit approvisionnées (PTU) et la tarification d’Azure OpenAI, veuillez lire la documentation sur les PTU ou contacter notre spécialiste des ventes.

Discutez avec un spécialiste des ventes pour qu’il vous explique en détail la tarification Azure. Comprendre la tarification de votre solution cloud.

Profitez de services cloud gratuits et d’un crédit de $200 pour découvrir Azure pendant 30 jours.

Ajout à des fins d’estimation. Appuyez sur « v » pour afficher sur la calculatrice