跳转至主内容
Azure

Azure OpenAI 服务定价

Azure OpenAI 服务定价概述

Azure OpenAI 服务提供企业级生成式 AI,具有来自 OpenAI 的强大模型,使组织能够利用文本、音频和视觉功能进行创新。除了尖端模型之外,公司还选择 Azure OpenAI 服务来实现内置数据隐私、区域/地区/全球灵活性以及与 Azure 生态系统(包括 Fabric、Cosmos DB 和 Azure AI 搜索)的无缝集成。各种规模的公司都可以自信地扩展 AI 解决方案,以增强客户体验、自动化工作流并释放创造潜力,从而推动可衡量的影响和竞争差异。

为了帮助客户完成此过程,我们提供定价和成本管理解决方案来满足你的需求。包括: 可以从以下标准和预配部署类型中进行选择,从而实现更大的灵活性以及对定价和性能的控制。当数据处理边界越来越严格,并且需要提高吞吐量并降低价格时,这种灵活性会有所帮助。
  • 全球部署 – 全球 SKU
  • 数据区部署 – 基于地理位置(欧盟或美国)
  • 区域部署 – 本地区域(最多 27 个区域)

浏览定价选项

应用筛选器来根据你的需求自定义定价选项。

价格仅是估算值,不应用作实际报价单。实际定价可能因与 Microsoft 签订的协议类型、购买日期和货币汇率而异。价格基于美元计算,并使用在上一个月末最后一个工作日之前的两个工作日内捕获的伦敦收盘即期汇率进行转换。如果本月底之前的两个工作日在主要市场中属于银行假日,则汇率确定日通常是紧接在此两个工作日之后的一天。此汇率适用于下个月的所有交易。登录到 Azure 定价计算器查看基于你与 Microsoft 的当前计划/产品/服务的定价。有关定价或请求报价的详细信息,请联系 Azure 销售专家。请参阅经常询问有关 Azure 定价的问题

o3

o3 is a powerful reasoning model from the o-series of reasoning models, pushing the frontier across coding, math, science, and visual perception. It excels in complex queries requiring multi-faceted analysis and performs strongly in visual tasks like analyzing images, charts, and graphics. The model features a 200K token context window and has a knowledge cutoff of June 2024.

模型 定价(每 100 万个令牌) 批处理 API (100 万个令牌)的定价
o3 2025-04-16 输入: $-
缓存输入: $-
输出: $-
不适用

o4-mini

o4-mini is a compact, efficient, and cost-effective reasoning model from OpenAI's o-series. It excels in math, coding, and visual tasks. The model features a 200K token context window and has a knowledge cutoff of June 2024.

模型 定价(每 100 万个令牌) 批处理 API (100 万个令牌)的定价
o4-mini 2025-04-16 输入: $-
缓存输入: $-
输出: $-
不适用

GPT-4.1 系列

GPT-4.1 series is a highly advanced general-purpose model with extensive world knowledge and an enhanced ability to understand user intent, making it particularly adept at creative tasks and agentic planning. The series features a 1 million token context window and has a knowledge cutoff of June 2024.

模型 定价(每 100 万个令牌) 批处理 API (100 万个令牌)的定价
GPT-4.1-2025-04-14 输入: $-
缓存输入: $-
输出: $-
不适用
GPT-4.1-mini-2025-04-14 输入: $-
缓存输入: $-
输出: $-
不适用
GPT-4.1-nano-2025-04-14 输入: $-
缓存输入: $-
输出: $-
不适用

Sora in Azure OpenAI

Sora is a multimodal generative AI model now available in Azure AI Foundry, designed to help creative teams bring ideas to life through seamless API-first integration. Built on Azure’s enterprise-grade infrastructure, it offers secure, scalable deployment for transforming concepts into high-quality visual content.

Price per second 1-5s 6-10s 11-15s 16-20s
480 Square $- $- $- $-
480p $- $- $- $-
720 Square $- $- $- $-
720p $- $- $- $-
1080 Square $- $- $- $-
1080p $- $- $- $-

GPT-Image-1

GPT-image-1 enhances DALL·E with better instruction following, accurate text rendering, and support for image input and editing. The model is priced per token, with different pricing for text and image tokens.

模型 定价(每 100 万个令牌) 批处理 API (100 万个令牌)的定价
GPT-Image-1 Global Input Text: $-
Input Image: $-
Output Image: $-
不适用
GPT-Image-1 Regional Input Text: $-
Input Image: $-
Output Image: $-
不适用
GPT-Image-1 Data Zone Input Text: $-
Input Image: $-
Output Image: $-
不适用

GPT-4.5

GPT-4.5-preview 是最新的常规用途模型,具备深厚的世界知识和更好的用户意图理解能力,使其在创意任务和代理规划方面表现出色。该模型具有 128K 上下文,并且知识更新到 2023 年 10 月。

模型 定价(每 100 万个令牌) 批处理 API (100 万个令牌)的定价
GPT-4.5-Preview-2025-02-27 Global 输入: $-
缓存输入: $-
输出: $-
不适用

o1

o1 是面向复杂任务的新型推理模型系列。该模型具有 200K 上下文,并且知识更新到 2023 年 10 月。

模型 定价(每 100 万个令牌) 批处理 API (100 万个令牌)的定价
o1 2024-12-17 全球 输入: $-
缓存输入: $-
输出: $-
不适用
o1 2024-12-17 美国/欧盟 – 数据区域 输入: $-
缓存输入: $-
输出: $-
不适用
o1 2024-12-17 区域 输入: $-
缓存输入: $-
输出: $-
不适用
o1 预览版 2024-09-12 全球 输入: $-
缓存输入: $-
输出: $-
不适用
o1 预览版 2024-09-12 美国/欧洲 – 数据区域 输入: $-
缓存输入: $-
输出: $-
不适用
o1 预览版 2024-09-12 区域 输入: $-
缓存输入: $-
输出: $-
不适用

使用定价计算器制定计划

o3 Mini

o3 mini 是 o1 mini 模型的更新版本。o3-mini 是一个快速、经济高效的推理模型,专为编码、数学和科学应用场景而设计。

o3 mini 模型现在拥有一个可支持 20 万个词元的扩展上下文输入窗口,且最多可输出 10 万个词元,可通过充足的空间提供复杂且详细的响应。o1 mini 模型支持包含 12.8 万个词元的上下文输入。o3 和 o1 模型的知识截止时间都是 2023 年 10 月。

模型 定价(每 100 万个令牌) 批处理 API (100 万个令牌)的定价
o3 mini 2025-01-31 全球 输入: $-
缓存输入: $-
输出: $-
输入: $-
输出: $-
o3 mini 2025-01-31-美国/欧洲 – 数据区域 输入: $-
缓存输入: $-
输出: $-
输入: $-
输出: $-
o3 mini 2025-01-31 区域 输入: $-
缓存输入: $-
输出: $-
不适用
o1-mini 2024-09-12 全球 输入: $-
缓存输入: $-
输出: $-
不适用
o1-mini 2024-09-12 美国/欧洲 – 数据区域 输入: $-
缓存输入: $-
输出: $-
不适用
o1-mini 2024-09-12 区域 输入: $-
缓存输入: $-
输出: $-
不适用

使用定价计算器制定计划

Audio Models

Azure OpenAI Service includes the advanced audio models GPT-4o-Transcribe, GPT-4o-Mini-Transcribe, and GPT-4o-Mini-TTS. These models enhance speech-to-text and text-to-speech capabilities, offering high accuracy and customizable speech outputs for various applications. Ideal for customer call centers, live captioning, and interactive voice outputs, they leverage extensive pretraining and advanced distillation techniques for superior performance.

模型 定价(每 100 万个令牌) 批处理 API (100 万个令牌)的定价
GPT-4o-Transcribe 文本
输入: $-
输出: $-

音频
输入: $-
输出: 不适用
不适用
GPT-4o-Mini-Transcribe 文本
输入: $-
输出: $-

音频
输入: $-
输出: 不适用
不适用
GPT-4o-Mini-TTS 文本
输入: $-
输出: 不适用

音频
输入: 不适用
输出: $-
不适用

计算机使用代理(CUA)

计算机使用代理(CUA)是一种专用的 AI 模型,支持 AI 与图形用户界面(GUI)交互、导航应用程序,以及通过自然语言指令自动执行多步骤任务。CUA 模型可以作为响应 API 中的工具使用。

模型 定价
计算机使用预览版全局设置 输入: $- /100 万个令牌
输出: $- /100 万个令牌

内置工具

响应 API 和助手 API 支持与计算机使用、代码解释器、函数调用和文件搜索等工具无缝交互,使开发人员能够构建 AI 代理。

工具 输入
计算机使用(仅限响应 API) 输入: $- /100 万个令牌
输出: $- /100 万个令牌
文件搜索工具调用(仅限响应 API) $-/1K 工具调用
文件搜索* $-/GB 矢量存储/天(1 GB 免费)
代码解释器** $-/会话

*GB 是指二进制吉字节,其中 1 gb 为 2^30 b。

**如果助手在两个不同的线程中同时调用代码解释器,这将创建两个代码解释器会话(2 * $-)。每个会话默认处于活动状态一小时,这意味着只有当用户在同一线程中持续向代码解释器提供说明达 1 小时时,你才需要支付此费用一次。

推理成本(输入和输出)因每个助手所用的 GPT 模型而异。如果助手在两个不同的线程中同时调用代码解释器,这将创建两个代码解释器会话(2 * $-)。每个会话默认处于活动状态一小时,这意味着价格为一小时内在同一线程中向代码解释器发出指令所产生的费用。

实时 API

作为实时 API 中的重要部分,GPT-4o-Realtime-Preview 支持多语言语音转语音功能。它针对实时、低延迟的对话进行了优化,可实现最低延迟的自然交互,非常适合聊天机器人和对话式 AI。GPT-4o 是专为复杂任务设计的全面且更强大的版本,而 GPT-4o Mini 则是更小、更实惠的选项,非常适合优先考虑成本效益和速度的更简单的应用程序。

模型 定价(每 100 万个令牌)
GPT-4o-Realtime-Preview-2024-12-17-Global 文本
输入: $-
缓存输入: $-
输出: $-

音频
输入: $-
缓存输入: $-
输出: $-
GPT-4o-Realtime-Preview-2024-12-17-US/EU – 数据区域 文本
输入: $-
缓存输入: $-
输出: $-

音频
输入: $-
缓存输入: $-
输出: $-
GPT-4o-Realtime-Preview-2024-12-17-Regional 文本
输入: $-
缓存输入: $-
输出: $-

音频
输入: $-
缓存输入: $-
输出: $-
GPT-4o-Mini-Realtime-Preview-2024-12-17-Global 文本
输入: $-
缓存输入: $-
输出: $-

音频
输入: $-
缓存输入: $-
输出: $-
GPT-4o-Mini-Realtime-Preview-2024-12-17-US/EU – 数据区域 文本
输入: $-
缓存输入: $-
输出: $-

音频
输入: $-
缓存输入: $-
输出: $-
GPT-4o-Mini-Realtime-Preview-2024-12-17-Regional 文本
输入: $-
缓存输入: $-
输出: $-

音频
输入: $-
缓存输入: $-
输出: $-
GPT-4o-Realtime-Preview-2024-10-01-Global 文本
输入: $-
缓存输入: $-
输出: $-

音频
输入: $-
缓存输入: $-
输出: $-
GPT-4o-Realtime-Preview-2024-10-01-US/EU – 数据区域 文本
输入: $-
缓存输入: $-
输出: $-

音频
输入: $-
缓存输入: $-
输出: $-
GPT-4o-Realtime-Preview-2024-10-01-Regional 文本
输入: $-
缓存输入: $-
输出: $-

音频
输入: $-
缓存输入: $-
输出: $-

聊天完成 API

作为聊天完成 API 的重要部分,GPT 4o-Audio-Preview 模型可处理和生成音频内容。它支持语音识别和音频合成等高级功能,非常适合异步语音交互和情绪分析。GPT-4o 是专为复杂任务设计的全面且更强大的版本,而 GPT-4o Mini 则是更小、更实惠的选项,非常适合优先考虑成本效益和速度的更简单的应用程序。

模型 定价(每 100 万个令牌)
GPT-4o-Audio-Preview-2024-12-17-Global 文本
输入: $-
输出: $-

音频
输入: $-
输出: $-
GPT-4o-Audio-Preview-2024-12-17-US/EU – 数据区域 文本
输入: $-
输出: $-

音频
输入: $-
输出: $-
GPT-4o-Audio-Preview-2024-12-17-Regional 文本
输入: $-
输出: $-

音频
输入: $-
输出: $-
GPT-4o-Mini-Audio-Preview-2024-12-17-Global 文本
输入: $-
输出: $-

音频
输入: $-
输出: $-
GPT-4o-Mini-Audio-Preview-2024-12-17-US/EU – 数据区域 文本
输入: $-
输出: $-

音频
输入: $-
输出: $-
GPT-4o-Mini-Audio-Preview-2024-12-17-Regional 文本
输入: $-
输出: $-

音频
输入: $-
输出: $-

GPT-4o

GPT-4o 是最先进的多模态模型,具有更强大的视觉能力,并且比 GPT-4 Turbo 更快、成本更低。该模型具有 128K 上下文,并且知识更新到 2023 年 10 月。

模型 定价(每 100 万个令牌) 批处理 API (100 万个令牌)的定价
GPT-4o-2024-1120 全球 输入: $-
缓存输入: $-
输出: $-
输入: $-
输出: $-
GPT-4o-2024-1120 美国/欧盟 – 数据区域 输入: $-
缓存输入: $-
输出: $-
输入: $-
输出: $-
GPT-4o-2024-1120 区域 输入: $-
缓存输入: $-
输出: $-
不适用
GPT-4o-2024-08-06 全球 输入: $-
缓存输入: $-
输出: $-
输入: $-
输出: $-
GPT-4o-2024-08-06 美国/欧盟 – 数据区域 输入: $-
缓存输入: $-
输出: $-
输入: $-
输出: $-
GPT-4o-2024-08-06 区域 输入: $-
缓存输入: $-
输出: $-
不适用
GPT-4o-2024-0513 全球 输入: $-
输出: $-
输入: $-
输出: $-
GPT-4o-2024-0513 美国/欧盟 – 数据区域 输入: $-
输出: $-
不适用
GPT-4o-2024-0513 区域 输入: $-
输出: $-
不适用

使用定价计算器制定计划

GPT-4o 微型

GPT-4o 微型是极为经济高效的小型模型,并且具备视觉功能。该模型具有 128K 上下文,并且知识更新到 2023 年 10 月。

模型 定价(每 100 万个令牌) 批处理 API (100 万个令牌)的定价
GPT-4o-mini-0718 全球 输入: $-
缓存输入: $-
输出: $-
输入: $-
输出: $-
GPT-4o-mini-0718 美国/欧洲 –数据区域 输入: $-
缓存输入: $-
输出: $-
输入: $-
输出: $-
GPT-4o-mini-0718 区域 输入: $-
缓存输入: $-
输出: $-
不适用

使用定价计算器制定计划

已预配

可以分配和管理部署的吞吐量,确保实现可预测的性能和稳定的容量。无论使用情况如何,均按每个模型的小事费率计费,但也可以通过每月和每年预留来节省更多费用。在此 Learn 页上了解如何将区域部署和预配预留转换为全局区域和数据区域。

模型 最小 PTU PTU 每小时定价 PTU 每月预留定价 PTU 每年预留定价
GPT-4.1 Global 15 $- $- $-
GPT-4.1 Data Zones 15 $- $- $-
GPT-4.1 Regional 50 $- $- $-
GPT-4.1-mini Global 15 $- $- $-
GPT-4.1-mini US/EU Data Zones 15 $- $- $-
GPT-4.1-mini Regional 25 $- $- $-
GPT-4.1-nano Global 15 $- $- $-
GPT-4.1-nano US/EU Data Zones 15 $- $- $-
GPT-4.1-nano Regional 25 $- $- $-
o3 Global 15 $- $- $-
o3 US/EU Data Zones 15 $- $- $-
o3 Regional 50 $- $- $-
o4-mini Global 15 $- $- $-
o4-mini US/EU Data Zones 15 $- $- $-
o4-mini Regional 25 $- $- $-
GPT-4o 全球 15 $- $- $-
GPT-4o US/EU 数据区域 15 $- $- $-
GPT-4o 区域性 50 $- $- $-
微调 GPT-4o-区域 50 $- $- $-
GPT-4o 微型全球 15 $- $- $-
GPT-4o 微型 US/EU 数据区域 15 $- $- $-
GPT-4o 微型区域性 25 $- $- $-
微调 GPT-4o-Mini 区域 25 $- $- $-

使用定价计算器制定计划

基本模型

模型 每 1,000 个令牌的使用情况
Babbage-002 $-
Davinci-002 $-

微调模型

模型 定价
o4-mini (Reinforcement fine-tuning) 区域性 输入: $- /100 万个令牌
输出: $- /100 万个令牌
培训: $- /100 万个令牌
托管: $-/小时

Grader input:
o4-mini: $- /100 万个令牌
4.1-mini: $- /100 万个令牌
4.1: $- /100 万个令牌
4.1-nano: $- /100 万个令牌
o3: $- /100 万个令牌

Grader cached input:
o4-mini: $- /100 万个令牌
4.1-mini: $- /100 万个令牌
4.1: $- /100 万个令牌
4.1-nano: $- /100 万个令牌
o3: $- /100 万个令牌

Grader output:
o4-mini: $- /100 万个令牌
4.1-mini: $- /100 万个令牌
4.1: $- /100 万个令牌
4.1-nano: $- /100 万个令牌
o3: $- /100 万个令牌
全球 输入: $- /100 万个令牌
输出: $- /100 万个令牌
培训: $- /100 万个令牌
托管: $-/小时

Grader input:
o4-mini: $- /100 万个令牌
4.1-mini: $- /100 万个令牌
4.1: $- /100 万个令牌
4.1-nano: $- /100 万个令牌
o3: $- /100 万个令牌

Grader cached input:
o4-mini: $- /100 万个令牌
4.1-mini: $- /100 万个令牌
4.1: $- /100 万个令牌
4.1-nano: $- /100 万个令牌
o3: $- /100 万个令牌

Grader output:
o4-mini: $- /100 万个令牌
4.1-mini: $- /100 万个令牌
4.1: $- /100 万个令牌
4.1-nano: $- /100 万个令牌
o3: $- /100 万个令牌
GPT-4.1 区域性 输入: $- /100 万个令牌
缓存输入: $- /100 万个令牌
输出: $- /100 万个令牌
培训: $- /100 万个令牌
托管: $-/小时
全球 输入: $- /100 万个令牌
缓存输入: $- /100 万个令牌
输出: $- /100 万个令牌
培训: $- /100 万个令牌
托管: $-/小时
Developer 输入: $- /100 万个令牌
缓存输入: $- /100 万个令牌
输出: $- /100 万个令牌
GPT-4.1-mini 区域性 输入: $- /100 万个令牌
缓存输入: $- /100 万个令牌
输出: $- /100 万个令牌
培训: $- /100 万个令牌
托管: $-/小时
全球 输入: $- /100 万个令牌
缓存输入: $- /100 万个令牌
输出: $- /100 万个令牌
培训: $- /100 万个令牌
托管: $-/小时
Developer 输入: $- /100 万个令牌
缓存输入: $- /100 万个令牌
输出: $- /100 万个令牌
GPT-4.1-nano 区域性 输入: $- /100 万个令牌
缓存输入: $- /100 万个令牌
输出: $- /100 万个令牌
培训: $- /100 万个令牌
托管: $-/小时
全球 输入: $- /100 万个令牌
缓存输入: $- /100 万个令牌
输出: $- /100 万个令牌
培训: $- /100 万个令牌
托管: $-/小时
Developer 输入: $- /100 万个令牌
缓存输入: $- /100 万个令牌
输出: $- /100 万个令牌
GPT-4o-2024-08-06 区域性 输入: $- /100 万个令牌
缓存输入: $- /100 万个令牌
输出: $- /100 万个令牌
培训: $- /100 万个令牌
托管: $-/小时
全球 输入: $- /100 万个令牌
缓存输入: $- /100 万个令牌
输出: $- /100 万个令牌
培训: 使用区域
托管: $-/小时
GPT-4o-mini 区域性 输入: $- /100 万个令牌
缓存输入: $- /100 万个令牌
输出: $- /100 万个令牌
培训: $- /100 万个令牌
托管: $-/小时
全球 输入: $- /100 万个令牌
缓存输入: $- /100 万个令牌
输出: $- /100 万个令牌
培训: 使用区域
托管: $-/小时
GPT-3.5-Turbo (16K) 区域性 输入: $- /100 万个令牌
输出: $- /100 万个令牌
培训: $- /100 万个令牌
托管: $-/小时

图像模型

模型 质量 分辨率 价格(每 100 张图像)
Dall-E-3 标准 1024 * 1024 $-
标准 1024 * 1792,
1792 * 1024
$-
Dall-E-3 HD 1024 * 1024 $-
HD 1024 * 1792,
1792 * 1024
$-
Dall-E-2 标准 1024 * 1024 $-

嵌入模型

模型 每 1,000 个标记
Ada $-
文本-嵌入-3-大 $-
文本-嵌入-3-小 $-

语音模型

模型 价格
Whisper $-/小时
TTS(文本转语音) $-/1 百万个字符
TTS HD $-/1 百万个字符

旧版语言模型

模型 上下文 输入(每 100 万个令牌) 输出(每 100 万个令牌)
GPT-3.5-Turbo-0301 4K $- $-
GPT-3.5-Turbo-0613 4K $- $-
GPT-3.5-Turbo-0613 16K $- $-
GPT-3.5-Turbo-1106 16K $- $-
GPT-3.5-Turbo-0125 16K $- $-
GPT-3.5-Turbo-Instruct 4K $- $-
GPT-4-Turbo 128K $- $-
GPT-4-Turbo-Vision 128K $- $-
GPT-4 8K $- $-
GPT-4 32K $- $-

Azure 定价和购买选项

直接与我们联系

获取 Azure 定价演练。了解云解决方案的定价、学习成本优化和请求自定义建议。

与销售专家交谈

查看购买方式

通过 Azure 网站、Microsoft 代表或 Azure 合作伙伴购买 Azure 服务。

浏览你的选项

其他资源

Azure OpenAI 服务

详细了解 Azure OpenAI 服务 特性和功能。

定价计算器

估计每月使用任何 Azure 产品组合应产生的费用。

SLA

查看 Azure OpenAI 服务 的服务级别协议。

文档

查看技术教程、视频和更多 Azure OpenAI 服务 资源。

  • Azure OpenAI 服务根据即用即付和预配吞吐量单位 (PTU) 提供定价。即用即付允许为使用的资源付费,使其能够灵活应对可变的工作负载。PTU 提供可预测的定价模型,可在其中预留和部署特定数量的模型处理容量。此模型非常适合具有一致或可预测使用模式的工作负载,提供稳定性和成本控制。
  • 要详细了解 PTU 和 Azure OpenAI 定价,请阅读 PTU 文档联系我们的销售专家

与销售专家交谈,演练 Azure 定价情况。了解你的云解决方案的定价。

获取免费云服务和价值 $200 的赠金来探索 Azure 30 天。

添加到估价。 按“V”在计算器上查看
可以给你提供什么帮助?