Azure OpenAI 服务定价概述
为了帮助客户完成此过程,我们提供定价和成本管理解决方案来满足你的需求。包括:
- 标准(按需): 即用即付的输入和输出令牌。
- 已预配(PTU): 分配吞吐量,成本可预测,并且可进行月度和年度预留,以降低总体支出。
- 批处理 API: 现在,批处理 API 中也提供了语言模型,适用于全球部署和三个区域,可在 24 小时内返回完成结果,享受全球标准定价 50% 的折扣。
- 全球部署 – 全球 SKU
- 数据区部署 – 基于地理位置(欧盟或美国)
- 区域部署 – 本地区域(最多 27 个区域)
浏览定价选项
应用筛选器来根据你的需求自定义定价选项。
价格仅是估算值,不应用作实际报价单。实际定价可能因与 Microsoft 签订的协议类型、购买日期和货币汇率而异。价格基于美元计算,并使用在上一个月末最后一个工作日之前的两个工作日内捕获的伦敦收盘即期汇率进行转换。如果本月底之前的两个工作日在主要市场中属于银行假日,则汇率确定日通常是紧接在此两个工作日之后的一天。此汇率适用于下个月的所有交易。登录到 Azure 定价计算器查看基于你与 Microsoft 的当前计划/产品/服务的定价。有关定价或请求报价的详细信息,请联系 Azure 销售专家。请参阅经常询问有关 Azure 定价的问题。
美国政府实体有资格从授权解决方案提供商处购买 Azure 政府服务(无需预付定金),或者可直接通过即用即付在线订阅购买。
重要提示 - 该价格 (R$) 只是一个参考;这是一项国际交易,最终价格受汇率和所含 IOF 税的影响。不会发布 eNF。
美国政府实体有资格从授权解决方案提供商处购买 Azure 政府服务(无需预付定金),或者可直接通过即用即付在线订阅购买。
重要提示 - 该价格 (R$) 只是一个参考;这是一项国际交易,最终价格受汇率和所含 IOF 税的影响。不会发布 eNF。
o3
o3 is a powerful reasoning model from the o-series of reasoning models, pushing the frontier across coding, math, science, and visual perception. It excels in complex queries requiring multi-faceted analysis and performs strongly in visual tasks like analyzing images, charts, and graphics. The model features a 200K token context window and has a knowledge cutoff of June 2024.
模型 | 定价(每 100 万个令牌) | 批处理 API (100 万个令牌)的定价 |
---|---|---|
o3 2025-04-16 |
输入: $- 缓存输入: $- 输出: $- |
不适用 |
o4-mini
o4-mini is a compact, efficient, and cost-effective reasoning model from OpenAI's o-series. It excels in math, coding, and visual tasks. The model features a 200K token context window and has a knowledge cutoff of June 2024.
模型 | 定价(每 100 万个令牌) | 批处理 API (100 万个令牌)的定价 |
---|---|---|
o4-mini 2025-04-16 |
输入: $- 缓存输入: $- 输出: $- |
不适用 |
GPT-4.1 系列
GPT-4.1 series is a highly advanced general-purpose model with extensive world knowledge and an enhanced ability to understand user intent, making it particularly adept at creative tasks and agentic planning. The series features a 1 million token context window and has a knowledge cutoff of June 2024.
模型 | 定价(每 100 万个令牌) | 批处理 API (100 万个令牌)的定价 |
---|---|---|
GPT-4.1-2025-04-14 |
输入: $- 缓存输入: $- 输出: $- |
不适用 |
GPT-4.1-mini-2025-04-14 |
输入: $- 缓存输入: $- 输出: $- |
不适用 |
GPT-4.1-nano-2025-04-14 |
输入: $- 缓存输入: $- 输出: $- |
不适用 |
Sora in Azure OpenAI
Sora is a multimodal generative AI model now available in Azure AI Foundry, designed to help creative teams bring ideas to life through seamless API-first integration. Built on Azure’s enterprise-grade infrastructure, it offers secure, scalable deployment for transforming concepts into high-quality visual content.
Price per second | 1-5s | 6-10s | 11-15s | 16-20s |
---|---|---|---|---|
480 Square | $- | $- | $- | $- |
480p | $- | $- | $- | $- |
720 Square | $- | $- | $- | $- |
720p | $- | $- | $- | $- |
1080 Square | $- | $- | $- | $- |
1080p | $- | $- | $- | $- |
GPT-Image-1
GPT-image-1 enhances DALL·E with better instruction following, accurate text rendering, and support for image input and editing. The model is priced per token, with different pricing for text and image tokens.
模型 | 定价(每 100 万个令牌) | 批处理 API (100 万个令牌)的定价 |
---|---|---|
GPT-Image-1 Global |
Input Text: $- Input Image: $- Output Image: $- |
不适用 |
GPT-Image-1 Regional |
Input Text: $- Input Image: $- Output Image: $- |
不适用 |
GPT-Image-1 Data Zone |
Input Text: $- Input Image: $- Output Image: $- |
不适用 |
GPT-4.5
GPT-4.5-preview 是最新的常规用途模型,具备深厚的世界知识和更好的用户意图理解能力,使其在创意任务和代理规划方面表现出色。该模型具有 128K 上下文,并且知识更新到 2023 年 10 月。
模型 | 定价(每 100 万个令牌) | 批处理 API (100 万个令牌)的定价 |
---|---|---|
GPT-4.5-Preview-2025-02-27 Global |
输入: $- 缓存输入: $- 输出: $- |
不适用 |
o1
o1 是面向复杂任务的新型推理模型系列。该模型具有 200K 上下文,并且知识更新到 2023 年 10 月。
模型 | 定价(每 100 万个令牌) | 批处理 API (100 万个令牌)的定价 |
---|---|---|
o1 2024-12-17 全球 |
输入: $- 缓存输入: $- 输出: $- |
不适用 |
o1 2024-12-17 美国/欧盟 – 数据区域 |
输入: $- 缓存输入: $- 输出: $- |
不适用 |
o1 2024-12-17 区域 |
输入: $- 缓存输入: $- 输出: $- |
不适用 |
o1 预览版 2024-09-12 全球 |
输入: $- 缓存输入: $- 输出: $- |
不适用 |
o1 预览版 2024-09-12 美国/欧洲 – 数据区域 |
输入: $- 缓存输入: $- 输出: $- |
不适用 |
o1 预览版 2024-09-12 区域 |
输入: $- 缓存输入: $- 输出: $- |
不适用 |
使用定价计算器制定计划
o3 Mini
o3 mini 是 o1 mini 模型的更新版本。o3-mini 是一个快速、经济高效的推理模型,专为编码、数学和科学应用场景而设计。
o3 mini 模型现在拥有一个可支持 20 万个词元的扩展上下文输入窗口,且最多可输出 10 万个词元,可通过充足的空间提供复杂且详细的响应。o1 mini 模型支持包含 12.8 万个词元的上下文输入。o3 和 o1 模型的知识截止时间都是 2023 年 10 月。
模型 | 定价(每 100 万个令牌) | 批处理 API (100 万个令牌)的定价 |
---|---|---|
o3 mini 2025-01-31 全球 |
输入: $- 缓存输入: $- 输出: $- |
输入: $- 输出: $- |
o3 mini 2025-01-31-美国/欧洲 – 数据区域 |
输入: $- 缓存输入: $- 输出: $- |
输入: $- 输出: $- |
o3 mini 2025-01-31 区域 |
输入: $- 缓存输入: $- 输出: $- |
不适用 |
o1-mini 2024-09-12 全球 |
输入: $- 缓存输入: $- 输出: $- |
不适用 |
o1-mini 2024-09-12 美国/欧洲 – 数据区域 |
输入: $- 缓存输入: $- 输出: $- |
不适用 |
o1-mini 2024-09-12 区域 |
输入: $- 缓存输入: $- 输出: $- |
不适用 |
使用定价计算器制定计划
Audio Models
Azure OpenAI Service includes the advanced audio models GPT-4o-Transcribe, GPT-4o-Mini-Transcribe, and GPT-4o-Mini-TTS. These models enhance speech-to-text and text-to-speech capabilities, offering high accuracy and customizable speech outputs for various applications. Ideal for customer call centers, live captioning, and interactive voice outputs, they leverage extensive pretraining and advanced distillation techniques for superior performance.
模型 | 定价(每 100 万个令牌) | 批处理 API (100 万个令牌)的定价 |
---|---|---|
GPT-4o-Transcribe |
文本 输入: $- 输出: $- 音频 输入: $- 输出: 不适用 |
不适用 |
GPT-4o-Mini-Transcribe |
文本 输入: $- 输出: $- 音频 输入: $- 输出: 不适用 |
不适用 |
GPT-4o-Mini-TTS |
文本 输入: $- 输出: 不适用 音频 输入: 不适用 输出: $- |
不适用 |
计算机使用代理(CUA)
计算机使用代理(CUA)是一种专用的 AI 模型,支持 AI 与图形用户界面(GUI)交互、导航应用程序,以及通过自然语言指令自动执行多步骤任务。CUA 模型可以作为响应 API 中的工具使用。
模型 | 定价 |
---|---|
计算机使用预览版全局设置 |
输入: $- /100 万个令牌 输出: $- /100 万个令牌 |
内置工具
响应 API 和助手 API 支持与计算机使用、代码解释器、函数调用和文件搜索等工具无缝交互,使开发人员能够构建 AI 代理。
工具 | 输入 |
---|---|
计算机使用(仅限响应 API) |
输入: $- /100 万个令牌 输出: $- /100 万个令牌 |
文件搜索工具调用(仅限响应 API) | $-/1K 工具调用 |
文件搜索* | $-/GB 矢量存储/天(1 GB 免费) |
代码解释器** | $-/会话 |
*GB 是指二进制吉字节,其中 1 gb 为 2^30 b。
**如果助手在两个不同的线程中同时调用代码解释器,这将创建两个代码解释器会话(2 * $-)。每个会话默认处于活动状态一小时,这意味着只有当用户在同一线程中持续向代码解释器提供说明达 1 小时时,你才需要支付此费用一次。
推理成本(输入和输出)因每个助手所用的 GPT 模型而异。如果助手在两个不同的线程中同时调用代码解释器,这将创建两个代码解释器会话(2 * $-)。每个会话默认处于活动状态一小时,这意味着价格为一小时内在同一线程中向代码解释器发出指令所产生的费用。
实时 API
作为实时 API 中的重要部分,GPT-4o-Realtime-Preview 支持多语言语音转语音功能。它针对实时、低延迟的对话进行了优化,可实现最低延迟的自然交互,非常适合聊天机器人和对话式 AI。GPT-4o 是专为复杂任务设计的全面且更强大的版本,而 GPT-4o Mini 则是更小、更实惠的选项,非常适合优先考虑成本效益和速度的更简单的应用程序。
模型 | 定价(每 100 万个令牌) |
---|---|
GPT-4o-Realtime-Preview-2024-12-17-Global |
文本 输入: $- 缓存输入: $- 输出: $- 音频 输入: $- 缓存输入: $- 输出: $- |
GPT-4o-Realtime-Preview-2024-12-17-US/EU – 数据区域 |
文本 输入: $- 缓存输入: $- 输出: $- 音频 输入: $- 缓存输入: $- 输出: $- |
GPT-4o-Realtime-Preview-2024-12-17-Regional |
文本 输入: $- 缓存输入: $- 输出: $- 音频 输入: $- 缓存输入: $- 输出: $- |
GPT-4o-Mini-Realtime-Preview-2024-12-17-Global |
文本 输入: $- 缓存输入: $- 输出: $- 音频 输入: $- 缓存输入: $- 输出: $- |
GPT-4o-Mini-Realtime-Preview-2024-12-17-US/EU – 数据区域 |
文本 输入: $- 缓存输入: $- 输出: $- 音频 输入: $- 缓存输入: $- 输出: $- |
GPT-4o-Mini-Realtime-Preview-2024-12-17-Regional |
文本 输入: $- 缓存输入: $- 输出: $- 音频 输入: $- 缓存输入: $- 输出: $- |
GPT-4o-Realtime-Preview-2024-10-01-Global |
文本 输入: $- 缓存输入: $- 输出: $- 音频 输入: $- 缓存输入: $- 输出: $- |
GPT-4o-Realtime-Preview-2024-10-01-US/EU – 数据区域 |
文本 输入: $- 缓存输入: $- 输出: $- 音频 输入: $- 缓存输入: $- 输出: $- |
GPT-4o-Realtime-Preview-2024-10-01-Regional |
文本 输入: $- 缓存输入: $- 输出: $- 音频 输入: $- 缓存输入: $- 输出: $- |
聊天完成 API
作为聊天完成 API 的重要部分,GPT 4o-Audio-Preview 模型可处理和生成音频内容。它支持语音识别和音频合成等高级功能,非常适合异步语音交互和情绪分析。GPT-4o 是专为复杂任务设计的全面且更强大的版本,而 GPT-4o Mini 则是更小、更实惠的选项,非常适合优先考虑成本效益和速度的更简单的应用程序。
模型 | 定价(每 100 万个令牌) |
---|---|
GPT-4o-Audio-Preview-2024-12-17-Global |
文本 输入: $- 输出: $- 音频 输入: $- 输出: $- |
GPT-4o-Audio-Preview-2024-12-17-US/EU – 数据区域 |
文本 输入: $- 输出: $- 音频 输入: $- 输出: $- |
GPT-4o-Audio-Preview-2024-12-17-Regional |
文本 输入: $- 输出: $- 音频 输入: $- 输出: $- |
GPT-4o-Mini-Audio-Preview-2024-12-17-Global |
文本 输入: $- 输出: $- 音频 输入: $- 输出: $- |
GPT-4o-Mini-Audio-Preview-2024-12-17-US/EU – 数据区域 |
文本 输入: $- 输出: $- 音频 输入: $- 输出: $- |
GPT-4o-Mini-Audio-Preview-2024-12-17-Regional |
文本 输入: $- 输出: $- 音频 输入: $- 输出: $- |
GPT-4o
GPT-4o 是最先进的多模态模型,具有更强大的视觉能力,并且比 GPT-4 Turbo 更快、成本更低。该模型具有 128K 上下文,并且知识更新到 2023 年 10 月。
模型 | 定价(每 100 万个令牌) | 批处理 API (100 万个令牌)的定价 |
---|---|---|
GPT-4o-2024-1120 全球 |
输入: $- 缓存输入: $- 输出: $- |
输入: $- 输出: $- |
GPT-4o-2024-1120 美国/欧盟 – 数据区域 |
输入: $- 缓存输入: $- 输出: $- |
输入: $- 输出: $- |
GPT-4o-2024-1120 区域 |
输入: $- 缓存输入: $- 输出: $- |
不适用 |
GPT-4o-2024-08-06 全球 |
输入: $- 缓存输入: $- 输出: $- |
输入: $- 输出: $- |
GPT-4o-2024-08-06 美国/欧盟 – 数据区域 |
输入: $- 缓存输入: $- 输出: $- |
输入: $- 输出: $- |
GPT-4o-2024-08-06 区域 |
输入: $- 缓存输入: $- 输出: $- |
不适用 |
GPT-4o-2024-0513 全球 |
输入: $- 输出: $- |
输入: $- 输出: $- |
GPT-4o-2024-0513 美国/欧盟 – 数据区域 |
输入: $- 输出: $- |
不适用 |
GPT-4o-2024-0513 区域 |
输入: $- 输出: $- |
不适用 |
使用定价计算器制定计划
GPT-4o 微型
GPT-4o 微型是极为经济高效的小型模型,并且具备视觉功能。该模型具有 128K 上下文,并且知识更新到 2023 年 10 月。
模型 | 定价(每 100 万个令牌) | 批处理 API (100 万个令牌)的定价 |
---|---|---|
GPT-4o-mini-0718 全球 |
输入: $- 缓存输入: $- 输出: $- |
输入: $- 输出: $- |
GPT-4o-mini-0718 美国/欧洲 –数据区域 |
输入: $- 缓存输入: $- 输出: $- |
输入: $- 输出: $- |
GPT-4o-mini-0718 区域 |
输入: $- 缓存输入: $- 输出: $- |
不适用 |
使用定价计算器制定计划
已预配
可以分配和管理部署的吞吐量,确保实现可预测的性能和稳定的容量。无论使用情况如何,均按每个模型的小事费率计费,但也可以通过每月和每年预留来节省更多费用。在此 Learn 页上了解如何将区域部署和预配预留转换为全局区域和数据区域。
模型 | 最小 PTU | PTU 每小时定价 | PTU 每月预留定价 | PTU 每年预留定价 |
---|---|---|---|---|
GPT-4.1 Global | 15 | $- | $- | $- |
GPT-4.1 Data Zones | 15 | $- | $- | $- |
GPT-4.1 Regional | 50 | $- | $- | $- |
GPT-4.1-mini Global | 15 | $- | $- | $- |
GPT-4.1-mini US/EU Data Zones | 15 | $- | $- | $- |
GPT-4.1-mini Regional | 25 | $- | $- | $- |
GPT-4.1-nano Global | 15 | $- | $- | $- |
GPT-4.1-nano US/EU Data Zones | 15 | $- | $- | $- |
GPT-4.1-nano Regional | 25 | $- | $- | $- |
o3 Global | 15 | $- | $- | $- |
o3 US/EU Data Zones | 15 | $- | $- | $- |
o3 Regional | 50 | $- | $- | $- |
o4-mini Global | 15 | $- | $- | $- |
o4-mini US/EU Data Zones | 15 | $- | $- | $- |
o4-mini Regional | 25 | $- | $- | $- |
GPT-4o 全球 | 15 | $- | $- | $- |
GPT-4o US/EU 数据区域 | 15 | $- | $- | $- |
GPT-4o 区域性 | 50 | $- | $- | $- |
微调 GPT-4o-区域 | 50 | $- | $- | $- |
GPT-4o 微型全球 | 15 | $- | $- | $- |
GPT-4o 微型 US/EU 数据区域 | 15 | $- | $- | $- |
GPT-4o 微型区域性 | 25 | $- | $- | $- |
微调 GPT-4o-Mini 区域 | 25 | $- | $- | $- |
使用定价计算器制定计划
基本模型
模型 | 每 1,000 个令牌的使用情况 |
---|---|
Babbage-002 | $- |
Davinci-002 | $- |
微调模型
模型 | 定价 | |
---|---|---|
o4-mini (Reinforcement fine-tuning) | 区域性 |
输入: $- /100 万个令牌 输出: $- /100 万个令牌 培训: $- /100 万个令牌 托管: $-/小时 Grader input: o4-mini: $- /100 万个令牌 4.1-mini: $- /100 万个令牌 4.1: $- /100 万个令牌 4.1-nano: $- /100 万个令牌 o3: $- /100 万个令牌 Grader cached input: o4-mini: $- /100 万个令牌 4.1-mini: $- /100 万个令牌 4.1: $- /100 万个令牌 4.1-nano: $- /100 万个令牌 o3: $- /100 万个令牌 Grader output: o4-mini: $- /100 万个令牌 4.1-mini: $- /100 万个令牌 4.1: $- /100 万个令牌 4.1-nano: $- /100 万个令牌 o3: $- /100 万个令牌 |
全球 |
输入: $- /100 万个令牌 输出: $- /100 万个令牌 培训: $- /100 万个令牌 托管: $-/小时 Grader input: o4-mini: $- /100 万个令牌 4.1-mini: $- /100 万个令牌 4.1: $- /100 万个令牌 4.1-nano: $- /100 万个令牌 o3: $- /100 万个令牌 Grader cached input: o4-mini: $- /100 万个令牌 4.1-mini: $- /100 万个令牌 4.1: $- /100 万个令牌 4.1-nano: $- /100 万个令牌 o3: $- /100 万个令牌 Grader output: o4-mini: $- /100 万个令牌 4.1-mini: $- /100 万个令牌 4.1: $- /100 万个令牌 4.1-nano: $- /100 万个令牌 o3: $- /100 万个令牌 |
|
GPT-4.1 | 区域性 |
输入: $- /100 万个令牌 缓存输入: $- /100 万个令牌 输出: $- /100 万个令牌 培训: $- /100 万个令牌 托管: $-/小时 |
全球 |
输入: $- /100 万个令牌 缓存输入: $- /100 万个令牌 输出: $- /100 万个令牌 培训: $- /100 万个令牌 托管: $-/小时 |
|
Developer |
输入: $- /100 万个令牌 缓存输入: $- /100 万个令牌 输出: $- /100 万个令牌 |
|
GPT-4.1-mini | 区域性 |
输入: $- /100 万个令牌 缓存输入: $- /100 万个令牌 输出: $- /100 万个令牌 培训: $- /100 万个令牌 托管: $-/小时 |
全球 |
输入: $- /100 万个令牌 缓存输入: $- /100 万个令牌 输出: $- /100 万个令牌 培训: $- /100 万个令牌 托管: $-/小时 |
|
Developer |
输入: $- /100 万个令牌 缓存输入: $- /100 万个令牌 输出: $- /100 万个令牌 |
|
GPT-4.1-nano | 区域性 |
输入: $- /100 万个令牌 缓存输入: $- /100 万个令牌 输出: $- /100 万个令牌 培训: $- /100 万个令牌 托管: $-/小时 |
全球 |
输入: $- /100 万个令牌 缓存输入: $- /100 万个令牌 输出: $- /100 万个令牌 培训: $- /100 万个令牌 托管: $-/小时 |
|
Developer |
输入: $- /100 万个令牌 缓存输入: $- /100 万个令牌 输出: $- /100 万个令牌 |
|
GPT-4o-2024-08-06 | 区域性 |
输入: $- /100 万个令牌 缓存输入: $- /100 万个令牌 输出: $- /100 万个令牌 培训: $- /100 万个令牌 托管: $-/小时 |
全球 |
输入: $- /100 万个令牌 缓存输入: $- /100 万个令牌 输出: $- /100 万个令牌 培训: 使用区域 托管: $-/小时 |
|
GPT-4o-mini | 区域性 |
输入: $- /100 万个令牌 缓存输入: $- /100 万个令牌 输出: $- /100 万个令牌 培训: $- /100 万个令牌 托管: $-/小时 |
全球 |
输入: $- /100 万个令牌 缓存输入: $- /100 万个令牌 输出: $- /100 万个令牌 培训: 使用区域 托管: $-/小时 |
|
GPT-3.5-Turbo (16K) | 区域性 |
输入: $- /100 万个令牌 输出: $- /100 万个令牌 培训: $- /100 万个令牌 托管: $-/小时 |
图像模型
模型 | 质量 | 分辨率 | 价格(每 100 张图像) |
---|---|---|---|
Dall-E-3 | 标准 | 1024 * 1024 | $- |
标准 | 1024 * 1792, 1792 * 1024 |
$- | |
Dall-E-3 | HD | 1024 * 1024 | $- |
HD | 1024 * 1792, 1792 * 1024 |
$- | |
Dall-E-2 | 标准 | 1024 * 1024 | $- |
嵌入模型
模型 | 每 1,000 个标记 |
---|---|
Ada | $- |
文本-嵌入-3-大 | $- |
文本-嵌入-3-小 | $- |
语音模型
模型 | 价格 |
---|---|
Whisper | $-/小时 |
TTS(文本转语音) | $-/1 百万个字符 |
TTS HD | $-/1 百万个字符 |
旧版语言模型
模型 | 上下文 | 输入(每 100 万个令牌) | 输出(每 100 万个令牌) |
---|---|---|---|
GPT-3.5-Turbo-0301 | 4K | $- | $- |
GPT-3.5-Turbo-0613 | 4K | $- | $- |
GPT-3.5-Turbo-0613 | 16K | $- | $- |
GPT-3.5-Turbo-1106 | 16K | $- | $- |
GPT-3.5-Turbo-0125 | 16K | $- | $- |
GPT-3.5-Turbo-Instruct | 4K | $- | $- |
GPT-4-Turbo | 128K | $- | $- |
GPT-4-Turbo-Vision | 128K | $- | $- |
GPT-4 | 8K | $- | $- |
GPT-4 | 32K | $- | $- |
Azure 定价和购买选项
其他资源
Azure OpenAI 服务
详细了解 Azure OpenAI 服务 特性和功能。
定价计算器
估计每月使用任何 Azure 产品组合应产生的费用。
SLA
查看 Azure OpenAI 服务 的服务级别协议。
文档
查看技术教程、视频和更多 Azure OpenAI 服务 资源。
常见问题解答
-
Azure OpenAI 服务根据即用即付和预配吞吐量单位 (PTU) 提供定价。即用即付允许为使用的资源付费,使其能够灵活应对可变的工作负载。PTU 提供可预测的定价模型,可在其中预留和部署特定数量的模型处理容量。此模型非常适合具有一致或可预测使用模式的工作负载,提供稳定性和成本控制。
与销售专家交谈,演练 Azure 定价情况。了解你的云解决方案的定价。
获取免费云服务和价值 $200 的赠金来探索 Azure 30 天。