Azure OpenAI 服务定价概述
为了帮助客户完成此过程,我们提供定价和成本管理解决方案以满足你的需求。包括:
- 标准(按需): 按使用量付费输入和输出令牌。
- 已预配(PTU): 分配吞吐量,成本可预测,并且可进行月度和年度预留,以降低总体支出。
- 批处理 API: 现在,批处理 API 中也提供了语言模型,适用于全球部署和三个区域,可在 24 小时内返回完成结果,享受全球标准定价 50% 的折扣。
- 全球部署 – 全球 SKU
- 数据区部署 – 基于地理位置(欧盟或美国)
- 区域部署 – 本地区域(最多 27 个区域)
浏览定价选项
应用筛选器来根据你的需求自定义定价选项。
价格仅是估算值,不应用作实际报价单。实际定价可能因与 Microsoft 签订的协议类型、购买日期和货币汇率而异。价格基于美元计算,并使用在上一个月末最后一个工作日之前的两个工作日内捕获的伦敦收盘即期汇率进行转换。如果本月底之前的两个工作日在主要市场中属于银行假日,则汇率确定日通常是紧接在此两个工作日之后的一天。此汇率适用于下个月的所有交易。登录到 Azure 定价计算器查看基于你与 Microsoft 的当前计划/产品/服务的定价。有关定价或请求报价的详细信息,请联系 Azure 销售专家。请参阅经常询问有关 Azure 定价的问题。
美国政府实体有资格从授权解决方案提供商处购买 Azure 政府服务(无需预付定金),或者可直接通过即用即付在线订阅购买。
重要提示 - 该价格 (R$) 只是一个参考;这是一项国际交易,最终价格受汇率和所含 IOF 税的影响。不会发布 eNF。
美国政府实体有资格从授权解决方案提供商处购买 Azure 政府服务(无需预付定金),或者可直接通过即用即付在线订阅购买。
重要提示 - 该价格 (R$) 只是一个参考;这是一项国际交易,最终价格受汇率和所含 IOF 税的影响。不会发布 eNF。
o1
o1 是面向复杂任务的新型推理模型系列。该模型具有 200K 上下文,并且知识更新到 2023 年 10 月。
模型 | 定价(每 100 万个令牌) |
---|---|
o1 1217 全球 |
输入: $- 缓存输入: $- 输出: $- |
o1 1217 美国/欧盟 – 数据区域 |
输入: $- 缓存输入: $- 输出: $- |
o1 1217 区域 |
输入: $- 缓存输入: $- 输出: $- |
o1 预览版全球 |
输入: $- 缓存输入: $- 输出: $- |
o1 预览版美国/欧盟 – 数据区域 |
输入: $- 缓存输入: $- 输出: $- |
o1 预览版区域 |
输入: $- 缓存输入: $- 输出: $- |
使用定价计算器制定计划
o1 微型
o1-mini 是一种快速、经济高效的推理模型,专为编码、数学和科学用例定制。该模型具有 128K 上下文,并且知识更新到 2023 年 10 月。
模型 | 定价(每 100 万个令牌) |
---|---|
全球 |
输入: $- 缓存输入: $- 输出: $- |
US/EU – 数据区域 |
输入: $- 缓存输入: $- 输出: $- |
区域性 |
输入: $- 缓存输入: $- 输出: $- |
使用定价计算器制定计划
实时 API
Featured in the Realtime API, the GPT-4o-Realtime-Preview supports multilingual speech-to-speech capabilities. Optimized for real-time, low-latency conversations, it enables natural interactions with minimal delay, ideal for chatbots and conversational AI. GPT-4o is the comprehensive, more powerful version designed for complex tasks, while GPT-4o Mini is a smaller, more affordable option ideal for simpler applications where cost-efficiency and speed are priorities.
模型 | 定价(每 100 万个令牌) |
---|---|
GPT-4o-Realtime-Preview-2024-12-17-Global |
文本 输入: $- 缓存输入: $- 输出: $- 音频 输入: $- 缓存输入: $- 输出: $- |
GPT-4o-Realtime-Preview-2024-12-17-US/EU – Data Zones |
文本 输入: $- 缓存输入: $- 输出: $- 音频 输入: $- 缓存输入: $- 输出: $- |
GPT-4o-Realtime-Preview-2024-12-17-Regional |
文本 输入: $- 缓存输入: $- 输出: $- 音频 输入: $- 缓存输入: $- 输出: $- |
GPT-4o-Mini-Realtime-Preview-2024-12-17-Global |
文本 输入: $- 缓存输入: $- 输出: $- 音频 输入: $- 缓存输入: $- 输出: $- |
GPT-4o-Mini-Realtime-Preview-2024-12-17-US/EU – Data Zones |
文本 输入: $- 缓存输入: $- 输出: $- 音频 输入: $- 缓存输入: $- 输出: $- |
GPT-4o-Mini-Realtime-Preview-2024-12-17-Regional |
文本 输入: $- 缓存输入: $- 输出: $- 音频 输入: $- 缓存输入: $- 输出: $- |
GPT-4o-Realtime-Preview-2024-10-01-Global |
文本 输入: $- 缓存输入: $- 输出: $- 音频 输入: $- 缓存输入: $- 输出: $- |
GPT-4o-Realtime-Preview-2024-10-01-US/EU – Data Zones |
文本 输入: $- 缓存输入: $- 输出: $- 音频 输入: $- 缓存输入: $- 输出: $- |
GPT-4o-Realtime-Preview-2024-10-01-Regional |
文本 输入: $- 缓存输入: $- 输出: $- 音频 输入: $- 缓存输入: $- 输出: $- |
Chat Completions API
Featured in the Chat Completions API, the GPT 4o-Audio-Preview model processes and generates audio content. It supports advanced features like speech recognition and audio synthesis, ideal for asynchronous speech interactions and sentiment analysis. GPT-4o is the comprehensive, more powerful version designed for complex tasks, while GPT-4o Mini is a smaller, more affordable option ideal for simpler applications where cost-efficiency and speed are priorities.
模型 | 定价(每 100 万个令牌) |
---|---|
GPT-4o-Audio-Preview-2024-12-17-Global |
文本 输入: $- 输出: $- 音频 输入: $- 输出: $- |
GPT-4o-Audio-Preview-2024-12-17-US/EU – Data Zones |
文本 输入: $- 输出: $- 音频 输入: $- 输出: $- |
GPT-4o-Audio-Preview-2024-12-17-Regional |
文本 输入: $- 输出: $- 音频 输入: $- 输出: $- |
GPT-4o-Mini-Audio-Preview-2024-12-17-Global |
文本 输入: $- 输出: $- 音频 输入: $- 输出: $- |
GPT-4o-Mini-Audio-Preview-2024-12-17-US/EU – Data Zones |
文本 输入: $- 输出: $- 音频 输入: $- 输出: $- |
GPT-4o-Mini-Audio-Preview-2024-12-17-Regional |
文本 输入: $- 输出: $- 音频 输入: $- 输出: $- |
GPT-4o
GPT-4o 是最先进的多模态模型,具有更强大的视觉能力,并且比 GPT-4 Turbo 更快、成本更低。该模型具有 128K 上下文,并且知识更新到 2023 年 10 月。
模型 | 定价(每 100 万个令牌) | 批处理 API (100 万个令牌)的定价 |
---|---|---|
GPT-4o-2024-1120 全球 |
输入: $- 缓存输入: $- 输出: $- |
输入: $- 输出: $- |
GPT-4o-2024-1120 美国/欧盟 – 数据区域 |
输入: $- 缓存输入: $- 输出: $- |
输入: $- 输出: $- |
GPT-4o-2024-1120 区域 |
输入: $- 缓存输入: $- 输出: $- |
不适用 |
GPT-4o-2024-08-06 全球 |
输入: $- 缓存输入: $- 输出: $- |
输入: $- 输出: $- |
GPT-4o-2024-08-06 美国/欧盟 – 数据区域 |
输入: $- 缓存输入: $- 输出: $- |
输入: $- 输出: $- |
GPT-4o-2024-08-06 区域 |
输入: $- 缓存输入: $- 输出: $- |
不适用 |
GPT-4o-2024-0513 全球 |
输入: $- 输出: $- |
输入: $- 输出: $- |
GPT-4o-2024-0513 美国/欧盟 – 数据区域 |
输入: $- 输出: $- |
不适用 |
GPT-4o-2024-0513 区域 |
输入: $- 输出: $- |
不适用 |
使用定价计算器制定计划
GPT-4o 微型
GPT-4o 微型是极为经济高效的小型模型,并且具备视觉功能。该模型具有 128K 上下文,并且知识更新到 2023 年 10 月。
模型 | 定价(每 100 万个令牌) | 批处理 API (100 万个令牌)的定价 |
---|---|---|
GPT-4o-mini-0718 Global |
输入: $- 缓存输入: $- 输出: $- |
输入: $- 输出: $- |
GPT-4o-mini-0718 US/EU – Data Zones |
输入: $- 缓存输入: $- 输出: $- |
输入: $- 输出: $- |
GPT-4o-mini-0718 Regional |
输入: $- 缓存输入: $- 输出: $- |
不适用 |
使用定价计算器制定计划
已预配
可以分配和管理部署的吞吐量,确保实现可预测的性能和稳定的容量。无论使用情况如何,均按每个模型的小事费率计费,但也可以通过每月和每年预留来节省更多费用。在此 Learn 页上了解如何将区域部署和预配预留转换为全局区域和数据区域。
模型 | 最小 PTU | PTU 每小时定价 | PTU 每月预留定价 | PTU 每年预留定价 |
---|---|---|---|---|
GPT-4o 全球 | 15 | $- | $- | $- |
GPT-4o US/EU 数据区域 | 15 | $- | $- | $- |
GPT-4o 区域性 | 50 | $- | $- | $- |
GPT-4o 微型全球 | 15 | $- | $- | $- |
GPT-4o 微型 US/EU 数据区域 | 15 | $- | $- | $- |
GPT-4o 微型区域性 | 25 | $- | $- | $- |
使用定价计算器制定计划
基本模型
模型 | 每 1,000 个令牌的使用情况 |
---|---|
Babbage-002 | $- |
Davinci-002 | $- |
微调模型
模型 | 定价 | |
---|---|---|
GPT-4o-2024-08-06 | 区域性 |
输入: $- /100 万个令牌 缓存输入: $- /100 万个令牌 输出: $- /100 万个令牌 培训: $- /100 万个令牌 托管: $- /小时 |
全球 |
输入: $- /100 万个令牌 缓存输入: $- /100 万个令牌 输出: $- /100 万个令牌 培训: 使用区域 托管: $- /小时 |
|
GPT-4o-mini | 区域性 |
输入: $- /100 万个令牌 缓存输入: $- /100 万个令牌 输出: $- /100 万个令牌 培训: $- /100 万个令牌 托管: $- /小时 |
全球 |
输入: $- /100 万个令牌 缓存输入: $- /100 万个令牌 输出: $- /100 万个令牌 培训: 使用区域 托管: $- /小时 |
|
GPT-4-0613 (8K) | 区域性 |
输入: $- /100 万个令牌 输出: $- /100 万个令牌 培训: $- /100 万个令牌 托管: $- /小时 |
GPT-3.5-Turbo (16K) | 区域性 |
输入: $- /100 万个令牌 输出: $- /100 万个令牌 培训: $- /100 万个令牌 托管: $- /小时 |
GPT-3.5-Turbo (4K) | 区域性 |
输入: $- /100 万个令牌 输出: $- /100 万个令牌 培训: $- /100 万个令牌 托管: $- /小时 |
Babbage-002 |
输入: $- /100 万个令牌 输出: $- /100 万个令牌 培训: $- /100 万个令牌 托管: $- /小时 |
|
Davinci-002 |
输入: $- /100 万个令牌 输出: $- /100 万个令牌 培训: $- /100 万个令牌 托管: $- /小时 |
助手 API
通过助手 API 及其工具,开发人员可以轻松地在其应用程序中生成 AI 助手。
用于助手 API 的标记按所选语言模型用于每个助手的每个标记输入/输出费率计费。此外,我们还对工具的使用收取以下费用:
*GB 是指二进制吉字节,其中 1 gb 为 2^30 b。
**如果助手在两个不同的线程中同时调用代码解释器,这将创建两个代码解释器会话(2 * $-)。每个会话默认处于活动状态一小时,这意味着只有当用户在同一线程中持续向代码解释器提供说明达 1 小时时,你才需要支付此费用一次。
推理成本(输入和输出)因每个助手所用的 GPT 模型而异。如果助手在两个不同的线程中同时调用代码解释器,这将创建两个代码解释器会话(2 * $-)。每个会话默认处于活动状态一小时,这意味着价格为一小时内在同一线程中向代码解释器发出指令所产生的费用。
图像模型
模型 | 质量 | 分辨率 | 价格(每 100 张图像) |
---|---|---|---|
Dall-E-3 | 标准 | 1024 * 1024 | $- |
标准 | 1024 * 1792, 1792 * 1024 |
$- | |
Dall-E-3 | HD | 1024 * 1024 | $- |
HD | 1024 * 1792, 1792 * 1024 |
$- | |
Dall-E-2 | 标准 | 1024 * 1024 | $- |
嵌入模型
模型 | 每 1,000 个标记 |
---|---|
Ada | $- |
文本-嵌入-3-大 | $- |
文本-嵌入-3-小 | $- |
语音模型
模型 | 价格 |
---|---|
Whisper | $-/小时 |
TTS(文本转语音) | $-/1 百万个字符 |
TTS HD | $-/1 百万个字符 |
旧版语言模型
模型 | 上下文 | 输入(每 100 万个令牌) | 输出(每 100 万个令牌) |
---|---|---|---|
GPT-3.5-Turbo-0301 | 4K | $- | $- |
GPT-3.5-Turbo-0613 | 4K | $- | $- |
GPT-3.5-Turbo-0613 | 16K | $- | $- |
GPT-3.5-Turbo-1106 | 16K | $- | $- |
GPT-3.5-Turbo-0125 | 16K | $- | $- |
GPT-3.5-Turbo-Instruct | 4K | $- | $- |
GPT-4-Turbo | 128K | $- | $- |
GPT-4-Turbo-Vision | 128K | $- | $- |
GPT-4 | 8K | $- | $- |
GPT-4 | 32K | $- | $- |
Azure 定价和购买选项
其他资源
Azure OpenAI 服务
详细了解 Azure OpenAI 服务 特性和功能。
定价计算器
估计每月使用任何 Azure 产品组合应产生的费用。
SLA
查看 Azure OpenAI 服务 的服务级别协议。
文档
查看技术教程、视频和更多 Azure OpenAI 服务 资源。
常见问题解答
-
Azure OpenAI 服务根据即用即付和预配吞吐量单位 (PTU) 提供定价。即用即付允许为使用的资源付费,使其能够灵活应对可变的工作负载。PTU 提供可预测的定价模型,可在其中预留和部署特定数量的模型处理容量。此模型非常适合具有一致或可预测使用模式的工作负载,提供稳定性和成本控制。
与销售专家交谈,演练 Azure 定价情况。了解你的云解决方案的定价。
获取免费云服务和价值 $200 的赠金来探索 Azure 30 天。