跳转至主内容
Azure

Azure OpenAI 服务定价

Azure OpenAI 服务定价概述

Azure OpenAI 服务提供企业级生成式 AI,具有来自 OpenAI 的强大模型,使组织能够利用文本、音频和视觉功能进行创新。除了尖端模型之外,公司还选择 Azure OpenAI 服务来实现内置数据隐私、区域/地区/全球灵活性以及与 Azure 生态系统(包括 Fabric、Cosmos DB 和 Azure AI Search)的无缝集成。各种规模的公司都可以自信地扩展 AI 解决方案,以增强客户体验、自动化工作流并释放创造潜力,从而推动可衡量的影响和竞争差异。

为了帮助客户完成此过程,我们提供定价和成本管理解决方案以满足你的需求。包括: 可以从以下标准和预配部署类型中进行选择,从而实现更大的灵活性以及对定价和性能的控制。当数据处理边界越来越严格,并且需要提高吞吐量并降低价格时,这种灵活性会有所帮助。
  • 全球部署 – 全球 SKU
  • 数据区部署 – 基于地理位置(欧盟或美国)
  • 区域部署 – 本地区域(最多 27 个区域)

浏览定价选项

应用筛选器来根据你的需求自定义定价选项。

价格仅是估算值,不应用作实际报价单。实际定价可能因与 Microsoft 签订的协议类型、购买日期和货币汇率而异。价格基于美元计算,并使用在上一个月末最后一个工作日之前的两个工作日内捕获的伦敦收盘即期汇率进行转换。如果本月底之前的两个工作日在主要市场中属于银行假日,则汇率确定日通常是紧接在此两个工作日之后的一天。此汇率适用于下个月的所有交易。登录到 Azure 定价计算器查看基于你与 Microsoft 的当前计划/产品/服务的定价。有关定价或请求报价的详细信息,请联系 Azure 销售专家。请参阅经常询问有关 Azure 定价的问题

o1

o1 是面向复杂任务的新型推理模型系列。该模型具有 200K 上下文,并且知识更新到 2023 年 10 月。

模型 定价(每 100 万个令牌)
o1 1217 全球 输入: $-
缓存输入: $-
输出: $-
o1 1217 美国/欧盟 – 数据区域 输入: $-
缓存输入: $-
输出: $-
o1 1217 区域 输入: $-
缓存输入: $-
输出: $-
o1 预览版全球 输入: $-
缓存输入: $-
输出: $-
o1 预览版美国/欧盟 – 数据区域 输入: $-
缓存输入: $-
输出: $-
o1 预览版区域 输入: $-
缓存输入: $-
输出: $-

使用定价计算器制定计划

o1 微型

o1-mini 是一种快速、经济高效的推理模型,专为编码、数学和科学用例定制。该模型具有 128K 上下文,并且知识更新到 2023 年 10 月。

模型 定价(每 100 万个令牌)
全球 输入: $-
缓存输入: $-
输出: $-
US/EU – 数据区域 输入: $-
缓存输入: $-
输出: $-
区域性 输入: $-
缓存输入: $-
输出: $-

使用定价计算器制定计划

实时 API

Featured in the Realtime API, the GPT-4o-Realtime-Preview supports multilingual speech-to-speech capabilities. Optimized for real-time, low-latency conversations, it enables natural interactions with minimal delay, ideal for chatbots and conversational AI. GPT-4o is the comprehensive, more powerful version designed for complex tasks, while GPT-4o Mini is a smaller, more affordable option ideal for simpler applications where cost-efficiency and speed are priorities.

模型 定价(每 100 万个令牌)
GPT-4o-Realtime-Preview-2024-12-17-Global 文本
输入: $-
缓存输入: $-
输出: $-

音频
输入: $-
缓存输入: $-
输出: $-
GPT-4o-Realtime-Preview-2024-12-17-US/EU – Data Zones 文本
输入: $-
缓存输入: $-
输出: $-

音频
输入: $-
缓存输入: $-
输出: $-
GPT-4o-Realtime-Preview-2024-12-17-Regional 文本
输入: $-
缓存输入: $-
输出: $-

音频
输入: $-
缓存输入: $-
输出: $-
GPT-4o-Mini-Realtime-Preview-2024-12-17-Global 文本
输入: $-
缓存输入: $-
输出: $-

音频
输入: $-
缓存输入: $-
输出: $-
GPT-4o-Mini-Realtime-Preview-2024-12-17-US/EU – Data Zones 文本
输入: $-
缓存输入: $-
输出: $-

音频
输入: $-
缓存输入: $-
输出: $-
GPT-4o-Mini-Realtime-Preview-2024-12-17-Regional 文本
输入: $-
缓存输入: $-
输出: $-

音频
输入: $-
缓存输入: $-
输出: $-
GPT-4o-Realtime-Preview-2024-10-01-Global 文本
输入: $-
缓存输入: $-
输出: $-

音频
输入: $-
缓存输入: $-
输出: $-
GPT-4o-Realtime-Preview-2024-10-01-US/EU – Data Zones 文本
输入: $-
缓存输入: $-
输出: $-

音频
输入: $-
缓存输入: $-
输出: $-
GPT-4o-Realtime-Preview-2024-10-01-Regional 文本
输入: $-
缓存输入: $-
输出: $-

音频
输入: $-
缓存输入: $-
输出: $-

Chat Completions API

Featured in the Chat Completions API, the GPT 4o-Audio-Preview model processes and generates audio content. It supports advanced features like speech recognition and audio synthesis, ideal for asynchronous speech interactions and sentiment analysis. GPT-4o is the comprehensive, more powerful version designed for complex tasks, while GPT-4o Mini is a smaller, more affordable option ideal for simpler applications where cost-efficiency and speed are priorities.

模型 定价(每 100 万个令牌)
GPT-4o-Audio-Preview-2024-12-17-Global 文本
输入: $-
输出: $-

音频
输入: $-
输出: $-
GPT-4o-Audio-Preview-2024-12-17-US/EU – Data Zones 文本
输入: $-
输出: $-

音频
输入: $-
输出: $-
GPT-4o-Audio-Preview-2024-12-17-Regional 文本
输入: $-
输出: $-

音频
输入: $-
输出: $-
GPT-4o-Mini-Audio-Preview-2024-12-17-Global 文本
输入: $-
输出: $-

音频
输入: $-
输出: $-
GPT-4o-Mini-Audio-Preview-2024-12-17-US/EU – Data Zones 文本
输入: $-
输出: $-

音频
输入: $-
输出: $-
GPT-4o-Mini-Audio-Preview-2024-12-17-Regional 文本
输入: $-
输出: $-

音频
输入: $-
输出: $-

GPT-4o

GPT-4o 是最先进的多模态模型,具有更强大的视觉能力,并且比 GPT-4 Turbo 更快、成本更低。该模型具有 128K 上下文,并且知识更新到 2023 年 10 月。

模型 定价(每 100 万个令牌) 批处理 API (100 万个令牌)的定价
GPT-4o-2024-1120 全球 输入: $-
缓存输入: $-
输出: $-
输入: $-
输出: $-
GPT-4o-2024-1120 美国/欧盟 – 数据区域 输入: $-
缓存输入: $-
输出: $-
输入: $-
输出: $-
GPT-4o-2024-1120 区域 输入: $-
缓存输入: $-
输出: $-
不适用
GPT-4o-2024-08-06 全球 输入: $-
缓存输入: $-
输出: $-
输入: $-
输出: $-
GPT-4o-2024-08-06 美国/欧盟 – 数据区域 输入: $-
缓存输入: $-
输出: $-
输入: $-
输出: $-
GPT-4o-2024-08-06 区域 输入: $-
缓存输入: $-
输出: $-
不适用
GPT-4o-2024-0513 全球 输入: $-
输出: $-
输入: $-
输出: $-
GPT-4o-2024-0513 美国/欧盟 – 数据区域 输入: $-
输出: $-
不适用
GPT-4o-2024-0513 区域 输入: $-
输出: $-
不适用

使用定价计算器制定计划

GPT-4o 微型

GPT-4o 微型是极为经济高效的小型模型,并且具备视觉功能。该模型具有 128K 上下文,并且知识更新到 2023 年 10 月。

模型 定价(每 100 万个令牌) 批处理 API (100 万个令牌)的定价
GPT-4o-mini-0718 Global 输入: $-
缓存输入: $-
输出: $-
输入: $-
输出: $-
GPT-4o-mini-0718 US/EU – Data Zones 输入: $-
缓存输入: $-
输出: $-
输入: $-
输出: $-
GPT-4o-mini-0718 Regional 输入: $-
缓存输入: $-
输出: $-
不适用

使用定价计算器制定计划

已预配

可以分配和管理部署的吞吐量,确保实现可预测的性能和稳定的容量。无论使用情况如何,均按每个模型的小事费率计费,但也可以通过每月和每年预留来节省更多费用。在此 Learn 页上了解如何将区域部署和预配预留转换为全局区域和数据区域。

模型 最小 PTU PTU 每小时定价 PTU 每月预留定价 PTU 每年预留定价
GPT-4o 全球 15 $- $- $-
GPT-4o US/EU 数据区域 15 $- $- $-
GPT-4o 区域性 50 $- $- $-
GPT-4o 微型全球 15 $- $- $-
GPT-4o 微型 US/EU 数据区域 15 $- $- $-
GPT-4o 微型区域性 25 $- $- $-

使用定价计算器制定计划

基本模型

模型 每 1,000 个令牌的使用情况
Babbage-002 $-
Davinci-002 $-

微调模型

模型 定价
GPT-4o-2024-08-06 区域性 输入: $- /100 万个令牌
缓存输入: $- /100 万个令牌
输出: $- /100 万个令牌
培训: $- /100 万个令牌
托管: $- /小时
全球 输入: $- /100 万个令牌
缓存输入: $- /100 万个令牌
输出: $- /100 万个令牌
培训: 使用区域
托管: $- /小时
GPT-4o-mini 区域性 输入: $- /100 万个令牌
缓存输入: $- /100 万个令牌
输出: $- /100 万个令牌
培训: $- /100 万个令牌
托管: $- /小时
全球 输入: $- /100 万个令牌
缓存输入: $- /100 万个令牌
输出: $- /100 万个令牌
培训: 使用区域
托管: $- /小时
GPT-4-0613 (8K) 区域性 输入: $- /100 万个令牌
输出: $- /100 万个令牌
培训: $- /100 万个令牌
托管: $- /小时
GPT-3.5-Turbo (16K) 区域性 输入: $- /100 万个令牌
输出: $- /100 万个令牌
培训: $- /100 万个令牌
托管: $- /小时
GPT-3.5-Turbo (4K) 区域性 输入: $- /100 万个令牌
输出: $- /100 万个令牌
培训: $- /100 万个令牌
托管: $- /小时
Babbage-002 输入: $- /100 万个令牌
输出: $- /100 万个令牌
培训: $- /100 万个令牌
托管: $- /小时
Davinci-002 输入: $- /100 万个令牌
输出: $- /100 万个令牌
培训: $- /100 万个令牌
托管: $- /小时

助手 API

通过助手 API 及其工具,开发人员可以轻松地在其应用程序中生成 AI 助手。

用于助手 API 的标记按所选语言模型用于每个助手的每个标记输入/输出费率计费。此外,我们还对工具的使用收取以下费用:

工具 输入
文件搜索* $-/GB 矢量存储/天(1 GB 免费)
代码解释器** $-/会话

*GB 是指二进制吉字节,其中 1 gb 为 2^30 b。

**如果助手在两个不同的线程中同时调用代码解释器,这将创建两个代码解释器会话(2 * $-)。每个会话默认处于活动状态一小时,这意味着只有当用户在同一线程中持续向代码解释器提供说明达 1 小时时,你才需要支付此费用一次。

推理成本(输入和输出)因每个助手所用的 GPT 模型而异。如果助手在两个不同的线程中同时调用代码解释器,这将创建两个代码解释器会话(2 * $-)。每个会话默认处于活动状态一小时,这意味着价格为一小时内在同一线程中向代码解释器发出指令所产生的费用。

图像模型

模型 质量 分辨率 价格(每 100 张图像)
Dall-E-3 标准 1024 * 1024 $-
标准 1024 * 1792,
1792 * 1024
$-
Dall-E-3 HD 1024 * 1024 $-
HD 1024 * 1792,
1792 * 1024
$-
Dall-E-2 标准 1024 * 1024 $-

嵌入模型

模型 每 1,000 个标记
Ada $-
文本-嵌入-3-大 $-
文本-嵌入-3-小 $-

语音模型

模型 价格
Whisper $-/小时
TTS(文本转语音) $-/1 百万个字符
TTS HD $-/1 百万个字符

旧版语言模型

模型 上下文 输入(每 100 万个令牌) 输出(每 100 万个令牌)
GPT-3.5-Turbo-0301 4K $- $-
GPT-3.5-Turbo-0613 4K $- $-
GPT-3.5-Turbo-0613 16K $- $-
GPT-3.5-Turbo-1106 16K $- $-
GPT-3.5-Turbo-0125 16K $- $-
GPT-3.5-Turbo-Instruct 4K $- $-
GPT-4-Turbo 128K $- $-
GPT-4-Turbo-Vision 128K $- $-
GPT-4 8K $- $-
GPT-4 32K $- $-

Azure 定价和购买选项

直接与我们联系

获取 Azure 定价演练。了解云解决方案的定价、学习成本优化和请求自定义建议。

与销售专家交谈

查看购买方式

通过 Azure 网站、Microsoft 代表或 Azure 合作伙伴购买 Azure 服务。

浏览你的选项

其他资源

Azure OpenAI 服务

详细了解 Azure OpenAI 服务 特性和功能。

定价计算器

估计每月使用任何 Azure 产品组合应产生的费用。

SLA

查看 Azure OpenAI 服务 的服务级别协议。

文档

查看技术教程、视频和更多 Azure OpenAI 服务 资源。

  • Azure OpenAI 服务根据即用即付和预配吞吐量单位 (PTU) 提供定价。即用即付允许为使用的资源付费,使其能够灵活应对可变的工作负载。PTU 提供可预测的定价模型,可在其中预留和部署特定数量的模型处理容量。此模型非常适合具有一致或可预测使用模式的工作负载,提供稳定性和成本控制。
  • 要详细了解 PTU 和 Azure Open AI 定价,请阅读 PTU 文档联系我们的销售专家

与销售专家交谈,演练 Azure 定价情况。了解你的云解决方案的定价。

获取免费云服务和价值 $200 的赠金来探索 Azure 30 天。

添加到估价。 按“V”在计算器上查看
可以给你提供什么帮助?