你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

预配吞吐量单位加入

本文介绍加入到预配吞吐量单位 (PTU) 的过程。 完成初始加入后,建议参考 PTU 入门指南

注意

预配吞吐量单位 (PTU) 不同于 Azure OpenAI 中的标准配额,并且默认情况下不可用。 要了解有关此产品/服务的详细信息,请与 Microsoft 帐户团队联系。

何时使用预配的吞吐量单位 (PTU)

当你有明确定义的、可预测的吞吐量需求时,你应该考虑从即用即付切换到预配的吞吐量。 通常,当应用程序已就绪可用于生产环境中或已在生产环境中部署,并且你了解预期的流量时,就会发生这种情况。 这使得用户可以准确预测所需的容量,并避免被意外收费。

典型的 PTU 方案

  • 已就绪可用于生产环境或已在生产环境中使用的应用程序。
  • 应用程序具有可预测的容量/使用量预期。
  • 应用程序具有实时性/延迟等敏感要求。

注意

在函数调用和代理用例中,令牌的使用量可能会变化。 在将工作负载迁移到 PTU 之前,应详细了解预期的每分钟令牌数 (TPM) 使用量。

大小调整和估计:仅预配托管

确定工作负载所需的适量预配吞吐量 (PTU) 是优化性能和成本的重要步骤。 本部分介绍如何使用 Azure OpenAI 容量计划工具。 该工具提供满足工作负载需求所需的 PTU 的估计值。

估算预配吞吐量和成本

若要针对工作负载进行快速估算,请在 Azure OpenAI Studio 中打开容量规划器。 容量规划器位于“管理”>“配额”>“已预配”下

“已预配”选项和容量规划器仅在某些区域的“配额”窗格中可用,如果没有看到此选项,则将配额区域设置为“瑞典中部”会使此选项可用。 根据工作负载输入以下参数。

输入 说明
型号 计划使用的 OpenAI 模型。 例如:GPT-4
版本 计划使用的模型版本,例如 0614
提示令牌 每次调用的提示中的令牌数
生成令牌 每次调用时模型生成的令牌数
每分钟的峰值调用数 终结点的峰值并发负载(以每分钟调用次数为单位)

填写所需详细信息后,选择“计算”即可查看适合你的方案的建议 PTU。

Azure OpenAI Studio 登陆页的屏幕截图。

注意

容量规划器基于简单的输入条件进行估算。 确定容量的最准确方法是使用用例的代表性工作负载对部署进行基准测试。

了解预配吞吐量购买模型

与按使用量收费的 Azure 服务不同,Azure OpenAI 预配吞吐量功能是作为可续订的每月承诺购买的。 此承诺在创建时和每月续订时向订阅收费。 加入到预配吞吐量时,需要在要在其中创建预配部署的每个 Azure OpenAI 资源上创建承诺。 在这些资源上创建部署时,可以使用通过这种方式购买的 PTU。

可通过承诺购买的 PTU 总数仅限于分配给订阅的预配吞吐量配额。 下表比较了预配吞吐量配额 (PTU) 和预配吞吐量承诺的其他特征。

主题 配额 承诺
目的 授予创建预配部署的权限,并提供可使用容量的上限 为预配吞吐量容量购买工具
生存期 如果未在获得配额后五天内通过承诺购买配额,则可能会从订阅中移除配额 最短期限为一个月,客户可选择自动续订行为。 承诺不可取消,并且在其处于活动状态时无法移动到新资源
作用域 配额特定于订阅和区域,并在所有 Azure OpenAI 资源之间共享 承诺是 Azure OpenAI 资源的一个属性,范围限定为该资源内的部署。 订阅可能包含与资源一样多的活动承诺。
粒度 配额是特定于某个模型系列(例如 GPT-4)授予的,但可以在该系列内的各个模型版本之间共享 承诺不特定于模型或版本。 例如,资源的 1000 个 PTU 承诺可以涵盖 GPT-4 和 GPT-35-Turbo 的部署
容量保证 拥有配额并不能保证创建部署时容量可用 只要承诺处于活动状态,就可以保证涵盖承诺的 PTU 的容量可用性。
增加/减少 无论承诺的续订日期如何,都可以随时请求和批准新配额 承诺涵盖的 PTU 数可以随时增加,但只有在续订时才能减少。

配额和承诺共同管理订阅内部署的创建。 若要创建预配的部署,必须满足两个条件:

  • 配额必须可用于所需区域和订阅中的所需模型。 这意味着不能超过模型的订阅/区域范围限制。
  • 在创建部署的资源上必须有承诺的 PTU 可用。 (分配给部署的容量是付费的)。

承诺属性和收费模型

承诺包括多个属性。

properties 说明 设置时间
Azure OpenAI 资源 托管承诺的资源 创建承诺
承诺的 PTU 承诺涵盖的 PTU 数。 最初在创建承诺时设置,可以随时增加,但不能减少。
术语 承诺期限。 承诺自创建之日起一个月后到期。 续订策略定义接下来发生的情况。 创建承诺
到期日期 证书的到期日期。 此到期时间为 UTC 午夜。 最初是创建后 30 天。 但是,如果续订承诺,到期日期就会更改。
续订政策 到期时有三个操作选项:

- 自动续订:新的承诺期限以当前 PTU 数再延长 30 天
- 使用不同设置自动续订:此设置与“自动续订”相同,但可以在续订时减少承诺的 PTU 数
- 不自动续订:到期后,承诺结束,不再续订。
最初在创建承诺时设置,可以随时更改。

承诺费用

预配的吞吐量承诺会在以下时间针对 Azure 订阅产生费用:

  • 创建承诺时。 该费用根据当前每月 PTU 费率和承诺的 PTU 数计算。 你将在发票上收到一笔预付费用。

  • 承诺续订时。 如果续订策略设置为自动重新续订,则会根据为新期限承诺的 PTU 生成新的每月费用。 此费用在发票上显示为一笔预付费用。

  • 将新的 PTU 添加到现有承诺时。 该费用基于添加到承诺的 PTU 数,根据现有承诺期限结束时间按小时比例计算。 例如,如果在期限刚好过半时将 300 个 PTU 添加到现有的 900 个 PTU 的承诺中,则在添加时收取相当于 150 个 PTU 的费用(300 个 PTU 根据承诺到期日期按比例分配)。 如果续订承诺,则按照新的 PTU 数收取下月费用,总计 1,200 个 PTU。

只要资源中部署的 PTU 数在资源的承诺使用量范围内,你便只会看到承诺费用。 但是,如果资源中部署的 PTU 数超出了资源的承诺 PTU 数,则超额 PTU 将按每小时费率收取超额费用。 通常,只有在承诺过期或承诺在续订时减少,而资源包含部署时,才会出现此超额。 例如,如果在部署了 300 个 PTU 的资源上允许 300 个 PTU 的承诺到期,则已部署的 PTU 不再在任何承诺的涵盖范围内。 达到到期日期后,将根据 300 个超额 PTU 向订阅收取每小时超额费用。

每小时费率高于每月承诺费率,相关费用在几天内就会超过每月费率。 有两种方法可以结束每小时超额费用:

  • 删除或纵向缩减部署,使其使用的 PTU 不超过承诺的数量。
  • 在资源上创建新承诺,以涵盖已部署的 PTU。

购买和管理承诺

规划承诺

收到预配吞吐量单位 (PTU) 配额已分配给订阅的确认后,必须在目标资源上创建承诺(或扩展现有承诺),以使配额可用于部署。

在创建承诺之前,请计划如何使用预配的部署以及将托管这些部署的 Azure OpenAI 资源。 承诺的最短期限为一个月,并且在期限结束之前不能减小其大小。 此外,在创建承诺后,也不能将其移动到新资源。 后,承诺的 PTU 总和不能大于配额 - 在承诺到期之前,在某个资源上承诺的 PTU 不再可用于在其他资源上承诺。 制定明确的计划,确定将哪些资源用于预配的部署以及打算应用于这些资源的容量(至少一个月),这有助于确保预配吞吐量设置的最佳体验。

例如:

  • 不要为了验证目的而在“临时”资源上创建承诺和部署。 你将被锁定使用该资源至少一个月。 相反,如果计划最终在生产资源上使用 PTU,请从一开始就在该资源上创建承诺并测试部署。

  • 根据要创建的部署的数量、模型和大小计算要在资源上承诺的 PTU 数,请记住每个模型创建部署所需的最小 PTU 数。

    • 示例 1:GPT-4-32K 需要至少 200 个 PTU 才能部署。 如果在某个资源上创建仅 100 个 PTU 的承诺,则没有足够的承诺 PTU 在该资源上部署 GPT-4-32K

    • 示例 2:如果需要在一个资源上创建多个部署,请将每个部署所需的 PTU 相加。 托管 300 个 GPT-4 PTU 和 500 个 GPT-4-32K PTU 部署的生产资源需要承诺至少 800 个 PTU 才能涵盖这两个部署。

  • 根据需要分发或合并 PTU。 例如,可以根据需要在资源之间分发 1000 个 PTU 的总配额,以支持部署。 它可以在单个资源上承诺以支持一个或多个部署(总计最多 1000 个 PTU),也可以分布在多个资源上(例如,一个开发资源和一个生产资源),只要承诺的 PTU 总数小于或等于 1000 的配额。

  • 在计划中考虑操作要求。 例如:

    • 组织所需的资源命名约定
    • 需要在每个区域中多次部署一个模型的业务连续性策略,可能位于不同的 Azure OpenAI 资源上

管理预配的吞吐量承诺

预配的吞吐量承诺通过 Azure OpenAI Studio 中的“管理承诺”视图创建和管理。 你可以通过从“配额”窗格中选择“管理承诺”来导航到此视图

承诺使用量购买 UI 的屏幕截图,其中包含通知。

在“管理承诺”视图中,可以执行多项操作:

  • 购买新承诺或编辑现有承诺。
  • 监视订阅中的所有承诺。
  • 确定可能导致意外计费的承诺并针对该类承诺采取措施。

以下部分将引导你完成这些任务。

购买预配吞吐量承诺

准备好承诺计划后,下一步是创建承诺。 承诺是通过 Azure OpenAI Studio 手动创建的,并要求创建承诺的用户在订阅级别具有参与者或认知服务参与者角色

对于需要创建的每个新承诺,请执行以下步骤:

  1. 通过选择“配额”>“预配”>“管理承诺”来启动“预配吞吐量购买”对话框。

“购买”对话框的屏幕截图。

  1. 选择“购买承诺”

  2. 选择 Azure OpenAI 资源并购买承诺。 你将看到资源被划分为具有现有承诺的资源(这些资源可编辑),以及当前没有承诺的资源。

设置 说明
选择资源 选择要在其中创建预配部署的资源。 购买承诺后,在当前承诺到期前,无法在另一资源上使用 PTU。
选择承诺类型 选择“已预配”。 (“预配”相当于“预配托管”)
当前未承诺的预配配额 当前可供你承诺到此资源的 PTU 数。
承诺量 (PTU) 选择要承诺的 PTU 数。 此数字可以在承诺期内增加,但不能减少。 请以 50 为增量输入承诺类型“预配”对应的值。
当前期间的承诺层级 承诺期设置为一个月。
续订设置 在当前 PTU 的基础上自动续订
在较低 PTU 的基础上自动续订
不自动续订
  1. 选择“购买”。 将显示确认对话框。 确认后,将承诺 PTU,并可以使用它们创建预配的部署。 |

承诺使用量购买 UI 的屏幕截图。

重要

新的承诺将提前进行整期计费。 如果将续订设置设为自动续订,则会在每个续订日期根据续订设置进行再次计费。

编辑现有的预配吞吐量承诺

在“管理承诺”视图中,还可以编辑现有承诺。 你可以对现有承诺进行两种类型的更改:

  • 可以向承诺添加 PTU。
  • 可以更改续订设置。

若要编辑承诺,请选择要编辑的当前承诺,然后选择“编辑承诺”。

向现有承诺添加预配吞吐量单位

通过向现有承诺添加 PTU,将允许你在资源中创建更大或更多部署。 你可以在承诺期内随时执行此操作。

承诺使用量购买 UI 的屏幕截图,其中增大了承诺数量值。

重要

向承诺添加 PTU 时,将立即按照从当前日期到现有承诺期结束的比例金额对其进行计费。 添加 PTU 不会重置承诺期。

更改续订设置

在承诺到期日期之前,可以随时更改承诺续订设置。 你可能想要更改续订设置的原因包括:通过将承诺设置为不自动续订来终止预配吞吐量的使用,或者通过降低下一个时间段内承诺的 PTU 数量来减少预配吞吐量的使用。

重要

如果你允许承诺过期或减小规模,从而使资源下的部署需要比资源承诺中更多的 PDU,则会被收取任何超额 PTU 的每小时超额费用。 例如,如果资源具有总共 500 个 PTU 的部署,但承诺为 300 个 PTU,那么将会有 200 个 PTU 产生每小时超额费用。

监视承诺并防止意外计费

“管理承诺”窗格提供了一个订阅范围的概述,其中列出了给定 Azure 订阅中的所有资源以及承诺和 PTU 使用情况。 特别重要的是:

  • 承诺、部署和使用的 PTU – 这些数字提供了承诺的规模以及部署正在使用的数量。 通过使用所有承诺的 PTU 可实现投资最大化。
  • 到期策略和日期 - 到期日期和策略会告诉你承诺何时到期,以及届时将发生的情况。 设置为自动续订的承诺将在续订日期生成计费事件。 对于即将到期的承诺,请确保在到期日期之前删除这些资源中的部署,以防止基于承诺的当前续订设置产生每小时超额计费。
  • 通知 - 有关重要条件的警报,例如未使用的承诺以及可能导致计费超额的配置。 可导致计费超额的情况有多种,例如承诺已到期但部署仍然存在,因此转变为了每小时计费。

常见承诺管理方案

停止使用预配吞吐量

若要终止预配吞吐量的使用、防止在承诺到期后产生每小时超额费用,并在当前承诺到期后停止所有收费,必须执行两个步骤:

  1. 将所有承诺的续订策略设置为“不自动续订”
  2. 删除使用配额的预配部署。

将承诺/部署移到同一订阅/区域中的新资源

在 Azure OpenAI Studio 中,无法直接将部署或承诺移动到新资源。 而是需要在目标资源上创建新的部署,并将流量移动到其中。 为此,需要在新资源上建立购买承诺。 由于承诺需要预先支付 30 天的费用,因此有必要在原始承诺到期时进行此操作,以尽量减少与新承诺的重叠和重叠期间的“双重计费”。

可通过两种方法来实现此转换。

选项 1:无重叠切换

此选项需要一些停机时间,但不需要额外的配额,也不会产生额外的费用。

步骤 说明
将现有承诺的续订策略设置为到期 这可阻止续订承诺和产生更多费用
在现有承诺到期之前,删除其部署 停机时间将从此时开始,持续到创建新部署并移动流量为止。 可以通过在尽可能接近到期日期/时间的时间进行删除来最大限度缩短此持续时间。
在现有承诺到期后,在新资源上创建承诺 在到期后尽快执行此步骤和下一步,以最大限度减少停机时间。
在新资源上创建部署,并将流量移到其中

选项 2:重叠切换

此选项同时运行现有部署和新部署,因此没有停机时间。 这需要具有可用于创建新部署的配额,并且会在重叠部署期间产生额外费用。

步骤 说明
将现有承诺的续订策略设置为到期 这样做可防止续订承诺和产生更多费用。
在现有承诺到期之前:
1.在新资源上创建承诺。
2.创建新部署。
3.切换流量
4.删除现有部署
请确保在现有承诺到期之前为所有步骤留出足够的时间,否则可能产生超额费用(请参阅下一节)。

如果最后一步花费的时间超过预期,并且会在现有承诺到期后完成,可以通过三种选择来最大程度降低超额费用。

  • 停机:删除原始部署,然后完成移动
  • 支付超额费用:保留原始部署并按小时付费,直到移出流量并删除部署
  • 重置原始承诺:再续订一次。 这让你有时间以已知成本完成搬迁。

支付超额费用和重置原始承诺都会产生超出原始到期日期的费用。 如果只需要一两天即可完成移动,那么支付超额费用可能比新的一个月承诺便宜。 比较这两个选项的成本,找到成本最低的方法。

将部署移动到新区域和/或新订阅

在区域中移动承诺和部署时,可使用相同的方法,只不过在所有情况下都需要在新位置拥有可用配额。

查看和编辑现有资源

在 Azure OpenAI Studio 中,选择“配额”>“预配”>“管理承诺”,然后选择一个具有现有承诺的资源以查看/更改该资源

后续步骤