你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Azure OpenAI 动态配额(预览版)

动态配额是 Azure OpenAI 的一项功能,它支持标准(即用即付)部署,以便在有额外容量可用时适时利用更多配额。 当动态配额设置为关闭时,部署将能够处理由每分钟令牌数 (TPM) 设置确定的最大吞吐量。 超过预设 TPM 时,请求将返回 HTTP 429 响应。 启用动态配额后,部署能够在返回 429 响应之前访问更高的吞吐量,从而允许你提前执行更多调用。 额外的请求仍按常规定价费率计费。

动态配额只能暂时增加可用配额:该值永远不会降低到配置的值以下

何时使用动态配额

动态配额在大多数情况下都很有用,尤其是当应用程序可以适时使用额外容量或应用程序本身驱动 Azure OpenAI API 的调用速率时。

通常情况下,如果配额不稳定或增加,应用程序可能会提供不利的体验,因此你可能希望避免使用动态配额。

对于动态配额,请考虑以下场景:

  • 批量处理,
  • 为检索增强生成 (RAG) 创建摘要或嵌入,
  • 脱机分析日志以生成指标和评估,
  • 低优先级研究,
  • 分配了少量配额的应用程序。

动态配额何时生效?

Azure OpenAI 后端决定是否、何时以及从不同部署中添加或删除多少额外的动态配额。 不会提前预测或宣布,并且不可预测。 Azure OpenAI 通过响应 HTTP 429 而不允许更多 API 调用,让应用程序知道有更多可用配额。 若要利用动态配额,应用程序代码必须能够在 HTTP 429 响应变得不频繁时发出更多请求。

动态配额变化如何计费?

  • 超出基本配额的调用费用与常规调用相同。

  • 在部署上启用动态配额不会产生额外费用,但吞吐量的增加最终可能会导致费用增加,具体取决于部署收到的流量。

注意

使用动态配额时,不会强制调用配额或吞吐量“上限”。 Azure OpenAI 将尽可能多地处理超出基线配额的请求。 如果需要在配额限制较小的情况下控制支出率,则应用程序代码需要相应地抑制请求。

如何使用动态配额

若要使用动态配额,必须:

  • 在 Azure OpenAI 部署中打开动态配额属性。
  • 确保应用程序可以利用动态配额。

启用动态配额

若要激活部署的动态配额,可以转到资源配置中的高级属性,并将其打开:

Screenshot of advanced configuration UI for deployments.

或者,可以使用 Azure CLI 的 az rest 以编程方式启用:

{subscriptionId}{resourceGroupName}{accountName}{deploymentName} 替换为资源的相关值。 在本例中,accountName 等于 Azure OpenAI 资源名称。

az rest --method patch --url "https://management.azure.com/subscriptions/{subscriptionId}/resourceGroups/{resourceGroupName}/providers/Microsoft.CognitiveServices/accounts/{accountName}/deployments/{deploymentName}?2023-10-01-preview" --body '{"properties": {"dynamicThrottlingEnabled": true} }'

如何确定应用程序添加了多少吞吐量动态配额?

若要监视动态配额的工作方式,可以在 Azure Monitor 中跟踪应用程序的吞吐量。 在动态配额预览期间,没有特定的指标或日志来指示配额是否已动态增加或减少。 如果你的部署在利用率较高的区域并在这些区域的高峰使用时段运行,则动态配额不太可能参与部署。

后续步骤