更新日期:2023/12/12
本文内容
本文将介绍一个快速参考,并详细说明了 Azure AI 服务中 Azure OpenAI 的配额和限制。
配额和限制参考
以下部分提供适用于 Azure OpenAI 默认配额和限制的快速指南:
限制名称 | 限制值 |
每个 Azure 订阅中每个区域的 OpenAI 资源 | 30 |
默认 DALL-E 2 配额限制 | 2 个并发请求 |
默认 DALL-E 3 配额限制 | 2 个容量单位(每分钟 6 个请求) |
每个请求的最大提示令牌数 | 每个模型不同。 有关更多信息,请参阅 Azure OpenAI 服务模型 |
最大微调模型部署 | 5 |
每个资源的训练作业总数 | 100 |
每个资源同时运行的最大训练作业数 | 1 |
排队的最大训练作业数 | 20 |
每个资源的最大文件数 | 30 |
每个资源的所有文件的总大小 | 1 GB |
最大训练作业时间(如果超过,作业将失败) | 720 小时 |
最大训练作业大小(训练文件中的标记数)×(时期数) | 20 亿 |
每次上传的所有文件的最大大小(数据上的 Azure OpenAI) | 16 MB |
区域配额限值
模型的默认配额因模型和区域而异。 默认配额限制可能会更改。
型号 | 区域 | 每分钟令牌数 |
gpt-35-turbo | 美国东部、美国中南部、欧洲西部、法国中部、英国南部 | 240 K |
gpt-35-turbo | 美国中北部、澳大利亚东部、美国东部 2、加拿大东部、日本东部、瑞典中部、瑞士北部 | 300 K |
gpt-35-turbo-16k | 美国东部、美国中南部、欧洲西部、法国中部、英国南部 | 240 K |
gpt-35-turbo-16k | 美国中北部、澳大利亚东部、美国东部 2、加拿大东部、日本东部、瑞典中部、瑞士北部 | 300 K |
gpt-35-turbo-instruct | 美国东部、瑞典中部 | 240 K |
gpt-35-turbo (1106) | 澳大利亚东部、加拿大东部、法国中部、印度南部、瑞典中部、英国南部、美国西部 | 120 K |
gpt-4 | 美国东部、美国中南部、法国中部 | 20 K |
gpt-4 | 美国中北部、澳大利亚东部、美国东部 2、加拿大东部、日本东部、英国南部、瑞典中部、瑞士北部 | 40 K |
gpt-4-32k | 美国东部、美国中南部、法国中部 | 60 K |
gpt-4-32k | 美国中北部、澳大利亚东部、美国东部 2、加拿大东部、日本东部、英国南部、瑞典中部、瑞士北部 | 80 K |
gpt-4 (1106-preview) GPT-4 Turbo | 澳大利亚东部、加拿大东部、美国东部 2、法国中部、英国南部、美国西部 | 80 K |
gpt-4 (1106-preview) GPT-4 Turbo | 印度南部、挪威东部、瑞典中部 | 150 K |
gpt-4 (vision-preview) GPT-4 Turbo with Vision | 瑞典中部、瑞士北部、澳大利亚东部、美国西部 | 10 K |
text-embedding-ada-002 | 美国东部、美国中南部、欧洲西部、法国中部 | 240 K |
text-embedding-ada-002 | 美国中北部、澳大利亚东部、美国东部 2、加拿大东部、日本东部、英国南部、瑞士北部 | 350 K |
优化模型(babbage-002、davinci-002、gpt-35-turbo-0613) | 美国中北部、瑞典中部 | 50 K |
所有其他模型 | 美国东部、美国中南部、欧洲西部、法国中部 | 120 K |
保持在速率限制范围内的一般最佳做法
若要最大程度地减少与速率上限相关的问题,可以遵循以下方法:
- 在应用程序中实现重试逻辑
- 避免工作负载的急剧变化。 逐步增大工作负载。
- 测试不同负载增加模式。
- 增加分配给部署的配额。 如有必要,从另一个部署中移动配额。
如何请求增加默认配额和限制
可以通过 Azure AI Studio 的“配额”页面提交配额增加请求。 请注意,由于需求量巨大,配额提高请求正在接受中,将按接收顺序处理。 将优先考虑产生会消耗现有配额分配的流量的客户。如果不满足此条件,你的请求可能会被拒绝。
对于其他速率限制,请提交服务请求。