配额限制

大模型开放平台的 API 请求会按 credits 统一计量和限制。不同能力的 credits 扣减规则不同，对话模型按 token 计费，向量、重排、图像生成和语音能力按调用次数计费。

新的配额算法将于 2026 年 6 月 1 日正式生效，配额查询后台同步开放。

默认配额

当前用户的个人令牌默认配额如下所示。多个模型和能力共享同一 credits 配额。

分钟级限流已取消，当前按 5 小时、每天和每月配额进行统一限制。短时间内的异常高频请求仍可能触发服务保护策略。

如需查看当前 credits 余额，可登录 ChatECNU，点击左侧“开放平台”入口查看。

为便于直观理解，可以将 credits 配额粗略折算为可使用的 token 规模。由于输入 token 和输出 token 的单价不同，且缓存命中可大幅降低输入成本，以下提供两种估算口径：

以下估算假定缓存命中率为 90%，即 90% 的输入 token 享受 1/5 的缓存价格。

配额	`ecnu-plus` 仅输入估算	`ecnu-plus` 4:1 混合估算	`ecnu-max` 仅输入估算	`ecnu-max` 4:1 混合估算
每 5 小时 2000 credits	约 7143 万输入 tokens	约 1953 万总 tokens	约 2381 万输入 tokens	约 651 万总 tokens
每天 5000 credits	约 1.79 亿输入 tokens	约 4883 万总 tokens	约 5952 万输入 tokens	约 1628 万总 tokens
每月 50000 credits	约 17.86 亿输入 tokens	约 4.88 亿总 tokens	约 5.95 亿输入 tokens	约 1.63 亿总 tokens

对于长文档处理、代码库分析、知识库检索增强等偏输入场景，实际可覆盖的 token 规模通常会更接近"仅输入估算"这一列。

LLM 模型按 token 计费，区分输入 token 和输出 token。
输入 token 区分缓存命中和缓存未命中：缓存命中的 token 仅消耗未命中价格的 1/5 credits。日常对话场景下缓存命中率约 90%。
以下模型定价表中"输入单价"为缓存未命中的基础价格，缓存命中价格为该值的 1/5。
非 LLM 能力继续按调用次数固定扣减 credits。

模型 Credits 计算表

模型	计费方式	输入单价(未命中)	输入单价(缓存命中)	输出/思考单价	credits 计算公式	备注
`ecnu-plus`	按 token	100 credits / 1M tokens	20 credits / 1M tokens	400 credits / 1M tokens	`input_miss / 1M * 100 + input_hit / 1M * 20 + output / 1M * 400`	标准对话，基准模型
`ecnu-max`	按 token	300 credits / 1M tokens	60 credits / 1M tokens	1200 credits / 1M tokens	`input_miss / 1M * 300 + input_hit / 1M * 60 + output / 1M * 1200`	旗舰对话，`ecnu-plus` 的 3 倍
`ecnu-embedding-small`	按次	-	-	-	`调用次数 * 0.05`	0.05 credits / 次
`ecnu-rerank`	按次	-	-	-	`调用次数 * 0.1`	0.1 credits / 次
`ecnu-image`	按次	-	-	-	`成功生成次数 * 30`	30 credits / 次
`ecnu-tts`	按次	-	-	-	`调用次数 * 5`	5 credits / 次

以下测算假定缓存命中率为 90%。

为校内师生提供服务的生产系统所配套的 API 令牌有独立的配额池，不受上述策略限制。

如果您有更高的速率要求，请与我们联系：dataservice@ecnu.edu.cn