Rate Limits

1. Rate Limits 概述

1.1 什么是 Rate Limits

Rate Limits 是指用户 API 在指定时间内访问 SiliconFlow 平台服务频次规则。

1.2 为什么做 Rate Limits

Rate Limits 是 API 的常见做法，其实施原因如下：

保障资源的公平性及合理利用：确保资源公平使用。防止某些用户过多请求，影响其他用户的正常使用体验。
防止请求过载：提高服务可靠性。帮助管理平台总体负载，避免因请求激增而导致服务器出现性能问题。
安全防护：防止恶意性攻击，导致平台过载甚至服务中断。

1.3 Rate Limits 指标

目前 Rate Limit 以七种指标衡量：

RPM（requests per minute，一分钟最多发起的请求数）
RPH（requests per hour，每小时允许的最大请求数）
RPD (Requests per day，每天允许的最大请求数)
TPM（tokens per minute，一分钟最多允许的 token 数）
TPD（tokens per day，每天最多允许的 token 数）
IPM（images per minute，一分钟最多生成的图片数）
IPD（images per day，一天最多生成的图片数）

1.4 不同模型的 Rate Limits 指标

模型名称	Rate Limit 指标	当前指标
语言模型 (Chat)	RPM、TPM	RPM=1000-10000 TPM=50000-5000000
向量模型 (Embedding)	RPM、TPM	RPM:2000-10000 TPM:500000-10000000
重排序模型 (Reranker)	RPM、TPM	RPM:2000 TPM:500000
图像生成模型 (Image)	IPM、IPD	IPM:2- IPD:400-
多模态模型 (Multimodal Models)	-	-

Rate Limits 可能会因在任一选项（RPM、RPH、RPD、TPM、TPD、IPM、IPD）中达峰而触发，取决于哪个先发生。例如，在 RPM 限制为 20，TPM 限制为 200K 时，一分钟内，账户向 ChatCompletions 发送了 20 个请求，每个请求有 100 个 Token，限制即触发，即使账户在这些 20 个请求中没有发满 200K 个 Token。

1.5 Rate Limits 主体

Rate Limit 是在用户账户级别定义的，而不是密钥（API key）维度。
每个模型单独设置 Rate Limits，一个模型请求超出 Rate Limits 不影响其他模型正常使用。

2. Rate Limits 规则

当前免费模型 Rate Limits 指标是固定值，收费模型根据账户用量级别有不同的 Rate Limits 指标。
同一用量级别下，模型类别不同、模型参数量不同，Rate Limits 峰值不同。

2.1 模型 Rate Limits

按照用量付费。API 调用消耗计入账户费用账单。
根据账户用量级别进行分层 Rate Limits。Rate Limits 峰值随着用量级别提升而增大。
同一用量级别下，模型类别不同、模型参数量大小不同，Rate Limits 峰值不同。

2.3 用户用量级别与 Rate Limits

平台依据账户每月消费金额将其划分为不同的用量级别，每个级别有各自的 Rate Limits 标准。月消费达到更高级别标准时，自动升级至相应用量级别。升级立即生效，并提供更宽松的 Rate Limits。

月消费金额：包含充值金额消费和赠送金额在内的账户每个月的总消费金额。
级别设置：比较上个自然月和当月 1 号到今日的消费金额，取最高值换算成对应的用量级别。新用户注册后初始用量级别为 L0。

Tier	RPM	TPM
L0	1,000	40,000
L1	1,200	60,000
L2	2,000	80,000
L3	4,000	160,000
L4	8,000	500,000
L5	10,000	2,000,000

2.4 具体模型的 Rate Limits

平台目前提供文本生成、图像生成、向量化、重排序和语音五大类，具体模型的 Rate Limits 指标在模型广场中查看。

2.5 `deepseek-ai/DeepSeek-R1` 和 `deepseek-ai/DeepSeek-V3`Rate Limits 具体规则：：

新增 RPH 限制（Requests Per Hour，每小时请求数）
- 模型范围：deepseek-ai/DeepSeek-R1、deepseek-ai/DeepSeek-V3
- 适用对象：所有用户
- 限制标准：30 次/小时
新增 RPD 限制（Requests Per Day，每日请求数）
- 模型范围：deepseek-ai/DeepSeek-R1、deepseek-ai/DeepSeek-V3
- 适用对象：未完成实名认证用户
- 限制标准：100 次/天

随着流量和负载变化，策略可能会不定时调整，SiliconFlow 保留解释权。

3. 超出 Rate Limits 处理

3.1 超出 Rate Limits 报错信息

如果超出 Rate Limits 调用限制，用户的 API 请求将会因为超过 Rate Limits 而失败。用户需要等待一段时间待满足 Rate Limits 条件后方能再次调用。对应的 HTTP 错误信息为：

    HTTP/1.1 429
    Too Many Requests
    Content Type: application/json
    Request was rejected due to rate limiting. If you want more, please contact contact@siliconflow.com

3.2 超出 Rate Limits 处理方式

在已有的 Rate Limits 下，可以参考超出 Rate Limits 处理进行错误回避。
也可以通过提升用量级别来提升模型 Rate Limits 峰值，业务目标。

GET STARTED

Capabilities

Features

1. Rate Limits 概述

1.1 什么是 Rate Limits

1.2 为什么做 Rate Limits

1.3 Rate Limits 指标

1.4 不同模型的 Rate Limits 指标

1.5 Rate Limits 主体

2. Rate Limits 规则

2.1 模型 Rate Limits

2.3 用户用量级别与 Rate Limits

2.4 具体模型的 Rate Limits

2.5 `deepseek-ai/DeepSeek-R1` 和 `deepseek-ai/DeepSeek-V3`Rate Limits 具体规则：：

3. 超出 Rate Limits 处理

3.1 超出 Rate Limits 报错信息

3.2 超出 Rate Limits 处理方式

GET STARTED

Capabilities

Features

​1. Rate Limits 概述

​1.1 什么是 Rate Limits

​1.2 为什么做 Rate Limits

​1.3 Rate Limits 指标

​1.4 不同模型的 Rate Limits 指标

​1.5 Rate Limits 主体

​2. Rate Limits 规则

​2.1 模型 Rate Limits

​2.3 用户用量级别与 Rate Limits

​2.4 具体模型的 Rate Limits

​2.5 deepseek-ai/DeepSeek-R1 和 deepseek-ai/DeepSeek-V3Rate Limits 具体规则：：

​3. 超出 Rate Limits 处理

​3.1 超出 Rate Limits 报错信息

​3.2 超出 Rate Limits 处理方式

1. Rate Limits 概述

1.1 什么是 Rate Limits

1.2 为什么做 Rate Limits

1.3 Rate Limits 指标

1.4 不同模型的 Rate Limits 指标

1.5 Rate Limits 主体

2. Rate Limits 规则

2.1 模型 Rate Limits

2.3 用户用量级别与 Rate Limits

2.4 具体模型的 Rate Limits

2.5 `deepseek-ai/DeepSeek-R1` 和 `deepseek-ai/DeepSeek-V3`Rate Limits 具体规则：：

3. 超出 Rate Limits 处理

3.1 超出 Rate Limits 报错信息

3.2 超出 Rate Limits 处理方式