1. Rate Limits 概述

1.1 什么是 Rate Limits

Rate Limits 是指用户 API 在指定时间内访问 SiliconCloud 平台服务频次规则。

1.2 为什么做 Rate Limits

Rate Limits 是 API 的常见做法,其实施原因如下:

  • 保障资源的公平性及合理利用:确保资源公平使用。防止某些用户过多请求,影响其他用户的正常使用体验。
  • 防止请求过载:提高服务可靠性。帮助管理平台总体负载,避免因请求激增而导致服务器出现性能问题。
  • 安全防护:防止恶意性攻击,导致平台过载甚至服务中断。

1.3 Rate Limits 指标

目前 Rate Limit 以七种指标衡量:

  • RPM(requests per minute,一分钟最多发起的请求数)
  • RPH(requests per hour,每小时允许的最大请求数)
  • RPD (Requests per day,每天允许的最大请求数)
  • TPM(tokens per minute,一分钟最多允许的 token 数)
  • TPD(tokens per day,每天最多允许的 token 数)
  • IPM(images per minute,一分钟最多生成的图片数)
  • IPD(images per day,一天最多生成的图片数)

1.4 不同模型的 Rate Limits 指标

模型名称Rate Limit 指标当前指标
语言模型 (Chat)RPM、TPMRPM=1000-10000 TPM=50000-5000000
向量模型 (Embedding)RPM、TPMRPM:2000-10000 TPM:500000-10000000
重排序模型 (Reranker)RPM、TPMRPM:2000 TPM:500000
图像生成模型 (Image)IPM、IPDIPM:2- IPD:400-
多模态模型 (Multimodal Models)--

Rate Limits 可能会因在任一选项(RPM、RPH、RPD、TPM、TPD、IPM、IPD)中达峰而触发,取决于哪个先发生。 例如,在 RPM 限制为 20,TPM 限制为 200K 时,一分钟内,账户向 ChatCompletions 发送了 20 个请求,每个请求有 100 个 Token,限制即触发,即使账户在这些 20 个请求中没有发满 200K 个 Token。

1.5 Rate Limits 主体

  1. Rate Limit 是在用户账户级别定义的,而不是密钥(API key)维度。
  2. 每个模型单独设置 Rate Limits,一个模型请求超出 Rate Limits 不影响其他模型正常使用。

2. Rate Limits 规则

  • 当前免费模型 Rate Limits 指标是固定值,收费模型根据账户用量级别有不同的 Rate Limits 指标
  • 同一用量级别下,模型类别不同、模型参数量不同,Rate Limits 峰值不同。

2.1 模型 Rate Limits

  1. 按照用量付费。API 调用消耗计入账户费用账单
  2. 根据账户用量级别进行分层 Rate Limits。Rate Limits 峰值随着用量级别提升而增大。
  3. 同一用量级别下,模型类别不同、模型参数量大小不同,Rate Limits 峰值不同。

2.3 用户用量级别与 Rate Limits

平台依据账户每月消费金额将其划分为不同的用量级别,每个级别有各自的 Rate Limits 标准。月消费达到更高级别标准时,自动升级至相应用量级别。升级立即生效,并提供更宽松的 Rate Limits。

  • 月消费金额:包含充值金额消费和赠送金额在内的账户每个月的总 消费金额
  • 级别设置:比较上个自然月当月 1 号到今日的消费金额,取最高值换算成对应的用量级别。新用户注册后初始用量级别为 L0。
TierRPMTPM
L01,00040,000
L11,20060,000
L22,00080,000
L34,000160,000
L48,000500,000
L510,0002,000,000

2.4 具体模型的 Rate Limits

平台目前提供文本生成、图像生成、向量化、重排序和语音五大类,具体模型的 Rate Limits 指标在 模型广场 中查看。

2.5 deepseek-ai/DeepSeek-R1deepseek-ai/DeepSeek-V3Rate Limits 具体规则::

  1. 新增 RPH 限制(Requests Per Hour,每小时请求数)

    • 模型范围:deepseek-ai/DeepSeek-R1、deepseek-ai/DeepSeek-V3
    • 适用对象:所有用户
    • 限制标准:30 次/小时
  2. 新增 RPD 限制(Requests Per Day,每日请求数)

    • 模型范围:deepseek-ai/DeepSeek-R1、deepseek-ai/DeepSeek-V3
    • 适用对象:未完成实名认证用户
    • 限制标准:100 次/天

随着流量和负载变化,策略可能会不定时调整,SiliconFlow 保留解释权。

3. 超出 Rate Limits 处理

3.1 超出 Rate Limits 报错信息

如果超出 Rate Limits 调用限制,用户的 API 请求将会因为超过 Rate Limits 而失败。用户需要等待一段时间待满足 Rate Limits 条件后方能再次调用。对应的 HTTP 错误信息为:

    HTTP/1.1 429
    Too Many Requests
    Content Type: application/json
    Request was rejected due to rate limiting. If you want more, please contact contact@siliconflow.com

3.2 超出 Rate Limits 处理方式

  • 在已有的 Rate Limits 下,可以参考 超出 Rate Limits 处理 进行错误回避。
  • 也可以通过提升用量级别来提升模型 Rate Limits 峰值,业务目标。