常见问题
模型问题
1. 模型输出乱码
目前看到部分模型在不设置参数的情况下,容易出现乱码,遇到上述情况,可以尝试设置temperature
,top_k
,top_p
,frequency_penalty
这些参数。
对应的 payload 修改为如下形式,不同语言酌情调整
2. 关于max_tokens
说明
平台提供的 LLM 模型中,
-
max_tokens 限制为
16384
的模型::- deepseek-ai/DeepSeek-R1
- Qwen/QVQ-72B-Preview
- deepseek-ai/DeepSeek-R1-Distill-Qwen-32B
- deepseek-ai/DeepSeek-R1-Distill-Qwen-14B
- deepseek-ai/DeepSeek-R1-Distill-Qwen-7B
- deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B
-
max_tokens 限制为
8192
的模型::- Qwen/QwQ-32B-Preview
-
max_tokens 限制为
4096
的模型:- 除上述提到的其他 LLM 模型的
如有特殊需求,请发送邮件至 contact@siliconflow.com。
3. 关于context_length
说明
不同的 LLM 模型,context_length
是有差别的,具体可以在模型广场上搜索对应的模型,查看模型具体信息。
5. 语音模型中,对用户自定义音色有时间音质要求么
- cosyvoice2 上传音色必须小于 30s
为保证生成语音效果,建议用户上传音色为:时间 8~10s 左右,发音吐字清晰,没有杂音/背景音。
6. 模型输出截断问题
可以从以下几方面进行问题的排查:
- 通过 API 请求时候,输出截断问题排查:
- max_tokens 设置:max_token 设置到合适值,输出大于 max_token 的情况下,会被截断,deepseek R1 系列的 max_token 最大可设置为 16384。
- 设置流式输出请求:非流式请求时候,输出内容比较长的情况下,容易出现 504 超时。
- 设置客户端超时时间:把客户端超时时间设置大一些,防止未输出完成,达到客户端超时时间被截断。
- 通过第三方客户端请求,输出截断问题排查:
- CherryStdio 默认的 max_tokens 是 4096,用户可以通过设置,打开“开启消息长度限制”的开关,将 max_token 设置到合适值
7. 模型使用过程中返回 429 错误排查
可以从以下几方面进行问题的排查:
- 普通用户:检查用户等级及模型对应的 Rate Limits(速率限制)。如果请求超出 Rate Limits,建议稍后再尝试请求。
- 专属实例用户:专属实例通常没有 Rate Limits 限制。如果出现 429 错误,首先确认是否调用了专属实例的正确模型名称,并检查使用的 api_key 是否与专属实例匹配。
8. 已充值成功,仍然提示账户余额不足
可以从以下几方面进行问题的排查:
- 确认使用的 api_key 是否与刚刚充值的账户匹配。
- 如果 api_key 无误,可能是充值过程中存在网络延迟,建议等待几分钟后再重试。