大语言模型参数配置
参数名称 | 最佳适用场景 | 参数说明 | 取值范围 | 建议初始值(新手) |
---|---|---|---|---|
随机性 temperature | 文本创作、创意启发类任务,如写故事、诗歌创作等 | 控制输出的随机性,值越大输出越具创造性和多样性,会包含更多独特的表达和想法;值越小输出越稳定、确定,更倾向于选择常见、可靠的回答 | 0 - 1 | 0.5 |
核采样 top_p | 对输出多样性有一定要求,但又希望保持一定准确性的场景,如智能客服在提供多种解决方案时 | 控制输出的多样性,值越大输出包含的单词选项越多,内容更加丰富多样;值越小输出更集中在高概率单词上,回答相对更确定、保守 | 0 - 1 | 0.5 |
max_tokens 单次回复 | 所有场景都适用,尤其在对输出长度有限制或需要控制回答篇幅的情况下,如在短信通知、短消息回复 | 限定模型每次输出内容的最大 token 数,即输出长度。设置过小可能导致回答不完整,过大则可能浪费资源或受限制 | 根据模型不同有所差异,一般几百到几万 | 4096 |
对话轮数保留 | 需要智能体记忆多轮对话内容以理解上下文的场景,如多轮交互的客服智能体、故事创作续写 | 决定智能体能够记住的对话轮数,数值越大,多轮对话相关性越高,理解用户需求能力越强,但消耗 token 数也越多 | 根据实际情况设置,一般为几轮至几十轮 | 3 - 10 轮(可根据对话复杂程度调整) |
RAG 范围 | 基于知识库检索的问答场景,如智能文档助手、知识问答机器人 | 控制在知识库检索时带入向量检索的历史对话轮数(仅包含问题),数值越大,多轮对话内容相关性越高,检索更精准,但消耗 token 数也更高 | 0 - 正整数 | 3(可根据知识库大小和对话情况调整) |