Skip to content

大语言模型参数配置

参数名称最佳适用场景参数说明取值范围建议初始值(新手)
随机性 temperature文本创作、创意启发类任务,如写故事、诗歌创作等控制输出的随机性,值越大输出越具创造性和多样性,会包含更多独特的表达和想法;值越小输出越稳定、确定,更倾向于选择常见、可靠的回答0 - 10.5
核采样 top_p对输出多样性有一定要求,但又希望保持一定准确性的场景,如智能客服在提供多种解决方案时控制输出的多样性,值越大输出包含的单词选项越多,内容更加丰富多样;值越小输出更集中在高概率单词上,回答相对更确定、保守0 - 10.5
max_tokens 单次回复所有场景都适用,尤其在对输出长度有限制或需要控制回答篇幅的情况下,如在短信通知、短消息回复限定模型每次输出内容的最大 token 数,即输出长度。设置过小可能导致回答不完整,过大则可能浪费资源或受限制根据模型不同有所差异,一般几百到几万4096
对话轮数保留需要智能体记忆多轮对话内容以理解上下文的场景,如多轮交互的客服智能体、故事创作续写决定智能体能够记住的对话轮数,数值越大,多轮对话相关性越高,理解用户需求能力越强,但消耗 token 数也越多根据实际情况设置,一般为几轮至几十轮3 - 10 轮(可根据对话复杂程度调整)
RAG 范围基于知识库检索的问答场景,如智能文档助手、知识问答机器人控制在知识库检索时带入向量检索的历史对话轮数(仅包含问题),数值越大,多轮对话内容相关性越高,检索更精准,但消耗 token 数也更高0 - 正整数3(可根据知识库大小和对话情况调整)