大语言模型参数配置

参数名称	最佳适用场景	参数说明	取值范围	建议初始值（新手）
随机性 temperature	文本创作、创意启发类任务，如写故事、诗歌创作等	控制输出的随机性，值越大输出越具创造性和多样性，会包含更多独特的表达和想法；值越小输出越稳定、确定，更倾向于选择常见、可靠的回答	0 - 1	0.5
核采样 top_p	对输出多样性有一定要求，但又希望保持一定准确性的场景，如智能客服在提供多种解决方案时	控制输出的多样性，值越大输出包含的单词选项越多，内容更加丰富多样；值越小输出更集中在高概率单词上，回答相对更确定、保守	0 - 1	0.5
max_tokens 单次回复	所有场景都适用，尤其在对输出长度有限制或需要控制回答篇幅的情况下，如在短信通知、短消息回复	限定模型每次输出内容的最大 token 数，即输出长度。设置过小可能导致回答不完整，过大则可能浪费资源或受限制	根据模型不同有所差异，一般几百到几万	4096
对话轮数保留	需要智能体记忆多轮对话内容以理解上下文的场景，如多轮交互的客服智能体、故事创作续写	决定智能体能够记住的对话轮数，数值越大，多轮对话相关性越高，理解用户需求能力越强，但消耗 token 数也越多	根据实际情况设置，一般为几轮至几十轮	3 - 10 轮（可根据对话复杂程度调整）
RAG 范围	基于知识库检索的问答场景，如智能文档助手、知识问答机器人	控制在知识库检索时带入向量检索的历史对话轮数（仅包含问题），数值越大，多轮对话内容相关性越高，检索更精准，但消耗 token 数也更高	0 - 正整数	3（可根据知识库大小和对话情况调整）