
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
【论文阅读】LS-Mixture SFT Eliciting Efficient Reasoning in Large Language Models
当与原始的长CoT推理示例混合时,这种组合使学生模型能够学习全面的推理模式和高效的推理捷径,从而在推理过程中生成更简洁的推理,而不牺牲准确性。LS-Mixture SFT方法的一个关键组件是保持结构的CoT重写方法,该方法将冗长的CoT轨迹转换为更简洁的版本,同时保留其核心逻辑结构和关键推理步骤。为了实现平衡思考模式,文章在推理时间和训练时间之间保持提示模板的格式一致,同时修改与思考模式相关的指令

到底了







