logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【论文阅读】LS-Mixture SFT Eliciting Efficient Reasoning in Large Language Models

当与原始的长CoT推理示例混合时,这种组合使学生模型能够学习全面的推理模式和高效的推理捷径,从而在推理过程中生成更简洁的推理,而不牺牲准确性。LS-Mixture SFT方法的一个关键组件是保持结构的CoT重写方法,该方法将冗长的CoT轨迹转换为更简洁的版本,同时保留其核心逻辑结构和关键推理步骤。为了实现平衡思考模式,文章在推理时间和训练时间之间保持提示模板的格式一致,同时修改与思考模式相关的指令

文章图片
#论文阅读#语言模型
到底了