quintus0505 个人主页

@quintus0505

quintus0505

2023-01-08 03:20:46 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

【论文阅读】LS-Mixture SFT Eliciting Efficient Reasoning in Large Language Models

当与原始的长CoT推理示例混合时，这种组合使学生模型能够学习全面的推理模式和高效的推理捷径，从而在推理过程中生成更简洁的推理，而不牺牲准确性。LS-Mixture SFT方法的一个关键组件是保持结构的CoT重写方法，该方法将冗长的CoT轨迹转换为更简洁的版本，同时保留其核心逻辑结构和关键推理步骤。为了实现平衡思考模式，文章在推理时间和训练时间之间保持提示模板的格式一致，同时修改与思考模式相关的指令

#论文阅读 #语言模型

到底了