
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
垂直领域SFT训练翻车实录:用Y-Trainer解决模型“复读+失忆“困境
本文探讨垂直领域SFT训练中的过拟合与灾难性遗忘问题,提出基于token级梯度调控的NLIRG算法解决方案。该算法通过动态调整不同难度token的训练强度,有效平衡专项与通用能力:对低损失token削减梯度防止过拟合,中等难度token增强梯度促进学习,高损失token梯度归零隔离噪声。相比传统方法,NLIRG无需精确控制数据比例,显著降低调参难度,同时提升训练稳定性和抗噪能力。文章详细介绍了算法

到底了







