logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

垂直领域SFT训练翻车实录:用Y-Trainer解决模型“复读+失忆“困境

本文探讨垂直领域SFT训练中的过拟合与灾难性遗忘问题,提出基于token级梯度调控的NLIRG算法解决方案。该算法通过动态调整不同难度token的训练强度,有效平衡专项与通用能力:对低损失token削减梯度防止过拟合,中等难度token增强梯度促进学习,高损失token梯度归零隔离噪声。相比传统方法,NLIRG无需精确控制数据比例,显著降低调参难度,同时提升训练稳定性和抗噪能力。文章详细介绍了算法

文章图片
#深度学习#人工智能#机器学习 +2
到底了