2601_95051051 个人主页

@2601_95051051

2601_95051051

2026-01-22 13:59:00 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

垂直领域SFT训练翻车实录：用Y-Trainer解决模型“复读+失忆“困境

本文探讨垂直领域SFT训练中的过拟合与灾难性遗忘问题，提出基于token级梯度调控的NLIRG算法解决方案。该算法通过动态调整不同难度token的训练强度，有效平衡专项与通用能力：对低损失token削减梯度防止过拟合，中等难度token增强梯度促进学习，高损失token梯度归零隔离噪声。相比传统方法，NLIRG无需精确控制数据比例，显著降低调参难度，同时提升训练稳定性和抗噪能力。文章详细介绍了算法

#深度学习 #人工智能 #机器学习 +2

到底了