logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

超越GRPO!解密最新大模型强化学习领域的SOTA算法:STAPO

策略梯度范数(Gradient Norm):决定更新幅度;过大时更容易引发不稳定。生成熵变化方向(Entropy Change):衡量更新对生成熵的推动方向;需要关注熵过度波动的风险。学习潜力(Learning Potential):反映该词元是否仍值得继续优化;对已充分学习的词元持续施压可能带来收益递减或副作用。

文章图片
#算法#人工智能#机器学习
到底了