little___sun 个人主页

@little___sun

little___sun

2024-06-11 20:53:20 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

超越GRPO！解密最新大模型强化学习领域的SOTA算法:STAPO

策略梯度范数（Gradient Norm）：决定更新幅度；过大时更容易引发不稳定。生成熵变化方向（Entropy Change）：衡量更新对生成熵的推动方向；需要关注熵过度波动的风险。学习潜力（Learning Potential）：反映该词元是否仍值得继续优化；对已充分学习的词元持续施压可能带来收益递减或副作用。

#算法 #人工智能 #机器学习

到底了