DeepSeek的GRPO会导致模型崩溃?看下Qwen3新范式GSPO
Qwen3系列模型表现优异,其团队发现DeepSeek的GRPO存在训练不稳定问题,特别是在长序列和MoE模型中。Qwen团队提出新的GSPO算法,声称能解决GRPO的"病态"优化问题,该算法已应用于Qwen3系列模型并取得优异表现。
内容源自计算机科研圈
众所周知,大型语言模型的训练通常分为两个阶段。第一阶段是「预训练」,开发者利用大规模文本数据集训练模型,让它学会预测句子中的下一个词。第二阶段是「后训练」,旨在教会模型如何更好地理解和执行人类指令。
在 LLM 后训练阶段,似乎是一个强化学习的特殊形式。用于大语言模型(LLMs)微调的强化学习(RL)算法正沿着一条明确的演进路径持续发展。
起初,OpenAI 开创了一种名为 基于人类反馈的强化学习(RLHF) 的技术,用于改进 ChatGPT。RLHF 的核心是让人类标注员对模型生成的多种响应进行打分,并选出最优答案作为训练参考。这一过程虽然有效,但也耗时、昂贵且依赖人力,通常需要一支小型但专业的数据标注团队。
DeepSeek 的重要创新在于用 RL 技术自动化了这一环节。算法不再依赖人工逐一评估,而是让模型在探索过程中,通过获得「奖励信号」自主学习正确行为,从而显著降低了成本,提高了效率,最终能以较低的成本实现高性能。
OpenAI 在 ChatGPT 的训练中采用了近端策略优化(Proximal Policy Optimization, PPO)。
而 DeepSeek 团队 则认为,在一组样本中进行价值估计更加有效,因此提出了 组相对策略优化(Group Relative Policy Optimization, GRPO) 算法,这也是 DeepSeek-R1 中的核心技术,使 DeepSeek-R1 模型大放异彩。
在几个月前 Qwen3 首次亮相的时候,其旗舰模型的性能就已经与 DeepSeek-R1、o3-mini、Gemini 2.5 Pro 等顶级模型表现相当。除此以外,Qwen3 系列模型覆盖了 MoE 模型和密集模型,每一款模型又有许多细分版本。
近些天,Qwen3 系列模型仍然在不停的迭代更新,例如 Qwen3-235B-A22B-Instruct-2507-FP8 在知识数学、编程、人类偏好对齐、Agent 能力等众多测评中表现出色,甚至了超过 Kimi-K2、DeepSeek-V3 等顶级开源模型以及 Claude-Opus4-Non-thinking 等领先闭源模型。
最近,Qwen 团队发布了一篇有关其模型后训练算法的论文,似乎揭示了 Qwen3 模型成功的核心技术细节。
而在昨天,来自清华大学校友创立的创业公司 NetMind.AI 发表了一篇博客,题为《Qwen Team Proposes GSPO for Qwen3, Claims DeepSeek's GRPO is Ill-Posed》,对 Qwen 团队为 Qwen3 模型提出的 GSPO 算法进行了详尽的介绍与分析。
-
博客链接:https://blog.netmind.ai/article/Qwen_Team_Proposes_GSPO_for_Qwen3%2C_Claims_DeepSeek's_GRPO_is_Ill-Posed
最近 Qwen 的研究表明,使用 GRPO 训练大语言模型时存在严重的稳定性问题,往往会导致模型不可逆地崩溃。他们认为 DeepSeek 的 GPRO 方法存在一些严重问题:
-
在每个 token 级别应用重要性采样,会在长序列中积累高方差,导致训练不稳定。
-
这一问题在 专家混合模型(Mixture-of-Experts, MoE) 中尤为严重,因为 token 级别的路由变化会加剧不稳定性。
-
为缓解这一问题,基于 GRPO 的训练流程通常需要依赖一些额外策略,例如 路由重放(Routing Replay)。
因此,Qwen 团队声称 GRPO 的 token 级重要性采样无法达到稳定训练,其优化目标是「病态的(ill-posed)」。
为了解决这些问题并训练其最新的 Qwen3 系列模型,Qwen 团队提出了一种新的强化学习算法 —— 组序列策略优化(Group Sequence Policy Optimization, GSPO)。
更多推荐
所有评论(0)