大模型推理学习新范式：ExGRPO框架如何实现从“盲目刷题”到“聪明复盘”

2025年10月23日大模型在强化学习的道路上，正变得越来越“聪明”——它们终于开始知道哪些“经验”才是真正宝贵的。近日，来自上海人工智能实验室、澳门大学、南京大学和香港中文大学的联合研究团队，共同提出了一套名为ExGRPO的全新经验管理和学习框架。这套框架的核心思想，是通过科学地识别、存储、筛选和学习最有价值的经验，让大模型在优化其复杂推理能力时，能够走得更稳、更快、更远。

wwlsm_zql

610人浏览 · 2025-10-28 10:23:49

wwlsm_zql · 2025-10-28 10:23:49 发布

大模型推理学习新范式：ExGRPO框架如何实现从“盲目刷题”到“聪明复盘”

2025年10月23日

大模型在强化学习的道路上，正变得越来越“聪明”——它们终于开始知道哪些“经验”才是真正宝贵的。

近日，来自上海人工智能实验室、澳门大学、南京大学和香港中文大学的联合研究团队，共同提出了一套名为ExGRPO的全新经验管理和学习框架。

这套框架的核心思想，是通过科学地识别、存储、筛选和学习最有价值的经验，让大模型在优化其复杂推理能力时，能够走得更稳、更快、更远。

实验数据显示，与传统的在线策略RLVR（基于可验证奖励的强化学习）方法相比，ExGRPO在多个基准测试上均实现了显著的性能提升。尤其是在AIME数学竞赛题这类极具挑战性的任务上，其提升效果更为明显，证明了该框架在攻克复杂推理难题上的巨大潜力。

为什么大模型需要“经验驱动”？

自2025年初以来，提升大模型推理能力的主流技术路线一直是RLVR。

简单来说，这个过程就像一个学生在“刷题”。模型不断地生成推理步骤（刷题），然后由一个“判卷老师”（奖励模型）来打分。模型根据分数高低，来调整自己的“解题思路”。

但这种方法存在一个致命缺陷：经验浪费。

在标准的RLVR训练中，模型生成的推理轨迹（Rollouts）无论好坏，都只被使用一次，随后便被丢弃。这意味着模型从未“回头复盘”，甚至不记得自己是如何答对或答错的。

它们就像一个只做新题、从不复习的“学霸”，每当做完一道题，无论解法多么精妙，都可能在一次参数更新后，将这次宝贵的“解题经验”忘得一干二净。

这种“学完就忘”的模式，不仅导致了昂贵的计算资源浪费，也让训练过程变得极不稳定。因此，让模型学会“温故而知新”，把每一次的成功经验内化为自身能力，对效率和性能提升都至关重要。

正如强化学习著名学者David Silver和Richard S. Sutton在《Welcome to the Era of Experience》一文中所指出的：人类数据正在耗尽，经验将是下一个超级数据源，是AI能力提升的下一个突破口。

但是，一个核心问题随之而来：既然经验如此重要，那么什么样的经验才值得反复学习？

ExGRPO框架正是为了回答这一挑战而诞生的。

什么样的“经验”才是“好经验”？

在设计一个“复习”系统前，必须先搞清楚一个根本问题：对一个正在学习推理的模型来说，什么样的“解题经验”最有价值？

为了找到答案，研究团队进行了一系列探索性实验，并发现一份“高质量”经验的价值体现在两个关键维度上：问题的难度和解题路径的质量。

1. 问题的甜蜜点：中等难度

研究者将模型遇到的问题，根据其当前的“正确率”动态分为三类：

简单题 (正确率 > 75%)
中等题 (25% - 75%)
难题 (< 25%)

结果发现：只刷“中等难度”问题的模型，最终性能提升最大。

这也符合直觉：简单题已掌握，反复练习边际效益递减；难题远超当前能力，强行学习只会让模型产生胡乱猜测的坏习惯。而中等难度的题，恰好处于模型的“最近发展区”，是学习效率最高的“甜蜜点”。

2. 解题路径的“自信度”：低熵轨迹

另一方面，同样是做对一道题，解题过程（轨迹）的质量也千差万别。有的思路清晰、一步到位；有的则绕来绕去，甚至是蒙对的。

如何量化这种“解题思路”的质量？研究者发现，推理轨迹的Token平均熵是一个优秀的在线代理指标。

在所有做对的题目中，那些推理过程逻辑更正确的解法，其对应的熵值显著更低。高熵轨迹往往只是“幸运的瞎猜”，反复学习这些“经验”不仅无益，反而可能污染模型的逻辑能力。

ExGRPO框架：模型的“高价值错题本+温习系统”

基于上述洞见，ExGRPO框架被设计出来，它包含两大核心部件：经验管理和混合经验优化。

1. 经验管理：精挑细选，分类归档

研究者将模型经验定义为“问题 + 对应推理过程”，并分层进行管理：

经验收集：建立一个“经验回放池”，像一个巨大的“错题本”，收集模型所有成功的推理案例。
经验划分与存储：根据每个问题最新的“在线正确率”，动态地将问题划分到“简单”、“中等”、“困难”三个分区。同时，引入“退休机制”（Retired Set），将模型已完全掌握的问题移出学习队列，让模型始终聚焦于新挑战。
经验筛选（核心）：
- 问题筛选：利用高斯分布模型，优先从“中等难度”的分组中抽取问题。
- 轨迹筛选：对于选出的问题，如果历史上有多个成功解法，只挑选出当前模型看来熵最低的那一个（即最笃定清晰的解法）。

这套精细化管理，确保了模型每次“复习”的都是最高质量的“黄金经验”。

2. 混合策略优化：温故而知新

选好了复习材料，接下来就是如何“复习”。

ExGRPO采用了一种混合策略优化目标。在每一次训练迭代中，计算资源被一分为二：

一部分用于让模型探索全新的问题（On-policy，学新知）。
另一部分用于学习从经验池中精心筛选出的经验（Off-policy，温故）。

这种“一半时间学新，一半时间复习”的模式，让模型既能拓展认知边界，又能持续巩固成功经验，极大提升了学习效率和稳定性。

实验结果：更强、更稳、更高效

研究团队在6个不同规模（1.5B到8B）和架构（Qwen、Llama）的模型上对ExGRPO进行了全面测试。

结果显示，与传统的在线RLVR方法（Dr. GRPO）相比，ExGRPO平均带来了 +3.5（分布内）和 +7.6（分布外）的性能提升点。

“救活”弱模型

研究还发现一个有趣的现象：对于像Llama-3.1 8B Base这样的基座模型，由于初始推理能力太弱，标准的On-Policy强化学习根本无法训练，很快就会崩溃。

而ExGRPO凭借其经验回放机制，能够捕捉到早期偶然的“lucky hits”（幸运的正确答案），并将其作为宝贵信号反复利用，最终成功地将模型“救活”并稳定提升了其性能。

赋能强模型

即使是在已经很强的模型（如LUFFY）上进行持续学习，ExGRPO依然能带来稳定的性能增益，而标准的在线RL方法反而会导致性能下降。

滚雪球效应

此外，研究揭示了“滚雪球效应”。高熵的经验中，常包含看似正确但逻辑有瑕疵的步骤（比如在数学题里滥用代码块“作弊”）。如果反复学习这些经验，错误的推理习惯就会像滚雪球一样根深蒂固。ExGRPO的低熵筛选机制，则有效切断了这种错误学习的路径。

迎接“经验即媒介”的AI新时代

正如David Silver和Richard Sutton所言：“我们正处于一个新时期的风口浪尖，在这个时期，经验将成为能力提升的主要媒介。”

ExGRPO的核心贡献，是为模型推理能力的提升，提供了一套系统性的、基于经验的学习框架。它不再让宝贵的成功经验付诸东流，而是通过智能地识别、管理和重放高价值经验，让模型真正拥有了“温故而知新”的能力。

“有原则的经验管理”（Principled Experience Management）将可能成为未来构建更强大、更高效AI模型训练生态中的关键一环。

论文:
https://arxiv.org/pdf/2510.02245

代码:
https://github.com/ElliottYan/LUFFY/tree/main/ExGRPO

模型:
https://huggingface.co/collections/rzzhan/exgrpo-68d8e302efdfe325187d5c96# 大模型推理学习新范式：ExGRPO框架如何实现从“盲目刷题”到“聪明复盘”