大模型推理学习新范式:ExGRPO框架如何实现从“盲目刷题”到“聪明复盘”

2025年10月23日

大模型在强化学习的道路上,正变得越来越“聪明”——它们终于开始知道哪些“经验”才是真正宝贵的。

近日,来自上海人工智能实验室、澳门大学、南京大学和香港中文大学的联合研究团队,共同提出了一套名为ExGRPO的全新经验管理和学习框架。

这套框架的核心思想,是通过科学地识别、存储、筛选和学习最有价值的经验,让大模型在优化其复杂推理能力时,能够走得更稳、更快、更远。

实验数据显示,与传统的在线策略RLVR(基于可验证奖励的强化学习)方法相比,ExGRPO在多个基准测试上均实现了显著的性能提升。尤其是在AIME数学竞赛题这类极具挑战性的任务上,其提升效果更为明显,证明了该框架在攻克复杂推理难题上的巨大潜力。

为什么大模型需要“经验驱动”?

自2025年初以来,提升大模型推理能力的主流技术路线一直是RLVR。

简单来说,这个过程就像一个学生在“刷题”。模型不断地生成推理步骤(刷题),然后由一个“判卷老师”(奖励模型)来打分。模型根据分数高低,来调整自己的“解题思路”。

但这种方法存在一个致命缺陷:经验浪费

在标准的RLVR训练中,模型生成的推理轨迹(Rollouts)无论好坏,都只被使用一次,随后便被丢弃。这意味着模型从未“回头复盘”,甚至不记得自己是如何答对或答错的。

它们就像一个只做新题、从不复习的“学霸”,每当做完一道题,无论解法多么精妙,都可能在一次参数更新后,将这次宝贵的“解题经验”忘得一干二净。

这种“学完就忘”的模式,不仅导致了昂贵的计算资源浪费,也让训练过程变得极不稳定。因此,让模型学会“温故而知新”,把每一次的成功经验内化为自身能力,对效率和性能提升都至关重要。

正如强化学习著名学者David Silver和Richard S. Sutton在《Welcome to the Era of Experience》一文中所指出的:人类数据正在耗尽,经验将是下一个超级数据源,是AI能力提升的下一个突破口。

但是,一个核心问题随之而来:既然经验如此重要,那么什么样的经验才值得反复学习?

ExGRPO框架正是为了回答这一挑战而诞生的。

什么样的“经验”才是“好经验”?

在设计一个“复习”系统前,必须先搞清楚一个根本问题:对一个正在学习推理的模型来说,什么样的“解题经验”最有价值?

为了找到答案,研究团队进行了一系列探索性实验,并发现一份“高质量”经验的价值体现在两个关键维度上:问题的难度解题路径的质量

1. 问题的甜蜜点:中等难度

研究者将模型遇到的问题,根据其当前的“正确率”动态分为三类:

  • 简单题 (正确率 > 75%)
  • 中等题 (25% - 75%)
  • 难题 (< 25%)

结果发现:只刷“中等难度”问题的模型,最终性能提升最大。

这也符合直觉:简单题已掌握,反复练习边际效益递减;难题远超当前能力,强行学习只会让模型产生胡乱猜测的坏习惯。而中等难度的题,恰好处于模型的“最近发展区”,是学习效率最高的“甜蜜点”。

2. 解题路径的“自信度”:低熵轨迹

另一方面,同样是做对一道题,解题过程(轨迹)的质量也千差万别。有的思路清晰、一步到位;有的则绕来绕去,甚至是蒙对的。

如何量化这种“解题思路”的质量?研究者发现,推理轨迹的Token平均熵是一个优秀的在线代理指标。

在所有做对的题目中,那些推理过程逻辑更正确的解法,其对应的熵值显著更低。高熵轨迹往往只是“幸运的瞎猜”,反复学习这些“经验”不仅无益,反而可能污染模型的逻辑能力。

ExGRPO框架:模型的“高价值错题本+温习系统”

基于上述洞见,ExGRPO框架被设计出来,它包含两大核心部件:经验管理和混合经验优化。

1. 经验管理:精挑细选,分类归档

研究者将模型经验定义为“问题 + 对应推理过程”,并分层进行管理:

  1. 经验收集:建立一个“经验回放池”,像一个巨大的“错题本”,收集模型所有成功的推理案例。
  2. 经验划分与存储:根据每个问题最新的“在线正确率”,动态地将问题划分到“简单”、“中等”、“困难”三个分区。同时,引入“退休机制”(Retired Set),将模型已完全掌握的问题移出学习队列,让模型始终聚焦于新挑战。
  3. 经验筛选(核心)
    • 问题筛选:利用高斯分布模型,优先从“中等难度”的分组中抽取问题。
    • 轨迹筛选:对于选出的问题,如果历史上有多个成功解法,只挑选出当前模型看来熵最低的那一个(即最笃定清晰的解法)。

这套精细化管理,确保了模型每次“复习”的都是最高质量的“黄金经验”。

2. 混合策略优化:温故而知新

选好了复习材料,接下来就是如何“复习”。

ExGRPO采用了一种混合策略优化目标。在每一次训练迭代中,计算资源被一分为二:

  • 一部分用于让模型探索全新的问题(On-policy,学新知)。
  • 另一部分用于学习从经验池中精心筛选出的经验(Off-policy,温故)。

这种“一半时间学新,一半时间复习”的模式,让模型既能拓展认知边界,又能持续巩固成功经验,极大提升了学习效率和稳定性。

实验结果:更强、更稳、更高效

研究团队在6个不同规模(1.5B到8B)和架构(Qwen、Llama)的模型上对ExGRPO进行了全面测试。

结果显示,与传统的在线RLVR方法(Dr. GRPO)相比,ExGRPO平均带来了 +3.5(分布内)和 +7.6(分布外)的性能提升点。

“救活”弱模型

研究还发现一个有趣的现象:对于像Llama-3.1 8B Base这样的基座模型,由于初始推理能力太弱,标准的On-Policy强化学习根本无法训练,很快就会崩溃。

而ExGRPO凭借其经验回放机制,能够捕捉到早期偶然的“lucky hits”(幸运的正确答案),并将其作为宝贵信号反复利用,最终成功地将模型“救活”并稳定提升了其性能。

赋能强模型

即使是在已经很强的模型(如LUFFY)上进行持续学习,ExGRPO依然能带来稳定的性能增益,而标准的在线RL方法反而会导致性能下降。

滚雪球效应

此外,研究揭示了“滚雪球效应”。高熵的经验中,常包含看似正确但逻辑有瑕疵的步骤(比如在数学题里滥用代码块“作弊”)。如果反复学习这些经验,错误的推理习惯就会像滚雪球一样根深蒂固。ExGRPO的低熵筛选机制,则有效切断了这种错误学习的路径。

迎接“经验即媒介”的AI新时代

正如David Silver和Richard Sutton所言:“我们正处于一个新时期的风口浪尖,在这个时期,经验将成为能力提升的主要媒介。”

ExGRPO的核心贡献,是为模型推理能力的提升,提供了一套系统性的、基于经验的学习框架。它不再让宝贵的成功经验付诸东流,而是通过智能地识别、管理和重放高价值经验,让模型真正拥有了“温故而知新”的能力。

“有原则的经验管理”(Principled Experience Management)将可能成为未来构建更强大、更高效AI模型训练生态中的关键一环。


论文:
https://arxiv.org/pdf/2510.02245

代码:
https://github.com/ElliottYan/LUFFY/tree/main/ExGRPO

模型:
https://huggingface.co/collections/rzzhan/exgrpo-68d8e302efdfe325187d5c96# 大模型推理学习新范式:ExGRPO框架如何实现从“盲目刷题”到“聪明复盘”

2025年10月23日

大模型在强化学习的道路上,正变得越来越“聪明”——它们终于开始知道哪些“经验”才是真正宝贵的。

近日,来自上海人工智能实验室、澳门大学、南京大学和香港中文大学的联合研究团队,共同提出了一套名为ExGRPO的全新经验管理和学习框架。

这套框架的核心思想,是通过科学地识别、存储、筛选和学习最有价值的经验,让大模型在优化其复杂推理能力时,能够走得更稳、更快、更远。

实验数据显示,与传统的在线策略RLVR(基于可验证奖励的强化学习)方法相比,ExGRPO在多个基准测试上均实现了显著的性能提升。尤其是在AIME数学竞赛题这类极具挑战性的任务上,其提升效果更为明显,证明了该框架在攻克复杂推理难题上的巨大潜力。

为什么大模型需要“经验驱动”?

自2025年初以来,提升大模型推理能力的主流技术路线一直是RLVR。

简单来说,这个过程就像一个学生在“刷题”。模型不断地生成推理步骤(刷题),然后由一个“判卷老师”(奖励模型)来打分。模型根据分数高低,来调整自己的“解题思路”。

但这种方法存在一个致命缺陷:经验浪费

在标准的RLVR训练中,模型生成的推理轨迹(Rollouts)无论好坏,都只被使用一次,随后便被丢弃。这意味着模型从未“回头复盘”,甚至不记得自己是如何答对或答错的。

它们就像一个只做新题、从不复习的“学霸”,每当做完一道题,无论解法多么精妙,都可能在一次参数更新后,将这次宝贵的“解题经验”忘得一干二净。

这种“学完就忘”的模式,不仅导致了昂贵的计算资源浪费,也让训练过程变得极不稳定。因此,让模型学会“温故而知新”,把每一次的成功经验内化为自身能力,对效率和性能提升都至关重要。

正如强化学习著名学者David Silver和Richard S. Sutton在《Welcome to the Era of Experience》一文中所指出的:人类数据正在耗尽,经验将是下一个超级数据源,是AI能力提升的下一个突破口。

但是,一个核心问题随之而来:既然经验如此重要,那么什么样的经验才值得反复学习?

ExGRPO框架正是为了回答这一挑战而诞生的。

什么样的“经验”才是“好经验”?

在设计一个“复习”系统前,必须先搞清楚一个根本问题:对一个正在学习推理的模型来说,什么样的“解题经验”最有价值?

为了找到答案,研究团队进行了一系列探索性实验,并发现一份“高质量”经验的价值体现在两个关键维度上:问题的难度解题路径的质量

1. 问题的甜蜜点:中等难度

研究者将模型遇到的问题,根据其当前的“正确率”动态分为三类:

  • 简单题 (正确率 > 75%)
  • 中等题 (25% - 75%)
  • 难题 (< 25%)

结果发现:只刷“中等难度”问题的模型,最终性能提升最大。

这也符合直觉:简单题已掌握,反复练习边际效益递减;难题远超当前能力,强行学习只会让模型产生胡乱猜测的坏习惯。而中等难度的题,恰好处于模型的“最近发展区”,是学习效率最高的“甜蜜点”。

2. 解题路径的“自信度”:低熵轨迹

另一方面,同样是做对一道题,解题过程(轨迹)的质量也千差万别。有的思路清晰、一步到位;有的则绕来绕去,甚至是蒙对的。

如何量化这种“解题思路”的质量?研究者发现,推理轨迹的Token平均熵是一个优秀的在线代理指标。

在所有做对的题目中,那些推理过程逻辑更正确的解法,其对应的熵值显著更低。高熵轨迹往往只是“幸运的瞎猜”,反复学习这些“经验”不仅无益,反而可能污染模型的逻辑能力。

ExGRPO框架:模型的“高价值错题本+温习系统”

基于上述洞见,ExGRPO框架被设计出来,它包含两大核心部件:经验管理和混合经验优化。

1. 经验管理:精挑细选,分类归档

研究者将模型经验定义为“问题 + 对应推理过程”,并分层进行管理:

  1. 经验收集:建立一个“经验回放池”,像一个巨大的“错题本”,收集模型所有成功的推理案例。
  2. 经验划分与存储:根据每个问题最新的“在线正确率”,动态地将问题划分到“简单”、“中等”、“困难”三个分区。同时,引入“退休机制”(Retired Set),将模型已完全掌握的问题移出学习队列,让模型始终聚焦于新挑战。
  3. 经验筛选(核心)
    • 问题筛选:利用高斯分布模型,优先从“中等难度”的分组中抽取问题。
    • 轨迹筛选:对于选出的问题,如果历史上有多个成功解法,只挑选出当前模型看来熵最低的那一个(即最笃定清晰的解法)。

这套精细化管理,确保了模型每次“复习”的都是最高质量的“黄金经验”。

2. 混合策略优化:温故而知新

选好了复习材料,接下来就是如何“复习”。

ExGRPO采用了一种混合策略优化目标。在每一次训练迭代中,计算资源被一分为二:

  • 一部分用于让模型探索全新的问题(On-policy,学新知)。
  • 另一部分用于学习从经验池中精心筛选出的经验(Off-policy,温故)。

这种“一半时间学新,一半时间复习”的模式,让模型既能拓展认知边界,又能持续巩固成功经验,极大提升了学习效率和稳定性。

实验结果:更强、更稳、更高效

研究团队在6个不同规模(1.5B到8B)和架构(Qwen、Llama)的模型上对ExGRPO进行了全面测试。

结果显示,与传统的在线RLVR方法(Dr. GRPO)相比,ExGRPO平均带来了 +3.5(分布内)和 +7.6(分布外)的性能提升点。

“救活”弱模型

研究还发现一个有趣的现象:对于像Llama-3.1 8B Base这样的基座模型,由于初始推理能力太弱,标准的On-Policy强化学习根本无法训练,很快就会崩溃。

而ExGRPO凭借其经验回放机制,能够捕捉到早期偶然的“lucky hits”(幸运的正确答案),并将其作为宝贵信号反复利用,最终成功地将模型“救活”并稳定提升了其性能。

赋能强模型

即使是在已经很强的模型(如LUFFY)上进行持续学习,ExGRPO依然能带来稳定的性能增益,而标准的在线RL方法反而会导致性能下降。

滚雪球效应

此外,研究揭示了“滚雪球效应”。高熵的经验中,常包含看似正确但逻辑有瑕疵的步骤(比如在数学题里滥用代码块“作弊”)。如果反复学习这些经验,错误的推理习惯就会像滚雪球一样根深蒂固。ExGRPO的低熵筛选机制,则有效切断了这种错误学习的路径。

迎接“经验即媒介”的AI新时代

正如David Silver和Richard Sutton所言:“我们正处于一个新时期的风口浪尖,在这个时期,经验将成为能力提升的主要媒介。”

ExGRPO的核心贡献,是为模型推理能力的提升,提供了一套系统性的、基于经验的学习框架。它不再让宝贵的成功经验付诸东流,而是通过智能地识别、管理和重放高价值经验,让模型真正拥有了“温故而知新”的能力。

“有原则的经验管理”(Principled Experience Management)将可能成为未来构建更强大、更高效AI模型训练生态中的关键一环。


论文:
https://arxiv.org/pdf/2510.02245

代码:
https://github.com/ElliottYan/LUFFY/tree/main/ExGRPO

模型:
https://huggingface.co/collections/rzzhan/exgrpo-68d8e302efdfe325187d5c96

Logo

更多推荐