从零开始学Parallel-R1：让大模型拥有人类式并行思维的能力（值得收藏）

Parallel-R1是腾讯AI Lab提出的强化学习框架，通过"分叉-探索-汇总"流程赋予LLM人类式并行思维能力。该框架采用三阶段渐进式课程设计，结合GRPO算法和组合奖励函数，使模型从计算探索逐步演化为多视角验证。研究表明，并行思维可作为"中段训练探索脚手架"，有效提升模型解决复杂问题的能力。与清华ParaThinker相比，二者采用不同技术路径(RLvsSFT)但目标一致，为AI原生并行思

AI-椰子不椰

606人浏览 · 2025-09-26 14:39:16

AI-椰子不椰 · 2025-09-26 14:39:16 发布

简介

在这里插入图片描述

当前的LLMs在处理复杂问题时，往往遵循一种一条路走到黑的思维模式。这种模式一旦在早期步骤出错，就很难纠正，从而导致推理失败。人类专家在面对难题时，我们常常会进行并行思维（Parallel Thinking）,同时探索多种可能性，从不同角度切入，最终综合所有线索，得出最可靠的结论。

腾讯AI Lab等机构的研究者们提出了一个开创性的强化学习框架——Parallel-R1。可能让LLM具有人类的这种能力。

hugging face https://huggingface.co/papers/2509.07980

Parallel-R1框架将并行思维的过程形式化，通过引入特定的控制标签，引导模型在推理中动态地执行“分叉-探索-汇总”的流程。

1.Trigger：当模型在推理中遇到一个关键节点或不确定步骤时，它会生成一个 Parallel 标签，暂停当前的线性推理。

2.Exploration：在 Parallel模块内部，模型会生成多个独立的推理路径

3.Summary：所有路径探索完毕后，模型会生成一个 Summary模块，对所有路径的结论进行比较、提炼和整合。

4.Resume：最后，模型将这个总结性的结论融入主推理链，继续进行后续的推理。

如何教会一个从未见过这种复杂行为的模型从零开始学习并行思维？Parallel-R1的精髓在于其设计的三阶段渐进式课程（Progressive Curriculum），它将复杂的学习目标分解，循序渐进。

阶段	阶段名称	核心方法	训练数据	主要目标
阶段一	冷启动 (Cold-Start)	监督微调 (SFT)	简单的数学题 (GSM8K)	学习格式：让模型掌握 ,
阶段二	行为学习 (Behavior Learning)	强化学习 (RL)	简单的数学题 (GSM8K)	学习行为：鼓励模型在简单任务中主动、稳定地使用并行思维。
阶段三	泛化推理 (Generalization)	强化学习 (RL)	复杂的数学题 (DAPO)	学习推理：将已掌握的并行思维能力泛化，用于提升解决复杂问题的核心能力

Parallel-R1采用RL作为核心驱动力。在RL中， Agent通过生成文本与环境交互，并根据最终结果获得奖励，其目标是学会最大化长期奖励的策略。[2]

框架采用了群体相对策略优化（Group Relative Policy Optimization, GRPO）算法。该算法的核心是评估新策略相对于旧策略的优劣，并据此进行稳定更新。这涉及到两个关键概念：

策略概率比 (Policy Ratio, p_i)：衡量新策略生成某个答案的概率相对于旧策略的变化程度。

其中，是第个生成的答案， q 是问题，和分别代表新、旧策略。

优势函数 (Advantage,)：衡量第 i 个答案的奖励相对于同一批次答案的平均奖励有多好，并进行标准化。

一个正的优势值意味着这个答案比平均水平更好。

最终，GRPO算法将这些部分整合进一个损失函数中，模型的目标就是最小化这个损失。

这个复杂的公式本质上是在说：我们希望最大化那些优势答案的概率（即项），但同时通过 clip 函数防止策略更新过猛导致训练不稳定，并通过项确保模型不会忘记预训练时学到的通用语言知识。

奖励函数的设计是RL的灵魂。在第二阶段“行为学习”中，为了同时鼓励“结构正确”和“答案正确”，研究者设计了一个严格的组合奖励函数：

其中：

并行奖励。如果模型生成了至少一个并行思维模块，则为1，否则为0。

准确率奖励。如果最终答案正确，则为+1，否则为-1。

根据这个公式，只有当模型既使用了并行结构又答对了题目时，才能获得+1的奖励，否则将受到惩罚或无奖励。这强有力地引导模型学会将正确的行为和正确的结果关联起来。

通过对训练过程的深入分析，Parallel-R1揭示了一个关于AI学习的深刻洞见：模型的并行思维策略是动态演化的。

训练早期：当模型自身推理能力较弱时，它将并行思维用作一种计算探索（Computational Exploration）的工具。

训练后期：随着模型能力的增强，并行思维的角色转变为一种多视角验证（Multi-perspective Verification）。

更重要的是，研究者发现并行思维可以作为一种“中段训练探索脚手架”（Mid-Training Exploration Scaffold）。

拓展阅读：ParaThinker——另一条通往原生并行思维的道路[3]推荐阅读：超越多数投票：解析LLMs推理路径聚合的新范式[1]

在探索AI原生并行思维的道路上，Parallel-R1并非唯一的探索者。几乎在同一时期，来自清华大学AIR（智能产业研究院）的研究团队也发布了一项名为ParaThinker的杰出工作，它从另一个技术视角出发，同样实现了卓越的并行推理能力。

ParaThinker同样敏锐地指出了线性推理的弊病，并将其命名为“隧道视野”（Tunnel Vision）。为了解决这一问题，ParaThinker也采用了“分叉-探索-汇总”的核心范式，但在实现路径上展现了不同的智慧。

Parallel-R1 的核心是强化学习（RL），通过“奖励与惩罚”的机制，引导模型自主学会并行思考。Parallel-R1 的创新重点在于训练框架和奖励设计。

ParaThinker 的核心是监督微调（SFT），通过学习海量范例，直接模仿并掌握并行思维。 ParaThinker 的一个关键创新在于模型架构本身。它提出了“思想特定位置编码”（Thought-Specific Positional Embedding），通过为每条路径分配一个独一无二、可学习的“身份标签”，从根本上解决了汇总信息时的位置混淆问题。

特征维度	Parallel-R1	ParaThinker
核心训练方法	强化学习 (RL)	监督微调 (SFT)
关键技术创新	渐进式课程与奖励设计	思想特定位置编码与高效推理引擎
主要贡献视角	探索AI学习并行思维的动态过程	构建高效、可扩展的端到端系统

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

一直在更新，更多的大模型学习和面试资料已经上传带到CSDN的官方了，有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

在这里插入图片描述