一、面试题 请对比PPO和GRPO的算法原理?

1.1 问题浅析

虽然是大模型工程领域的面试,但面试官也很可能会考察一些算法知识,如何使用通俗易懂的语言叙述算法的核心原理是回答这类问题的关键。

PPO和GRPO都是强化学习的热门算法,PPO((Proximal Policy optimization)算法也被称作近端策略优化,是由OpenAI 在 GPT-3.5提出RLHF强化学习(Reinforcement Learning from Human Feedback) 框架之后该框架下最流行的强化学习算法。借助PPO可以快速让模型行为向人类偏好对齐,提升模型的推理能力、代码能力、Agent性能等。

GRPO(Group Relative Policyoptimization 组相对策略优化) 是DeepSeek团队在2024年论文《DeepSeekMath: Pushing the Limits of MathematicalReasoning in Open Language Models》中提出的一种新锐的强化学习算法,GRPO是DeepSeek R1模型推理能力背后的功臣,今天我们看到的如Claude4,Gemini2.5, Qwen3等模型背后都是采用了类GRPO的强化学习算法使模型获得推理能力,自然也是面试的高频考点。

1.2 标准答案

第一段首先回答PPO算法的原理

PPO(ProximalPolicyoptimization) 是一种基于 Actor-Critic 架构的策略梯度方法,广泛用于大模型的 RLHF 训练。它同时训练两个网络:

  • 策略网络(Actor) 负责在给定状态下输出动作分布;
  • 价值网络(Critic) 负责估计当前状态的价值。

训练时,首先由策略网络生成动作,然后由价值网络进行预估,并通过 奖励函数(RewardFunction) 对该动作打分;然后将奖励函数打分结果与价值网络的预估结果结合,计算出优势函数(Advantage),用来衡量“这个动作相比预估结果好多少”’。如果优势为正就提升该动作的概率; 为负则降低其概率最终让模型的生成行为持续对齐人类偏好。

举例说明,策略网络负责生成一个动作,这里的策略网络就是指大模型,大模型生成一句话就是策略网络生成的动作,例如“你好,好久不见”。而价值网络则负责估计当前状态下这个动作的价值,例如输出“你好,好久不见”这个回答在当前语境下得分0.6,这个分数就是对模型回答的打分。此外PPO还需要一个奖励函数,奖励函数是基于人类偏好设计的一个评估函数,例如假设人类更希望模型输出的是“你好,好久不见!最近过的怎么样”,那奖励函数就会对“你好,好久不见”打比较低的分比如0.5分。有了价值网络的估值和奖励得分之后,PPO就会计算一个优势函数,最简单的优势函数可能是A=Reward - Value = 0.5 - 0.6 = -0.1, 分值为负说明“你好,好久不见”这个回答比预期回答要差,未来PPO训练过程就会努力让模型避免这么回复。反过来如果模型生成了“你好,好久不见,最近过的怎么样”,奖励函数的分数会变为0.8, 而价值网络的分数因为语义相同打了0.65A=0.8-0.65=0.15, 优势函数动作为正,说明这个动作比模型预期的更好,PPO在未来训练过程中就会努力让模型这样回复。PPO通过这样的机制使得模型不断朝着奖励函数定义的方向优化,好的输出结果被提升概率,差的输出结果被抑制概率,最终逐渐对齐人类偏好,这就是PPO算法基础原理。原理示意图如下:

第二段回答GRPO算法的原理以及和PPO区别

GRPO 是Deepseek提出的强化学习算法,它的核心思想是省略掉传统 PPO 中的价值网络,通过在同一个状态下采样一组动作,然后基于组内相对奖励进行归一化,来得到优势函数,进而进行策略更新。这种方法减少了训练开销,保证了稳定性,在大模型的微调任务中展现出极高的训练效率。

在PPO训练过程中一个非常现实的问题就是训练价值网络非常昂贵,而且价值网络的估计有可能存在误差容易导致训练不稳定,于是DeepSeek在大模型实践中提出了一个创新思路: 不要价值网络

举例说明,我们将策略函数(大模型)比作班里考试的学生,而价值函数比作助教老师,同时班里还有一名老师奖励函数对学生的回答进行打分,比如给出85, 92, 70的的的得分。对PPO来说会先让助教预测评分,比如预测同学可得分80,如果同学实际得了85分,比助教的预测多了5分,此时优势函数取值为正,反馈就为正,之后同学就会继续按照这种方式回答问题。而GRPO不再依赖助教来预测“应该得多少分”,而是让学生书写多个答案作为一组回答,让学生的每个回答和组内做对比。假如学生回答了ABC三个答案:

A,B答案都高于均值,反馈为正, C答案低于均值,反馈为负。那模型就会按照A,B的回答风格进行回答。这种简单的思想在简化PPO训练步骤的同时获得优异性能。

二、相关热点问题

2.1 为什么会有越来越多的模型倾向采用 GRPO而不是 PPO?

答案: 主要原因有三点:

  • 第一,GRPO不需要训练 Critic(价值网络),工程上更轻量;
  • 第二,大模型可以轻松在同一提示下生成多组候选结果,满足组内对比的条件,GRPO实际训练效率很高;
  • 第三,GRPO更加适合强化模型的数学、编程等方面能力,而这也是目前大模型主流训练方向。

2.2 GRPO 相比 PPO 最大的风险是什么?

答案: GRPO 依赖在同一提示下采样多条候选,如果采样不足或奖励模型区分能力有限就可能导致训练信号不足或过拟合。此外,没有Critic(价值网络)作为全局基线,GRPO可能在长地平线任务中收敛不稳定。

2.3 在工程上,GRPO 的组大小k 应该如何选择?

答案: 通常 k 设置在 4-8 之间比较合适。k太小,标准化效果不明显; k太大,显存和算力消耗会显著增加。如果奖励模型非常稳定,k可以取小一些;如果奖励噪声较大则建议增大k 来提升训练的稳定性。

三、AI大模型学习和面试资源

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习和面试资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
在这里插入图片描述

在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

在这里插入图片描述

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

在这里插入图片描述

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

Logo

更多推荐