GSPO算法深度解析：大模型面试官最爱问的算法变种，轻松应对高频面试题！

本文从面试官视角解析了大模型面试中常见的GSPO算法问题，详细分析了GSPO如何解决GRPO的高方差和不稳定问题，以及奖励函数目标不一致的问题。通过对比GRPO和GSPO的公式，阐述了序列级优化的优势：减少噪声累积、避免训练崩塌、对不同长度序列的归一化处理，并消除对Routing Replay的依赖，简化大模型训练流程。

AGI大模型老王

1067人浏览 · 2025-09-26 13:35:37

AGI大模型老王 · 2025-09-26 13:35:37 发布

简介

你了解 GSPO 算法吗？讲一下它主要解决了什么问题？相比原始的 GRPO 算法，它又有哪些优势？这是我的学员在今年秋招大模型面试中遇到的一个真实问题。

这篇文章，我们还是从面试官的视角来分析一下，如果你在面试现场被问到这一系列问题，应该如何作答？

一、面试官心理分析

首先来分析一下面试官的心理，面试官问这个问题，主要是想考察以下几个方面：

第一，你有没有持续追一些前沿的算法技术，比如 GRPO 的变种，这是大厂面试官比较看重的。
第二，面试官希望你能详细阐述一下 GSPO 算法的过程，它具体是怎么做的，有哪些创新？
第三，也是最重要的，GSPO 算法带来了哪些好处，你能否从本质出发，讲清楚这个算法改进的内在动机

好，那接下来我们就沿着面试官的心理预期，来拆解一下这道题目！

二、面试题解析

自从 DeepSeek 提出 GRPO 后，出现了很多算法变种来优化原始 GRPO 算法的不足。

那我们今天的主角 GSPO 就是其中一个，这个算法是阿里 Qwen 团队提出来的，并应用在了 Qwen3 大模型的训练中。

对照原始 GRPO 的公式，我们首先来看一下，GSPO 是在 GRPO 基础上解决了什么问题。

第一个要解决的问题就是：GRPO 的高方差和不稳定问题

GRPO 在计算重要性采样权重时，是在 token 级别进行操作的，说白了，就是对 token 进行加权。这种做法由于每个 token 只采样了一次，很难实现有效的分布校正。

比如有一个 token 偏离了原始策略很远，只通过一次的采样是很难把分布掰回来的，而是要采样多次才行。

所以采样一次反而会在模型训练过程中引入高方差的噪声，从而导致模型的梯度估计不稳定，甚至造成模型训练的崩塌。

第二个要解决的是：奖励函数的目标和要优化的目标不一致的问题

我们知道，GRPO 的奖励函数是序列级的，也就是要等模型生成完整回复后才给出 reward，但是 GRPO 优化的目标又是 token 级别的，也就是对每一个 token 都会有 loss，这就形成了一个不一致。

因此一个更合理的做法是将策略校准，也就是重要性采样比率那部分，也提升到序列级别，而不是 token 级别。

接下来，我们就来看看 GSPO 是怎么做的，看公式：

GSPO：

GRPO：

我们对比一下 GRPO 的公式，可以很明显看出来，GRPO 在计算这个加权优势的时候，也就是最小化函数里面的部分，是对第 i 个序列，第 t 个 token 来算的。

比如一个组采样 8 条样本，每一条样本是 40 个 token，那 GRPO 就要计算 40 个 token 的加权优势。

所以在公式的前面做了两次平均，一次是对 Oi，也就是对一条序列里面的 token 做平均，外层是对 G，也就是在不同的序列之间再做平均。

再来看一下 GSPO，可以看到对优势加权的不是 token，而是序列，也就是公式中的 si（θ）。所以你看外层只对序列做了平均，而没有对 token 做。

有些同学可能看不懂这个 si（θ）的含义，这里给大家解释一下。

这里的分子代表的是一个联合概率，也就是给定输入 x，输出 yi 的概率，i 代表的是第几条序列而不是 token。

那这个公式就可以展开写成条件概率联乘的形式：

这个呢也就是自回归的思路，先用 x 生成第 1 个 token 概率，然后再乘上第 1 个 token 生成第 2 个 token 的概率。

然后再乘上用第 1 个和第 2 个 token，生成第 3 个 token 的概率，以此类推，最后再乘上生成的最后一个 token 的概率。

另外，GSPO 对不同长度的序列进行了归一化处理，统一了不同序列长度重要性比率的数值范围，防止某一条序列的数值过大，从而避免了 GRPO 高方差的问题。

OK，讲完了 GSPO 的核心创新点，最后我们从本质出发，看一下 GSPO 到底带来了哪些好处？

首先请大家思考：计算重要性比值的时候，序列级相比 token 级好在哪里呢？

举个例子，假设你在训练过程中某一个 step 生成了一个 token，这个 token 生成完全是错的，质量很差，那优势 A 是小于 0，如果旧策略生成这个 token 的概率是 1e-7，一个很小的概率。

这时候，哪怕新策略的概率也非常小，但只要比旧策略高一点，例如是 0.001，这时候重要性比值就会变得很大（这里算出来是 10 的 4 次方）。

回想一下 CLIP 函数的图像和作用方式，看图，当 A 小于 0 时，只会约束小于 1-𝜖 的部分，而过大的比值是不会被约束的。

也就是对应第 6 中情况：

所以这种 token 级别的大波动会造成整个损失也大波动，噪声会不断累积，甚至模型被训崩掉。

而 GSPO 是对整个句子的比例进行放大或缩小，而不受某个 token 的影响，所以即使一句话中某几个 token 生成不好，token 的比值波动也不会对最终的损失造成太大影响。

第二个好处，就是可以消除 GRPO 对 Routing Replay 的依赖。

MOE 架构的模型如 DeepSeek，专家激活模式会随训练过程变化，比如第一次策略在生成响应的时候，激活的是专家 1 和 3，模型更新几次以后，同样一批样本生成响应时，激活可能就变成了专家 1 和 4。

相同的 token 激活不同的专家，会导致计算出来的重要性比值波动很大，很容易触发 clip 机制。

裁剪过后，这部分 token 可能没有梯度，那些仍然保留梯度的 token，又带有噪音，也就是有错误的梯度信息，会导致训练不稳定。

而 GSPO 在训练 MOE 模型时就没有这个问题，不需要做 Routing Replay，因为它的优化目标是序列，对部分 token 的波动不敏感，这也为简化大模型的训练流程带来了另一个好处。

好，以上就是对大模型面试中这个 GSPO 算法面试连环炮的分析和拆解，这里是丁师兄大模型，持续分享大模型面试干货，需要大模型一对一辅导的同学请见底部介绍，大家秋招加油。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

一直在更新，更多的大模型学习和面试资料已经上传带到CSDN的官方了，有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

在这里插入图片描述