面试居然被问到 OpenClaw 的原理，当场直接懵了。。。

最近春招开始了，不过时间还是有点段。节前，我们邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对新人如何快速入门算法岗、如何准备面试攻略、面试常考点、大模型项目落地经验分享等热门话题进行了深入的讨论。最近面试一些搜广推+大模型的岗位，在项目技术问题方面问的都差不多。唯一让我感觉意外的是openclaw也被问到了，今天按照面试题类别总结了一下，分享给大家。

Python数据挖掘

535人浏览 · 2026-03-18 13:51:48

Python数据挖掘 · 2026-03-18 13:51:48 发布

最近春招开始了，不过时间还是有点段。

节前，我们邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。

针对新人如何快速入门算法岗、如何准备面试攻略、面试常考点、大模型项目落地经验分享等热门话题进行了深入的讨论。

总结链接：《大模型面试宝典》(2026版) 正式发布！

喜欢本文记得收藏、关注、点赞。更多实战和面试交流，文末加入我们星球

最近面试一些搜广推+大模型的岗位，在项目技术问题方面问的都差不多。

唯一让我感觉意外的是openclaw也被问到了，今天按照面试题类别总结了一下，分享给大家。

SFT

SFT 中 Answer → CoT 与 CoT → Answer 两种数据格式有什么区别？对模型推理能力和最终答案质量的影响是什么？是否做过效果对比？
在 CoT → Answer 训练格式下，为什么生成序列越靠后的 token，其预测概率往往更高？
如何设计数据标注质量控制机制，确保 SFT 人工标注数据的准确率符合预期？
使用大模型蒸馏生成 CoT 数据时，如果存在大量噪声，如何进行数据过滤或质量提升？
SFT 训练完成后，如何选择合适的 checkpoint 作为后续 RL 训练的初始化模型？
在 VLM 的 SFT 训练中，如果模型更依赖文本信息、看图时容易产生视觉幻觉，如何分析原因并改进？
一张图片在多模态模型中是如何被编码为 token 输入模型的？通常对应多少个 token？
SFT 数据中 long reasoning 与 short reasoning 的比例如何影响模型推理能力？
如果 SFT 数据中 instruction 分布不均衡，如何进行数据重采样或 loss reweight？
如何构建 process supervision（过程监督）的 SFT 数据？
SFT 训练中 packing / dynamic batching 的作用是什么？
SFT 训练中 loss mask 的作用是什么？什么时候需要 mask prompt token？

RL 相关

RL 与 SFT 在训练目标和优化方式上有什么区别？
为什么大模型训练通常采用 SFT → RL，而不是直接进行 RL？
PPO 中 GAE 的公式是什么？在序列生成任务中如何计算每个 token 的 advantage？
什么是重要性采样（Importance Sampling）？PPO 中为什么需要 clipping 或 KL 约束来限制策略更新？
DPO 的 loss 公式是什么？与 PPO 的主要区别是什么？
GRPO 与 PPO 有什么区别？GSPO 与 GRPO 又有什么区别？
RL 训练中遇到熵塌缩（Entropy Collapse）或 Reward Hacking 怎么解决？是否了解近期的改进方法或论文？
On-policy 与 Off-policy 的区别是什么？
在 group sampling 类 RL 中，如果 on-policy rollout 很难采样到正确答案怎么办？
什么是 Self-Distillation？为什么要使用它？近期有哪些相关研究？
如果 RL 训练中 reward 或 loss 震荡严重，一般如何排查和调整（如 learning rate、KL coefficient、reward scaling 等）？
什么是 Process Reward Model（PRM）？与传统 Outcome Reward Model（ORM）有什么区别？
Best-of-N sampling 在 RLHF 中有什么作用？
RLHF 中 reference model 的作用是什么？
RLHF 中 KL penalty 的意义是什么？
为什么 RLHF 训练容易出现 mode collapse？