最近春招开始了,不过时间还是有点段。

节前,我们邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。

针对新人如何快速入门算法岗、如何准备面试攻略、面试常考点、大模型项目落地经验分享等热门话题进行了深入的讨论。

总结链接:《大模型面试宝典》(2026版) 正式发布!

喜欢本文记得收藏、关注、点赞。更多实战和面试交流,文末加入我们星球


最近面试一些搜广推+大模型的岗位,在项目技术问题方面问的都差不多。

唯一让我感觉意外的是openclaw也被问到了,今天按照面试题类别总结了一下,分享给大家。

SFT

  1. SFT 中 Answer → CoT 与 CoT → Answer 两种数据格式有什么区别?对模型推理能力和最终答案质量的影响是什么?是否做过效果对比?

  2. 在 CoT → Answer 训练格式下,为什么生成序列越靠后的 token,其预测概率往往更高?

  3. 如何设计 数据标注质量控制机制,确保 SFT 人工标注数据的准确率符合预期?

  4. 使用大模型蒸馏生成 CoT 数据 时,如果存在大量噪声,如何进行数据过滤或质量提升?

  5. SFT 训练完成后,如何选择合适的 checkpoint 作为后续 RL 训练的初始化模型?

  6. 在 VLM 的 SFT 训练中,如果模型更依赖文本信息、看图时容易产生视觉幻觉,如何分析原因并改进?

  7. 一张图片在多模态模型中是如何被编码为 token 输入模型的?通常对应多少个 token?

  8. SFT 数据中 long reasoning 与 short reasoning 的比例如何影响模型推理能力?

  9. 如果 SFT 数据中 instruction 分布不均衡,如何进行数据重采样或 loss reweight?

  10. 如何构建 process supervision(过程监督) 的 SFT 数据?

  11. SFT 训练中 packing / dynamic batching 的作用是什么?

  12. SFT 训练中 loss mask 的作用是什么?什么时候需要 mask prompt token?

RL 相关

  1. RL 与 SFT 在训练目标和优化方式上有什么区别?

  2. 为什么大模型训练通常采用 SFT → RL,而不是直接进行 RL?

  3. PPO 中 GAE 的公式是什么? 在序列生成任务中如何计算每个 token 的 advantage?

  4. 什么是 重要性采样(Importance Sampling)?PPO 中为什么需要 clipping 或 KL 约束 来限制策略更新?

  5. DPO 的 loss 公式是什么? 与 PPO 的主要区别是什么?

  6. GRPO 与 PPO 有什么区别?GSPO 与 GRPO 又有什么区别?

  7. RL 训练中遇到 熵塌缩(Entropy Collapse) 或 Reward Hacking 怎么解决?是否了解近期的改进方法或论文?

  8. On-policy 与 Off-policy 的区别是什么?

  9. 在 group sampling 类 RL 中,如果 on-policy rollout 很难采样到正确答案怎么办?

  10. 什么是 Self-Distillation?为什么要使用它?近期有哪些相关研究?

  11. 如果 RL 训练中 reward 或 loss 震荡严重,一般如何排查和调整(如 learning rate、KL coefficient、reward scaling 等)?

  12. 什么是 Process Reward Model(PRM)?与传统 Outcome Reward Model(ORM) 有什么区别?

  13. Best-of-N sampling 在 RLHF 中有什么作用?

  14. RLHF 中 reference model 的作用是什么?

  15. RLHF 中 KL penalty 的意义是什么?

  16. 为什么 RLHF 训练容易出现 mode collapse?

Transformer / LLM 基础

  1. Transformer Decoder 中为什么需要 自回归因果掩码(causal mask)?

  2. Scaled Dot-Product Attention 为什么要除以 √d_k?

  3. 为什么 Pre-LN Transformer 更稳定?

  4. RoPE 位置编码 的原理是什么?

  5. KV Cache 是如何加速推理的?

  6. 为什么 FlashAttention 可以降低显存占用?

  7. Mixture of Experts(MoE) 的核心思想是什么?

推荐系统

  1. 生成式推荐(Generative Recommendation) 与传统推荐系统有什么区别?其核心目标是什么?

  2. HSTU 与 Transformer 有什么区别?与 OneRec 的整体结构有什么不同?

  3. 如何降低 SID(Semantic ID)碰撞率 并提高编码利用率?

  4. RQ-VAE 与 RQ-KMeans 的算法原理是什么?

  5. 在 OneRec 中如何将 SID 加入 词表(vocabulary)和 tokenizer?

  6. AUC、HR、NDCG 的计算公式是什么?GAUC 与 AUC 有什么区别?

  7. 如何在推荐模型中加入时间编码(time encoding)和位置编码(position encoding)?常见位置编码有哪些?

  8. 推荐系统中如何更好地融合文本特征和多模态特征?

  9. RankMixer是如何发展到 TokenMixer 的?

  10. 推荐系统中曝光偏差(exposure bias)如何解决?

  11. 推荐系统中长尾物品问题 如何解决?

大模型 + 推荐系统

  1. LLM4Rec 与传统推荐模型相比有什么优势?

  2. 如何将 用户行为序列 转换为 LLM 可以处理的 token 序列?

  3. 如何利用 LLM 做推荐解释(Explainable Recommendation)?

  4. 如何用 LLM 生成召回候选集?

  5. 在推荐系统中如何利用 embedding + LLM hybrid architecture?

  6. LLM 推荐中 prompt 设计 如何影响推荐效果?

  7. 如何使用 LLM 做用户画像生成(user profiling)?

  8. 如何解决 LLM 推荐中的 hallucination 问题?

  9. 如何利用 RAG + 推荐系统?

  10. 在生成式推荐中如何解决 实时性问题?

Agent+OpenClaw 相关

  1. 在 OpenClaw 中,如果 Skill 数量达到 1 万+,如何设计 Skill 检索与选择算法,避免每次都遍历全部 Skill?

  2. 如何将用户任务描述 → Skill 检索问题?常见的 embedding / retrieval 方法有哪些?

  3. Agent 如何将复杂任务拆解为 多步子任务(task decomposition)?

  4. 如何利用历史执行数据(成功率 / latency / cost) 来优化 Skill 选择策略?

  5. Tool Calling / Function Calling 的实现原理是什么?

  6. Agent 如何进行多轮任务规划(Task Planning)?

  7. 如何解决 Agent 中的工具选择错误问题?

  8. 在 Agent 系统中如何设计memory机制?

Logo

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地,聚焦技能开发、插件实践与部署教程,为开发者提供可直接落地的方案、工具与交流平台,助力高效构建与落地 AI 应用

更多推荐