面试居然被问到 OpenClaw 的原理,当场直接懵了。。。
最近春招开始了,不过时间还是有点段。节前,我们邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对新人如何快速入门算法岗、如何准备面试攻略、面试常考点、大模型项目落地经验分享等热门话题进行了深入的讨论。最近面试一些搜广推+大模型的岗位,在项目技术问题方面问的都差不多。唯一让我感觉意外的是openclaw也被问到了,今天按照面试题类别总结了一下,分享给大家。
最近春招开始了,不过时间还是有点段。
节前,我们邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。
针对新人如何快速入门算法岗、如何准备面试攻略、面试常考点、大模型项目落地经验分享等热门话题进行了深入的讨论。
喜欢本文记得收藏、关注、点赞。更多实战和面试交流,文末加入我们星球
最近面试一些搜广推+大模型的岗位,在项目技术问题方面问的都差不多。
唯一让我感觉意外的是openclaw也被问到了,今天按照面试题类别总结了一下,分享给大家。
SFT
-
SFT 中 Answer → CoT 与 CoT → Answer 两种数据格式有什么区别?对模型推理能力和最终答案质量的影响是什么?是否做过效果对比?
-
在 CoT → Answer 训练格式下,为什么生成序列越靠后的 token,其预测概率往往更高?
-
如何设计 数据标注质量控制机制,确保 SFT 人工标注数据的准确率符合预期?
-
使用大模型蒸馏生成 CoT 数据 时,如果存在大量噪声,如何进行数据过滤或质量提升?
-
SFT 训练完成后,如何选择合适的 checkpoint 作为后续 RL 训练的初始化模型?
-
在 VLM 的 SFT 训练中,如果模型更依赖文本信息、看图时容易产生视觉幻觉,如何分析原因并改进?
-
一张图片在多模态模型中是如何被编码为 token 输入模型的?通常对应多少个 token?
-
SFT 数据中 long reasoning 与 short reasoning 的比例如何影响模型推理能力?
-
如果 SFT 数据中 instruction 分布不均衡,如何进行数据重采样或 loss reweight?
-
如何构建 process supervision(过程监督) 的 SFT 数据?
-
SFT 训练中 packing / dynamic batching 的作用是什么?
-
SFT 训练中 loss mask 的作用是什么?什么时候需要 mask prompt token?
RL 相关
-
RL 与 SFT 在训练目标和优化方式上有什么区别?
-
为什么大模型训练通常采用 SFT → RL,而不是直接进行 RL?
-
PPO 中 GAE 的公式是什么? 在序列生成任务中如何计算每个 token 的 advantage?
-
什么是 重要性采样(Importance Sampling)?PPO 中为什么需要 clipping 或 KL 约束 来限制策略更新?
-
DPO 的 loss 公式是什么? 与 PPO 的主要区别是什么?
-
GRPO 与 PPO 有什么区别?GSPO 与 GRPO 又有什么区别?
-
RL 训练中遇到 熵塌缩(Entropy Collapse) 或 Reward Hacking 怎么解决?是否了解近期的改进方法或论文?
-
On-policy 与 Off-policy 的区别是什么?
-
在 group sampling 类 RL 中,如果 on-policy rollout 很难采样到正确答案怎么办?
-
什么是 Self-Distillation?为什么要使用它?近期有哪些相关研究?
-
如果 RL 训练中 reward 或 loss 震荡严重,一般如何排查和调整(如 learning rate、KL coefficient、reward scaling 等)?
-
什么是 Process Reward Model(PRM)?与传统 Outcome Reward Model(ORM) 有什么区别?
-
Best-of-N sampling 在 RLHF 中有什么作用?
-
RLHF 中 reference model 的作用是什么?
-
RLHF 中 KL penalty 的意义是什么?
-
为什么 RLHF 训练容易出现 mode collapse?
Transformer / LLM 基础
-
Transformer Decoder 中为什么需要 自回归因果掩码(causal mask)?
-
Scaled Dot-Product Attention 为什么要除以 √d_k?
-
为什么 Pre-LN Transformer 更稳定?
-
RoPE 位置编码 的原理是什么?
-
KV Cache 是如何加速推理的?
-
为什么 FlashAttention 可以降低显存占用?
-
Mixture of Experts(MoE) 的核心思想是什么?
推荐系统
-
生成式推荐(Generative Recommendation) 与传统推荐系统有什么区别?其核心目标是什么?
-
HSTU 与 Transformer 有什么区别?与 OneRec 的整体结构有什么不同?
-
如何降低 SID(Semantic ID)碰撞率 并提高编码利用率?
-
RQ-VAE 与 RQ-KMeans 的算法原理是什么?
-
在 OneRec 中如何将 SID 加入 词表(vocabulary)和 tokenizer?
-
AUC、HR、NDCG 的计算公式是什么?GAUC 与 AUC 有什么区别?
-
如何在推荐模型中加入时间编码(time encoding)和位置编码(position encoding)?常见位置编码有哪些?
-
推荐系统中如何更好地融合文本特征和多模态特征?
-
RankMixer是如何发展到 TokenMixer 的?
-
推荐系统中曝光偏差(exposure bias)如何解决?
-
推荐系统中长尾物品问题 如何解决?
大模型 + 推荐系统
-
LLM4Rec 与传统推荐模型相比有什么优势?
-
如何将 用户行为序列 转换为 LLM 可以处理的 token 序列?
-
如何利用 LLM 做推荐解释(Explainable Recommendation)?
-
如何用 LLM 生成召回候选集?
-
在推荐系统中如何利用 embedding + LLM hybrid architecture?
-
LLM 推荐中 prompt 设计 如何影响推荐效果?
-
如何使用 LLM 做用户画像生成(user profiling)?
-
如何解决 LLM 推荐中的 hallucination 问题?
-
如何利用 RAG + 推荐系统?
-
在生成式推荐中如何解决 实时性问题?
Agent+OpenClaw 相关
-
在 OpenClaw 中,如果 Skill 数量达到 1 万+,如何设计 Skill 检索与选择算法,避免每次都遍历全部 Skill?
-
如何将用户任务描述 → Skill 检索问题?常见的 embedding / retrieval 方法有哪些?
-
Agent 如何将复杂任务拆解为 多步子任务(task decomposition)?
-
如何利用历史执行数据(成功率 / latency / cost) 来优化 Skill 选择策略?
-
Tool Calling / Function Calling 的实现原理是什么?
-
Agent 如何进行多轮任务规划(Task Planning)?
-
如何解决 Agent 中的工具选择错误问题?
-
在 Agent 系统中如何设计memory机制?
更多推荐

所有评论(0)