
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
【大模型面试每日一题】Day 24:假设训练资源有限,如何在模型参数量、训练数据量和训练时长三者间做权衡?
假设训练资源有限,如何在模型参数量、训练数据量和训练时长三者间做权衡?

【大模型面试每日一题】Day 27:自注意力机制中Q/K/V矩阵的作用与缩放因子原理
自注意力机制中Q/K/V矩阵的作用与缩放因子原理

【大模型面试每日一题】Day 21:对比Chain-of-Thought(CoT)与Self-Consistency在复杂推理任务中的优劣
CoT通过单一路径生成推理链,具有低计算成本和强可解释性,但容易因单步错误导致最终错误。Self-Consistency则通过多路径生成和集成,提升了准确性,尤其在复杂任务中表现更优,但计算成本较高。CoT适用于简单任务和实时交互场景,而Self-Consistency更适合高价值决策任务。两者在推理机制、计算成本和适用场景上各有优劣,选择时需根据具体需求权衡效率与精度。

【大模型面试每日一题】Day 8:为什么大模型普遍使用 LayerNorm 而非 BatchNorm?二者的核心区别是什么?
【大模型面试每日一题】Day 8:为什么大模型普遍使用 LayerNorm 而非 BatchNorm?二者的核心区别是什么?

【大模型面试每日一题】Day 7:为什么大模型训练选择 Adam 而非 SGD?Adam 的关键改进是什么?
【大模型面试每日一题】Day 7:为什么大模型训练选择 Adam 而非 SGD?Adam 的关键改进是什么?

【大模型面试每日一题】Day 17:解释MoE(Mixture of Experts)架构如何实现模型稀疏性,并分析其训练难点
MoE(Mixture of Experts)架构通过动态专家选择实现模型稀疏性,具体机制包括Top-k门控、参数隔离和动态路由。

【大模型面试每日一题】Day 12:梯度裁剪(Gradient Clipping)的作用是什么?在Transformer中哪些场景下尤为重要?
【大模型面试每日一题】Day 12:梯度裁剪(Gradient Clipping)的作用是什么?在Transformer中哪些场景下尤为重要?

【大模型面试每日一题】Day 9:BERT 的 MLM 和 GPT 的 Next Token Prediction 有什么区别?
【大模型面试每日一题】Day 9:BERT 的 MLM 和 GPT 的 Next Token Prediction 有什么区别?

【大模型面试每日一题】Day 28:AdamW 相比 Adam 的核心改进是什么?
AdamW 相比 Adam 的核心改进是什么?

【大模型面试每日一题】Day 16:为什么SwiGLU激活函数在LLaMA等模型中取代ReLU?从梯度和稀疏性角度分析
【大模型面试每日一题】Day 16:为什么SwiGLU激活函数在LLaMA等模型中取代ReLU?从梯度和稀疏性角度分析








