
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
09 SFT Training Loop
预训练阶段,模型的任务是"给定前文,预测下一个字"。训练数据是一本一本书、一篇文章一篇文章——每一个 token 都要算 Loss,因为模型需要学会语言本身的规律。SFT 阶段完全不同。我们的目标是:模型看到 Prompt 后,能输出 Response。如果你把 Prompt 和 Response 一起送进 CrossEntropyLoss,模型会干嘛?
05 LLaMA3 Block — 从零件到发动机
输入: x ∈ R^{B×S×d}↑ ↑ ↑残差 位置编码 Pre-NormMLP Block:↑ ↑ ↑残差 门控MLP Pre-Norm。
00 PyTorch_Warmup
在 NLP 中,每个词(token)用一个整数 ID 表示,比如 “猫” = 42,“狗” = 108。但神经网络不能直接处理整数——它需要稠密向量(比如 64 维的浮点数数组)。把整数 ID 映射成对应的向量。求导目标中间导数求和维度矩阵形式代码核心直觉grad_x∂zij∂xikWjk∂xik∂zijWjkj(输出维度)grad_z @ W上游梯度通过权重"路由"回输入grad_W∂z
到底了







