
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
系列综述:💞目的:本系列是个人整理为了学习的,整理期间苛求每个知识点,平衡理解简易度与深入程度。🥰来源:材料主要源于进行的,每个知识点的修正和深入主要参考各平台大佬的文章,其中也可能含有少量的个人实验自证。🤭结语:如果有帮到你的地方,就和!!🌈!!!

😊点此到文末惊喜↩︎压缩:将 ht\mathbf{h}_tht 通过 WDKV\mathbf{W}^{DKV}WDKV被为更紧凑的 ctKV\mathbf{c}^{KV}_tctKV ctKV=WDKVht(1)\mathbf{c}^{KV}_t = \mathbf{W}^{DKV} \mathbf{h}_t \quad \tag{1}ctKV=WDKVht(1),其中 WDKV\mat

😊点此到文末惊喜↩︎ 用于防止点积结果过大导致Softmax梯度消失Attention_Scoreh=QhKhTdk\text{Attention\_Score}_h = \frac{Q_h K_h^T}{\sqrt{d_k}}Attention_Scoreh=dkQhKhTDropout:以概率pdropp_{drop}pdrop(例如0.1或0.2)随机将注意力分数矩阵中的部

系列综述:💞目的:本系列是个人整理为了学习DeepSpeed的,整理期间苛求每个知识点,平衡理解简易度与深入程度。🥰来源:材料主要源于``进行的,每个知识点的修正和深入主要参考各平台大佬的文章,其中也可能含有少量的个人实验自证。🤭结语:如果有帮到你的地方,就和!!!!,后续继续完善和扩充👍(●’◡’●)

摘要: DeepSeek团队提出的流形约束超连接(mHC)技术,通过将超连接(HC)的无约束连接矩阵投影到双随机矩阵流形,解决了大模型训练中的稳定性与性能矛盾。mHC在保留多流架构表达能力的同时,修复了恒等映射属性,使信号增益从HC的3000倍降至1.6倍,实现平稳收敛。结合内核融合等工程优化,额外开销仅6.7%。实验显示,mHC在27B参数模型上全面超越基线,推理任务性能提升1.6%-2.3%,

系列综述:💞目的:本系列是个人整理为了学习训练框架优化的,整理期间苛求每个知识点,平衡理解简易度与深入程度。🥰来源:材料主要源于进行的,每个知识点的修正和深入主要参考各平台大佬的文章,其中也可能含有少量的个人实验自证。🤭结语:如果有帮到你的地方,就和!!!!,后续继续完善和扩充👍(●’◡’●)

MOE并行系列综述:💞目的:本系列是个人整理为了学习训练框架优化的,整理期间苛求每个知识点,平衡理解简易度与深入程度。🥰来源:材料主要源于进行的,每个知识点的修正和深入主要参考各平台大佬的文章,其中也可能含有少量的个人实验自证。🤭结语:如果有帮到你的地方,就和!!!!,后续继续完善和扩充👍(●’◡’●)

notebook配置。

8.代码(有一些接口函数名称不正确,需要确认依赖库的版本)昇腾MindX DL的模型资源监控插件。昇腾MindX DL的模型资源监控插件。整个机器的GPU资源。

系列综述:💞目的:本系列是个人整理为了学习训练框架优化的,整理期间苛求每个知识点,平衡理解简易度与深入程度。🥰来源:材料主要源于进行的,每个知识点的修正和深入主要参考各平台大佬的文章,其中也可能含有少量的个人实验自证。🤭结语:如果有帮到你的地方,就和!!!!,后续继续完善和扩充👍(●’◡’●)







