logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【LLM技术总结】DeepSeek训练篇

系列综述:💞目的:本系列是个人整理为了学习的,整理期间苛求每个知识点,平衡理解简易度与深入程度。🥰来源:材料主要源于进行的,每个知识点的修正和深入主要参考各平台大佬的文章,其中也可能含有少量的个人实验自证。🤭结语:如果有帮到你的地方,就和!!🌈!!!

文章图片
【LLM技术总结】DeepSeek基础架构篇

😊点此到文末惊喜↩︎压缩:将 ht\mathbf{h}_tht​ 通过 WDKV\mathbf{W}^{DKV}WDKV被为更紧凑的 ctKV\mathbf{c}^{KV}_tctKV​ ctKV=WDKVht(1)\mathbf{c}^{KV}_t = \mathbf{W}^{DKV} \mathbf{h}_t \quad \tag{1}ctKV​=WDKVht​(1),其中 WDKV\mat

文章图片
【LLM基础】Megatron-LM相关知识(主要是张量并行机制)

😊点此到文末惊喜↩︎​ 用于防止点积结果过大导致Softmax梯度消失Attention_Scoreh=QhKhTdk\text{Attention\_Score}_h = \frac{Q_h K_h^T}{\sqrt{d_k}}Attention_Scoreh​=dk​​Qh​KhT​​Dropout:以概率pdropp_{drop}pdrop​(例如0.1或0.2)随机将注意力分数矩阵中的部

文章图片
#分布式
【LLM基础】DeepSpeed基础知识

系列综述:💞目的:本系列是个人整理为了学习DeepSpeed的,整理期间苛求每个知识点,平衡理解简易度与深入程度。🥰来源:材料主要源于``进行的,每个知识点的修正和深入主要参考各平台大佬的文章,其中也可能含有少量的个人实验自证。🤭结语:如果有帮到你的地方,就和!!!!,后续继续完善和扩充👍(●’◡’●)

文章图片
#深度学习#spring boot
DeepSeek-mHC深度拆解:流形约束如何驯服狂暴的超连接?

摘要: DeepSeek团队提出的流形约束超连接(mHC)技术,通过将超连接(HC)的无约束连接矩阵投影到双随机矩阵流形,解决了大模型训练中的稳定性与性能矛盾。mHC在保留多流架构表达能力的同时,修复了恒等映射属性,使信号增益从HC的3000倍降至1.6倍,实现平稳收敛。结合内核融合等工程优化,额外开销仅6.7%。实验显示,mHC在27B参数模型上全面超越基线,推理任务性能提升1.6%-2.3%,

文章图片
#人工智能
【LLM训练框架】DeepSeek DualPipe原理详解

系列综述:💞目的:本系列是个人整理为了学习训练框架优化的,整理期间苛求每个知识点,平衡理解简易度与深入程度。🥰来源:材料主要源于进行的,每个知识点的修正和深入主要参考各平台大佬的文章,其中也可能含有少量的个人实验自证。🤭结语:如果有帮到你的地方,就和!!!!,后续继续完善和扩充👍(●’◡’●)

文章图片
#深度学习#分布式
【LLM训练框架】DeepSeek EPLB原理详解

MOE并行系列综述:💞目的:本系列是个人整理为了学习训练框架优化的,整理期间苛求每个知识点,平衡理解简易度与深入程度。🥰来源:材料主要源于进行的,每个知识点的修正和深入主要参考各平台大佬的文章,其中也可能含有少量的个人实验自证。🤭结语:如果有帮到你的地方,就和!!!!,后续继续完善和扩充👍(●’◡’●)

文章图片
【JupyterLab集成】GPU性能监控可视化组件

8.代码(有一些接口函数名称不正确,需要确认依赖库的版本)昇腾MindX DL的模型资源监控插件。昇腾MindX DL的模型资源监控插件。整个机器的GPU资源。

文章图片
#人工智能#华为云
【AI Infra面试】基础学习汇总篇

系列综述:💞目的:本系列是个人整理为了学习训练框架优化的,整理期间苛求每个知识点,平衡理解简易度与深入程度。🥰来源:材料主要源于进行的,每个知识点的修正和深入主要参考各平台大佬的文章,其中也可能含有少量的个人实验自证。🤭结语:如果有帮到你的地方,就和!!!!,后续继续完善和扩充👍(●’◡’●)

#人工智能#学习
    共 29 条
  • 1
  • 2
  • 3
  • 请选择