《DeepSeek认知之旅》记录了DeepSeek V3/R1相关的8篇核心论文,以及最新的NSA中论文中描述的关键要点,以时间顺序按脑图的形式整理到白板文件中,供大家学习使用。
其中每篇论文的脑图都记录了对应的研究主题、研究背景、核心贡献、研究方法以及一些非常重要的讨论和洞见,用全局视角从这份文件中或可窥得DeepSeek获得如此巨大成功的一些小线索。 
《DeepSeek认知之旅》白板链接:https://kcnrgc2yrax7.feishu.cn/docx/AJo5dVRS7ortyEx1OW8cX9KBngd?openbrd=1&doc_app_id=501&blockId=doxcncVubbqQeHtN9klREuWVgUQ&blockType=whiteboard&blockToken=KrGqwrZKDh2PkpbNR6hcWn2Rn7b#doxcncVubbqQeHtN9klREuWVgUQ

DeepSeek开源周第一弹:FlashMLA,一个针对HopperGPU的高效MLA解码内核,核心成就:GPU带宽利用接近理论极限,算力利用效率翻倍; 

DeepSeek开源周第二弹:DeepEP,一个高效的MOE架构专家并行通信库;
支持高效且优化后的全对全通信
使用NVlink和RDMA进行节点内和节点间通信
用于训练和推理填充的高吞吐量内核
用于推理解码的低延迟内核
原生支持FP8操作实现灵活的GPU资源控制,实现计算与通信重叠

DeepSeek开源周第三弹:DeepGEMM,一个通用的GEMM广义矩阵乘法库,支持FP8精度,V3和R1高效训练和推理的武器之一;
同时支持Dense密集架构和MOE稀疏架构
完全支持JIT(Just-In-Time)实时编译,无需预编译
专为NVIDIA Hopper Tensor Core设计,解决FP8累加精度不准问题
核心代码仅约300行,在大多数矩阵尺寸下优于其它面向MOE优化的内核

DeepSeek开源周第四弹:一组专家专家并行的核心算法DualPipe+EPLB,及性能分析数据包
DualPipe:创新的双向管道并行算法,用于实现训练中的计算-通信重叠
EPLB:用于V3和R1的专家负载均衡器,层次负载均衡+全局负载均衡
性能分析数据包:V3和R1的训练推理过程中的性能分析数据,包含DualPipe和EPLB的底层实现细节

DeepSeek开源周第五弹:3FS+Smallpond,3FS是V3/R1高效训练和推理过程中的提供海量数据吞吐的新型分布式文件系统,Smallpond的对应的数据分析工具;
3FS-高性能分布式文件系统,专为AI训练和推理工作负载设计;
180节点集群聚合读取吞吐量:6.6TiB/s;
25节点集群,GraySort基准测试吞吐量:3.66TiB/m; 

另补充了资深NLP算法专家对开源周项目的的深度解析,供大家进行深入探索,enjoy! 

开源周完结,希望我们在追寻理想主义者脚步的路上再次遇见,再会! 

《DeepSeek认知之旅》白板链接:https://kcnrgc2yrax7.feishu.cn/docx/AJo5dVRS7ortyEx1OW8cX9KBngd?openbrd=1&doc_app_id=501&blockId=doxcncVubbqQeHtN9klREuWVgUQ&blockType=whiteboard&blockToken=KrGqwrZKDh2PkpbNR6hcWn2Rn7b#doxcncVubbqQeHtN9klREuWVgUQ

Logo

欢迎加入我们的广州开发者社区,与优秀的开发者共同成长!

更多推荐