
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
DeepSeek开源周合集
DeepSeek认知之旅》文档链接:https://kcnrgc2yrax7.feishu.cn/docx/AJo5dVRS7ortyEx1OW8cX9KBngd?DualPipe:新的双向管道并行算法,用于实现训练中的计算-通信重叠。核心代码仅约300行,在大多数矩阵尺寸下优于其它面向MOE优化的内核。EPLB:用于V3和R1的专家负载均衡器,层次负载均衡+全局负载均衡。周一:FlashMLA,
DeepSeek认知之旅
DeepSeek《认知之旅》记录了DeepSeek V3/R1相关的8篇核心论文,以及最新的原生可训练稀疏注意力机制NSA论文中描述的关键要点,以时间顺序按脑图的形式整理到白板文件中,供大家学习使用。其中每篇论文的脑图都记录了对应的研究背景、核心贡献、研究方法、评估结果以及一些非常重要的讨论和洞见,用全局视角从这份文件中或可窥得DeepSeek获得如此巨大成功的一些小线索。2025-02-24开源
DeepSeek认知之旅+DeepSeek开源周大合集
DeepSeek认知之旅》记录了DeepSeek V3/R1相关的8篇核心论文,以及最新的NSA中论文中描述的关键要点,以时间顺序按脑图的形式整理到白板文件中,供大家学习使用。DeepSeek开源周第五弹:3FS+Smallpond,3FS是V3/R1高效训练和推理过程中的提供海量数据吞吐的新型分布式文件系统,Smallpond的对应的数据分析工具;DeepSeek开源周第三弹:DeepGEMM,
到底了







