logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

DeepSeek开源周合集

DeepSeek认知之旅》文档链接:https://kcnrgc2yrax7.feishu.cn/docx/AJo5dVRS7ortyEx1OW8cX9KBngd?DualPipe:新的双向管道并行算法,用于实现训练中的计算-通信重叠。核心代码仅约300行,在大多数矩阵尺寸下优于其它面向MOE优化的内核。EPLB:用于V3和R1的专家负载均衡器,层次负载均衡+全局负载均衡。周一:FlashMLA,

#人工智能#transformer#python +2
DeepSeek认知之旅

DeepSeek《认知之旅》记录了DeepSeek V3/R1相关的8篇核心论文,以及最新的原生可训练稀疏注意力机制NSA论文中描述的关键要点,以时间顺序按脑图的形式整理到白板文件中,供大家学习使用。其中每篇论文的脑图都记录了对应的研究背景、核心贡献、研究方法、评估结果以及一些非常重要的讨论和洞见,用全局视角从这份文件中或可窥得DeepSeek获得如此巨大成功的一些小线索。2025-02-24开源

#人工智能#transformer
DeepSeek认知之旅+DeepSeek开源周大合集

DeepSeek认知之旅》记录了DeepSeek V3/R1相关的8篇核心论文,以及最新的NSA中论文中描述的关键要点,以时间顺序按脑图的形式整理到白板文件中,供大家学习使用。DeepSeek开源周第五弹:3FS+Smallpond,3FS是V3/R1高效训练和推理过程中的提供海量数据吞吐的新型分布式文件系统,Smallpond的对应的数据分析工具;DeepSeek开源周第三弹:DeepGEMM,

#开源
到底了