
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
超节点FSDP2训练MoE大模型昇腾联创设计(下)
为了进一步挖掘 XTuner V1 训练方案的上限,实验室研究团队与华为昇腾技术团队在 Ascend A3 超节点上进行联合优化,充分利用超节点硬件特性,FSDP2首次在Qwen 235B MoE上实现了相比传统3D并行更高的 MFU(Model FLOPS Utilization,模型浮点运算利用率)。在理论算力落后 NVIDIA H800 近 20% 的情况下,最终实现训练吞吐超过 H800

超节点FSDP2训练MoE大模型昇腾联创设计(上)
2025年9月8日,上海人工智能实验室开源书生大模型新一代训练引擎XTuner V1。XTuner V1 是伴随上海AI实验室“通专融合”技术路线的持续演进,以及书生大模型研发实践而成长起来的新一代训练引擎。相较于传统的 3D 并行训练引擎,XTuner V1 不仅能应对更加复杂的训练场景,还具备更快的训练速度,尤其在超大规模稀疏混合专家(MoE)模型训练中优势显著。

一节课掌握MlaProlog融合算子高效开发技巧
借助ops-transformer开源仓代码,讲解MlaProlog融合算子的计算流程及设计方法

代码高手留步!鲲鹏社区任务上新!一边写代码一边把奖品拿了!
鲲鹏BoostKit社区任务全网招募!通关奖励已就位!
【CANN训练营】如何玩转社区任务?大神带路全流程演示讲解
以Pow算子为例介绍社区任务挑战流程,包括接取任务、获取环境、算子设计、算子开 发、提交验收等全流程演示讲解。

【鲲鹏BoostKit训练营】实践课:提升搜推广业务性能
鲲鹏BoostKit搜推广场景致力于为互联网领域的搜索、推荐与广告业务场景提供基于鲲鹏平台的全栈加速能力。

【鲲鹏BoostKit训练营】实践课:正则表达库优化实操
实现鲲鹏平台Hypserscan软件包的安装部署,体验性能加速效果。

【鲲鹏BoostKit训练营】实践课:大数据引擎性能优化
手把手实操教学大数据OmniOperator算子加速特性实验

到底了









