logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

超节点FSDP2训练MoE大模型昇腾联创设计(下)

为了进一步挖掘 XTuner V1 训练方案的上限,实验室研究团队与华为昇腾技术团队在 Ascend A3 超节点上进行联合优化,充分利用超节点硬件特性,FSDP2首次在Qwen 235B MoE上实现了相比传统3D并行更高的 MFU(Model FLOPS Utilization,模型浮点运算利用率)。在理论算力落后 NVIDIA H800 近 20% 的情况下,最终实现训练吞吐超过 H800

文章图片
#深度学习#人工智能
超节点FSDP2训练MoE大模型昇腾联创设计(上)

2025年9月8日,上海人工智能实验室开源书生大模型新一代训练引擎XTuner V1。XTuner V1 是伴随上海AI实验室“通专融合”技术路线的持续演进,以及书生大模型研发实践而成长起来的新一代训练引擎。相较于传统的 3D 并行训练引擎,XTuner V1 不仅能应对更加复杂的训练场景,还具备更快的训练速度,尤其在超大规模稀疏混合专家(MoE)模型训练中优势显著。

文章图片
#人工智能
一节课掌握MlaProlog融合算子高效开发技巧

借助ops-transformer开源仓代码,讲解MlaProlog融合算子的计算流程及设计方法

文章图片
#昇腾#CANN#开源 +2
【CANN训练营】如何玩转社区任务?大神带路全流程演示讲解

以Pow算子为例介绍社区任务挑战流程,包括接取任务、获取环境、算子设计、算子开 发、提交验收等全流程演示讲解。

文章图片
#昇腾#昇腾AI大模型#开源 +2
【鲲鹏BoostKit训练营】实践课:提升搜推广业务性能

鲲鹏BoostKit搜推广场景致力于为互联网领域的搜索、推荐与广告业务场景提供基于鲲鹏平台的全栈加速能力。

文章图片
#鲲鹏开发者#BoostKit
【鲲鹏BoostKit训练营】实践课:正则表达库优化实操

实现鲲鹏平台Hypserscan软件包的安装部署,体验性能加速效果。

文章图片
#鲲鹏开发者#BoostKit
【鲲鹏BoostKit训练营】实践课:大数据引擎性能优化

手把手实操教学大数据OmniOperator算子加速特性实验

文章图片
到底了