
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
**摘要:**昇腾NPU通过优化FlashAttention实现大模型训练加速。在Ascend 910上,LLaMA-13B模型的训练速度从1200 tokens/s提升至3500 tokens/s,显存占用从18GB降至6GB。该优化基于分块计算和Ascend C重写核心算法,减少HBM访问次数。实测显示,4096序列长度下单步训练时间从520ms降至180ms,收敛速度也因平滑Softmax而

**摘要:**昇腾NPU通过优化FlashAttention实现大模型训练加速。在Ascend 910上,LLaMA-13B模型的训练速度从1200 tokens/s提升至3500 tokens/s,显存占用从18GB降至6GB。该优化基于分块计算和Ascend C重写核心算法,减少HBM访问次数。实测显示,4096序列长度下单步训练时间从520ms降至180ms,收敛速度也因平滑Softmax而

**摘要:**昇腾NPU通过优化FlashAttention实现大模型训练加速。在Ascend 910上,LLaMA-13B模型的训练速度从1200 tokens/s提升至3500 tokens/s,显存占用从18GB降至6GB。该优化基于分块计算和Ascend C重写核心算法,减少HBM访问次数。实测显示,4096序列长度下单步训练时间从520ms降至180ms,收敛速度也因平滑Softmax而

昇腾CANN社区发布ops-math算子库贡献指南,帮助开发者高效参与开源项目。该指南详细介绍了6步贡献流程:从Fork仓库、签署CLA、编写代码和测试用例,到提交PR和等待审核。重点强调了代码规范(中文注释、命名规则)和性能要求(需达到PyTorch原生算子的1.5-2倍速度)。文中特别提醒新手注意CLA必须手签、测试需覆盖边界情况等常见问题,并提供了性能测试方法和问题解答。该指南旨在降低贡献门

昇腾CANN社区发布ops-math算子库贡献指南,帮助开发者高效参与开源项目。该指南详细介绍了6步贡献流程:从Fork仓库、签署CLA、编写代码和测试用例,到提交PR和等待审核。重点强调了代码规范(中文注释、命名规则)和性能要求(需达到PyTorch原生算子的1.5-2倍速度)。文中特别提醒新手注意CLA必须手签、测试需覆盖边界情况等常见问题,并提供了性能测试方法和问题解答。该指南旨在降低贡献门

昇腾CANN社区发布ops-math算子库贡献指南,帮助开发者高效参与开源项目。该指南详细介绍了6步贡献流程:从Fork仓库、签署CLA、编写代码和测试用例,到提交PR和等待审核。重点强调了代码规范(中文注释、命名规则)和性能要求(需达到PyTorch原生算子的1.5-2倍速度)。文中特别提醒新手注意CLA必须手签、测试需覆盖边界情况等常见问题,并提供了性能测试方法和问题解答。该指南旨在降低贡献门

**核心逻辑**:通过软件模拟`Issue Queue`,分析不同流水线(如向量计算PIPE V EXC、矩阵计算PIPE M EXC)的指令依赖,自动乱序调度无依赖指令,并跨多层循环预取数据搬运指令。同时支持用户自定义融合规则(如ResNet的卷积+BN+激活融合)。- **性能收益**:消除流水线“气泡”(无效等待),AI Core流水线并行度提升,ResNet50训练性能优化20%。- **

摘要:华为昇腾AI开发者课程提供全栈AI开发培训,涵盖模型训练到推理部署全流程。课程特色包括工业级案例实战和昇腾处理器性能优化技术。详细配置指南包含Ubuntu系统环境搭建、CANN工具包安装及验证步骤。核心技术内容涉及ResNet-50模型训练实现、ONNX模型转换流程、AscendCL高性能推理代码示例,以及AOE自动优化工具和混合精度训练等高级调优方法。配套错误排查手册提供常见问题解决方案和

2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0基础入门系列、码力全开特辑、开发者案例等专题课程,助力不同阶段开发者快速提升算子开发技能。获得Ascend C算子中级认证,即可领取精美证书,完成社区任务更有机会赢取华为手机,平板、开发板等大奖。报名链接:https://www.hiascend.com/developer/activities/cann20252。以BERT为

华为昇腾AI处理器凭借全栈协同优化能力成为AI算力核心引擎,其底层CANN软件栈中的基础计算层(HAL)是关键支撑。HAL包含五大核心组件:RMS实现微秒级资源调度,CMS提供高效通信支持,DMS负责设备全生命周期管理,DRV执行硬件操作,UTILITY提供公共服务。该架构通过模块化设计实现性能优化、可靠性保障和全场景适配,支持算力利用率提升20%以上,通信延迟降低40%,为昇腾AI生态提供坚实的








