logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【昇腾CANN训练营·算力篇】唤醒沉睡的野兽:Ascend C 调用 Cube 单元加速矩阵运算

调用 Cube 单元是 Ascend C 开发的分水岭。思维转变:从“线性处理”转变为“块状处理”(Block-based)。格式敬畏:时刻谨记 16x16 对齐,理解 Fractal 格式的必要性。异构协同:Cube 负责重火力(MatMul),Vector 负责精细操作(Bias, ReLU),两者通过 UB 紧密配合。当你开始用 Cube 思考问题,你才真正触摸到了昇腾 910B 的灵魂。

文章图片
#昇腾
【昇腾CANN训练营·算法篇】寻找消失的除法器:Newton Iteration 与高精度数学计算的艺术

摘要:2025年昇腾CANN训练营第二季提供0基础入门、开发者案例等专题课程,助力开发者提升算子开发技能,完成认证可获证书及奖品。在AI计算中,除法运算通过查表结合牛顿迭代法实现,将A/B转化为A×(1/B),相比直接硬件除法更高效。文章详解了达芬奇架构中SFU单元的工作原理,包括查表初值获取和牛顿迭代过程,并给出AscendC中的优化实践,如使用RSqrt指令加速LayerNorm运算。同时指出

文章图片
#昇腾
【昇腾CANN训练营·算法篇】寻找消失的除法器:Newton Iteration 与高精度数学计算的艺术

摘要:2025年昇腾CANN训练营第二季提供0基础入门、开发者案例等专题课程,助力开发者提升算子开发技能,完成认证可获证书及奖品。在AI计算中,除法运算通过查表结合牛顿迭代法实现,将A/B转化为A×(1/B),相比直接硬件除法更高效。文章详解了达芬奇架构中SFU单元的工作原理,包括查表初值获取和牛顿迭代过程,并给出AscendC中的优化实践,如使用RSqrt指令加速LayerNorm运算。同时指出

文章图片
#昇腾
【昇腾CANN训练营·算法篇】寻找消失的除法器:Newton Iteration 与高精度数学计算的艺术

摘要:2025年昇腾CANN训练营第二季提供0基础入门、开发者案例等专题课程,助力开发者提升算子开发技能,完成认证可获证书及奖品。在AI计算中,除法运算通过查表结合牛顿迭代法实现,将A/B转化为A×(1/B),相比直接硬件除法更高效。文章详解了达芬奇架构中SFU单元的工作原理,包括查表初值获取和牛顿迭代过程,并给出AscendC中的优化实践,如使用RSqrt指令加速LayerNorm运算。同时指出

文章图片
#昇腾
【昇腾CANN训练营·同步篇】驾驭无序之马:深入解析 PipeBarrier 与指令流水的同步哲学

摘要:昇腾NPU的DaVinci架构采用全异步设计,Scalar单元快速发射指令,而Vector/Cube单元执行较慢,易引发RAW/WAR数据冒险。文章解析PipeBarrier机制,指出其仅暂停Scalar向指定管道发射新指令,而非阻塞所有单元。通过TQue队列管理大部分依赖,仅在跨管道交互、Scalar读写UB等场景需手动同步。强调过度同步会严重降低性能,建议信任TQue、延迟等待和批量同步

文章图片
#昇腾
【昇腾CANN训练营·同步篇】驾驭无序之马:深入解析 PipeBarrier 与指令流水的同步哲学

摘要:昇腾NPU的DaVinci架构采用全异步设计,Scalar单元快速发射指令,而Vector/Cube单元执行较慢,易引发RAW/WAR数据冒险。文章解析PipeBarrier机制,指出其仅暂停Scalar向指定管道发射新指令,而非阻塞所有单元。通过TQue队列管理大部分依赖,仅在跨管道交互、Scalar读写UB等场景需手动同步。强调过度同步会严重降低性能,建议信任TQue、延迟等待和批量同步

文章图片
#昇腾
【昇腾CANN训练营·性能篇】强迫症的胜利:深度解析 32-Byte 内存对齐与 Burst 性能哲学

内存对齐是 Ascend C 性能优化的基石。强迫症是好事:时刻保持 32 Byte 的敏感度。看到非对齐的地址就要警铃大作。空间换时间:通过 Host 侧多分配一点显存(Padding),换取 Device 侧 MTE 的全速 Burst 传输。整体设计:从模型层面的 Tensor 分配,到 Tiling 策略,再到 Kernel 实现,必须全链路贯穿对齐思想。当你不再为处理剩下的 3 个字节而

文章图片
#昇腾
【昇腾CANN训练营·性能篇】强迫症的胜利:深度解析 32-Byte 内存对齐与 Burst 性能哲学

内存对齐是 Ascend C 性能优化的基石。强迫症是好事:时刻保持 32 Byte 的敏感度。看到非对齐的地址就要警铃大作。空间换时间:通过 Host 侧多分配一点显存(Padding),换取 Device 侧 MTE 的全速 Burst 传输。整体设计:从模型层面的 Tensor 分配,到 Tiling 策略,再到 Kernel 实现,必须全链路贯穿对齐思想。当你不再为处理剩下的 3 个字节而

文章图片
#昇腾
【昇腾CANN训练营·微架构篇】被忽视的指挥官:Scalar 单元如何决定算子流水线的生死

摘要:2025年昇腾CANN训练营第二季推出系列课程,助力开发者提升算子开发技能,完成认证可获证书及华为奖品。本文聚焦AscendC算子开发中常被忽视的Scalar单元性能优化问题,揭示了控制流与计算流的解耦机制。文章分析了Scalar单元成为性能瓶颈的原因,指出复杂的标量计算会导致NPU流水线停顿,并提出三大优化方案:减少Vector与Scalar交互、预计算复杂运算、简化循环内计算。通过代码实

文章图片
#昇腾
【昇腾CANN训练营·微架构篇】被忽视的指挥官:Scalar 单元如何决定算子流水线的生死

摘要:2025年昇腾CANN训练营第二季推出系列课程,助力开发者提升算子开发技能,完成认证可获证书及华为奖品。本文聚焦AscendC算子开发中常被忽视的Scalar单元性能优化问题,揭示了控制流与计算流的解耦机制。文章分析了Scalar单元成为性能瓶颈的原因,指出复杂的标量计算会导致NPU流水线停顿,并提出三大优化方案:减少Vector与Scalar交互、预计算复杂运算、简化循环内计算。通过代码实

文章图片
#昇腾
    共 155 条
  • 1
  • 2
  • 3
  • 16
  • 请选择