登录社区云,与社区用户共同成长
邀请您加入社区
本文系统阐述了深度学习核心算子矩阵乘法在昇腾NPU上的全链路优化方法。作者基于13年高性能计算经验,详细解析了从数学原理到硬件映射的优化体系,重点介绍了CANN软件栈通过分块策略、流水线并行和内存层级优化将NPU计算单元利用率从25%提升至85%的关键技术。文章包含完整的AscendC MatMul算子实现流程,涵盖基础实现到极致优化的五个阶段,并分享了千亿参数大模型训练中的典型性能陷阱解决方案。
系列直播回放及材料链接:CANN - 开源代码托管,代码协作 - AtomGit | GitCode 以前写算子要走写‑跑‑调‑测四步循环,常常调半天也达不到性能要求。 这次 CANN 把算子编程、运行时调度、性能调优三个环节一次性升级,助力开发者体验升级: 几行代码实现Transpose、Pad和Slice等搬运算子一次下发,批量调度,算子跑得更稳调试时直接看到卡在哪儿 从此不再为“搬运太多、同
PTO(Parallel Tile Operation)是昇腾 CANN 定义的一套面向 tile 编程的虚拟 ISA。如果你还不了解 PTO 的 Tile 概念和整体设计思路,推荐先阅读《浅谈昇腾虚拟指令集 PTO》系列。本文聚焦 PTO ISA 的通信扩展指令集——当计算从单卡走向多卡,数据搬运的故事就从”核内物流”升级成了”城际运输”。 一、单卡是工厂,多卡就是工业园区 前几篇文章里,我们把
在PTO的设计里面,AIV 通过 TPUT_AYSNC 指令,把搬运任务转换成向 SDMA 硬件提交的传输描述符——相当于你把包裹和地址填好,交给快递员,然后回去继续工作。),如果是极小块的数据和较短的传输距离,可能还不如你自己送得快。CCU 是950代际新增的集合通信处理器单元,更像一个专门的分拣中心,你把货扔过去,它在内部完成归拢和分发。从此,计算与通信不再是割裂的两个孤岛,而是统一编程模型下
CANN
——CANN
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net