深鱼~ 个人主页

本文深度解析昇腾CANN开源仓架构设计与核心能力，分享13年异构计算实战经验。内容涵盖CANN分层架构、AscendC核函数开发、性能优化方法论，提供完整编译部署指南与故障排查方案。关键亮点包括：1）软硬协同的CANN中枢架构解析；2）SPMD并行编程实战案例；3）内存对齐/算子融合等性能调优技巧；4）msprof工具链深度使用方法。通过实测数据展示GroupGEMM算子性能提升23.5%的优化过

Catlass实际架构包括：Device层屏蔽Host调用差异，Kernel层实现并行逻辑（如AICore上BlockTileM/BlockTileN循环），Block层封装BlockMmad（矩阵乘累加）、BlockEpilogue（后处理）等组件，Tile层支持灵活分片设置，Basic层对接昇腾硬件指令（如AscendC::Mmad）：GroupGEMM的精髓在于“一次内核启动处理所有矩阵组”

【数据结构】LRUCache|并查集

LRU是Least Recently Used的缩写，意思是最近最少使用，它是一种Cache替换算法。狭义的Cache指的是位于CPU和主存间的快速RAM，通常它不像系统主存那样使用DRAM技术，而使用昂贵但较快速的SRAM技术。广义上的Cache指的是位于速度相差较大的两种硬件之间，用于协调两者数据传输速度差异的结构。除了CPU与主存之间有Cache，内存与硬盘之间也有Cache，乃至在硬

#数据结构