2501_94163896 个人主页

@2501_94163896

2501_94163896

2025-11-19 13:41:42 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

Cube MatMul：为什么矩阵乘法选了 Cube 而不是 Vector

本文介绍了基于昇腾NPU的Cube MatMul矩阵乘法优化技术。通过Cube Unit硬件单元实现16×16×16的FP16矩阵乘累加，配合Tiling分块策略将大矩阵分解为小块计算，充分利用192KB L1缓存。文章重点阐述了K维度循环累积的优化思路，以及MatMul与Bias Add、Activation等操作的算子融合技术，可提升约30%性能。最后提供了昇腾CANN相关算子库的参考资源。

#矩阵 #python #pytorch

ops-tensor 与 Tensor Layout：数据排布如何影响昇腾推理性能

Tensor布局对NPU性能影响显著，不同内存排列方式可带来5倍性能差异。CANN的ops-tensor库专门处理Tensor格式转换，根据NPU硬件偏好自动优化布局。核心格式包括标准连续排列的ND格式和昇腾特有的分块NZ格式，后者与矩阵乘单元完美匹配但转换存在开销。GE图优化器会权衡转换成本与收益，针对不同算子类型和模型结构（如LLaMA与ResNet）制定差异化策略。实测显示NZ格式转换会降低

#人工智能

DMA：NPU 上的数据搬运为什么比 CPU 快几十倍

本文探讨了昇腾NPU中DMA数据搬运技术的关键优势。通过对比CPU的memcpy（32GB/s）与NPU的DMA引擎（200GB/s），揭示了DMA在AI推理中的6倍带宽优势。文章详细解析了DMA的硬件链路和工作原理，包括其非阻塞特性、burst传输机制（比CPU指令搬运快7倍）以及运行时调度策略。特别以大模型LLaMA-7B为例，展示了DMA如何高效处理数百MB的权重和激活值搬运，将理论搬运时间

#android

ops-conv：卷积算子从 CPU 到昇腾 NPU 的优化之路

《卷积算子在AI计算中的核心地位与优化实践》摘要：卷积曾是AI视觉模型的算力核心（占ResNet等模型90%计算量）。昇腾NPU通过Tile分块、Cube Unit矩阵乘和Winograd算法优化卷积计算：1）采用overlap-aware tiling减少30%数据搬运；2）Winograd变换降低36%乘法次数；3）针对不同特征图尺寸自动切换计算路径。性能数据显示，3×3卷积占ResNet-

#深度学习 #人工智能

ops-conv：卷积算子从 CPU 到昇腾 NPU 的优化之路

#深度学习 #人工智能

ops-conv：卷积算子从 CPU 到昇腾 NPU 的优化之路

#深度学习 #人工智能

driver：昇腾 NPU 的硬件执行通道

摘要：CANN驱动层是AI推理的关键底层组件，负责将Runtime任务转换为NPU硬件指令。它通过MMIO和Doorbell与硬件通信，管理DMA数据传输、设备资源和多卡调度。在大模型推理中，驱动面临Kernel加载延迟、显存管理和多Stream调度等挑战。CANN通过批处理优化（减少ioctl调用）和Kernel缓存（基于hash复用）提升性能。驱动层虽不参与逻辑处理，但其效率直接影响推理延迟下

#人工智能

driver：昇腾 NPU 的硬件执行通道

#人工智能

driver：昇腾 NPU 的硬件执行通道

#人工智能

metadef：CANN 图编译的元数据骨架

摘要： metadef是CANN中管理算子元数据的基础设施，为GE和图编译器提供统一的算子描述标准。它定义了Tensor形状、数据类型、算子属性等结构化信息，但不参与编译优化逻辑。metadef通过TensorDesc、OpDesc等核心数据结构，支持动态Shape管理和序列化/反序列化，确保不同版本间的模型兼容性。在模型编译过程中，metadef的元数据流转贯穿形状推导、融合优化等关键环节，成为

#人工智能

共 53 条

请选择