
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
摘要:本文分享了一位算法开发者从CPU思维转向昇腾NPU并行计算的思维重构历程。通过开发基础卷积算子的实践,作者深刻认识到NPU的计算本质是数据流优化而非单指令控制。文章详细剖析了CPU串行思维的局限,阐述了昇腾DaVinci架构的并行特性,重点介绍了Tiling分块和双缓冲流水线两大核心技术。最后通过AscendC编程示例,展示了如何从"控制细节"转向"表达意图&q

本文深入剖析了昇腾NPU异构计算架构中规约算子(ReduceSum、Softmax等)的优化策略。针对"并行计算"与"全局聚合"的核心矛盾,提出了基于昇腾AICore硬件特性的多级规约方案:1) 充分利用三级存储体系(LM/UB/GM)的性能差异,最小化GM访问;2) 采用向量化指令优化局部规约;3) 设计多级并行汇总架构,通过分组策略降低同步开销;4) 实

本文记录了作者将AI大模型推理延迟从50ms优化到10ms的实战经历。通过全面性能分析发现,44%时间消耗在数据转换等非计算环节。采取预处理融合、算子算法优化、显存池化、批处理和混合精度等系统性优化策略,最终实现5.6倍性能提升,峰值算力利用率达83%。文章强调性能优化需从全局出发,注重生产环境验证,并分享了"先定位系统瓶颈后精准优化"的方法论。作者将经验贡献给CANN社区,建

本文记录了作者将AI大模型推理延迟从50ms优化到10ms的实战经历。通过全面性能分析发现,44%时间消耗在数据转换等非计算环节。采取预处理融合、算子算法优化、显存池化、批处理和混合精度等系统性优化策略,最终实现5.6倍性能提升,峰值算力利用率达83%。文章强调性能优化需从全局出发,注重生产环境验证,并分享了"先定位系统瓶颈后精准优化"的方法论。作者将经验贡献给CANN社区,建

摘要:本文分享了一位算法开发者从CPU思维转向昇腾NPU并行计算的思维重构历程。通过开发基础卷积算子的实践,作者深刻认识到NPU的计算本质是数据流优化而非单指令控制。文章详细剖析了CPU串行思维的局限,阐述了昇腾DaVinci架构的并行特性,重点介绍了Tiling分块和双缓冲流水线两大核心技术。最后通过AscendC编程示例,展示了如何从"控制细节"转向"表达意图&q

摘要:本文深入剖析昇腾NPU算子开发的核心技术与工程实践。首先解析昇腾NPU异构计算架构特性,包括AICore的三级存储体系与DMA传输机制。重点阐述Tiling策略设计原则、多核并行的Grid-Stride模式实现、以及多级规约算法优化。通过代码示例展示动态Tiling计算、矩阵乘法并行处理、二级规约等关键技术实现。文章强调性能调优需基于Profiling数据,结合硬件特性进行向量指令优化、内存

本文深入剖析了昇腾NPU异构计算架构中规约算子(ReduceSum、Softmax等)的优化策略。针对"并行计算"与"全局聚合"的核心矛盾,提出了基于昇腾AICore硬件特性的多级规约方案:1) 充分利用三级存储体系(LM/UB/GM)的性能差异,最小化GM访问;2) 采用向量化指令优化局部规约;3) 设计多级并行汇总架构,通过分组策略降低同步开销;4) 实

摘要:本文深入剖析昇腾NPU算子开发的核心技术与工程实践。首先解析昇腾NPU异构计算架构特性,包括AICore的三级存储体系与DMA传输机制。重点阐述Tiling策略设计原则、多核并行的Grid-Stride模式实现、以及多级规约算法优化。通过代码示例展示动态Tiling计算、矩阵乘法并行处理、二级规约等关键技术实现。文章强调性能调优需基于Profiling数据,结合硬件特性进行向量指令优化、内存

摘要:本文深入剖析昇腾NPU算子开发的核心技术与工程实践。首先解析昇腾NPU异构计算架构特性,包括AICore的三级存储体系与DMA传输机制。重点阐述Tiling策略设计原则、多核并行的Grid-Stride模式实现、以及多级规约算法优化。通过代码示例展示动态Tiling计算、矩阵乘法并行处理、二级规约等关键技术实现。文章强调性能调优需基于Profiling数据,结合硬件特性进行向量指令优化、内存

摘要:本文深入剖析昇腾NPU算子开发的核心技术与工程实践。首先解析昇腾NPU异构计算架构特性,包括AICore的三级存储体系与DMA传输机制。重点阐述Tiling策略设计原则、多核并行的Grid-Stride模式实现、以及多级规约算法优化。通过代码示例展示动态Tiling计算、矩阵乘法并行处理、二级规约等关键技术实现。文章强调性能调优需基于Profiling数据,结合硬件特性进行向量指令优化、内存








