
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
摘要:本文分享了一位算法开发者从CPU思维转向昇腾NPU并行计算的思维重构历程。通过开发基础卷积算子的实践,作者深刻认识到NPU的计算本质是数据流优化而非单指令控制。文章详细剖析了CPU串行思维的局限,阐述了昇腾DaVinci架构的并行特性,重点介绍了Tiling分块和双缓冲流水线两大核心技术。最后通过AscendC编程示例,展示了如何从"控制细节"转向"表达意图&q

摘要:本文分享了一位算法开发者从CPU思维转向昇腾NPU并行计算的思维重构历程。通过开发基础卷积算子的实践,作者深刻认识到NPU的计算本质是数据流优化而非单指令控制。文章详细剖析了CPU串行思维的局限,阐述了昇腾DaVinci架构的并行特性,重点介绍了Tiling分块和双缓冲流水线两大核心技术。最后通过AscendC编程示例,展示了如何从"控制细节"转向"表达意图&q

本文深入剖析了昇腾NPU异构计算架构中规约算子(ReduceSum、Softmax等)的优化策略。针对"并行计算"与"全局聚合"的核心矛盾,提出了基于昇腾AICore硬件特性的多级规约方案:1) 充分利用三级存储体系(LM/UB/GM)的性能差异,最小化GM访问;2) 采用向量化指令优化局部规约;3) 设计多级并行汇总架构,通过分组策略降低同步开销;4) 实

本文深入剖析了昇腾NPU异构计算架构中规约算子(ReduceSum、Softmax等)的优化策略。针对"并行计算"与"全局聚合"的核心矛盾,提出了基于昇腾AICore硬件特性的多级规约方案:1) 充分利用三级存储体系(LM/UB/GM)的性能差异,最小化GM访问;2) 采用向量化指令优化局部规约;3) 设计多级并行汇总架构,通过分组策略降低同步开销;4) 实

本文深入剖析了昇腾NPU异构计算架构中规约算子(ReduceSum、Softmax等)的优化策略。针对"并行计算"与"全局聚合"的核心矛盾,提出了基于昇腾AICore硬件特性的多级规约方案:1) 充分利用三级存储体系(LM/UB/GM)的性能差异,最小化GM访问;2) 采用向量化指令优化局部规约;3) 设计多级并行汇总架构,通过分组策略降低同步开销;4) 实








