logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

跳出 CPU 惯性:在昇腾 CANN 训练营,我读懂了 NPU 并行计算的底层逻辑

摘要:本文分享了一位算法开发者从CPU思维转向昇腾NPU并行计算的思维重构历程。通过开发基础卷积算子的实践,作者深刻认识到NPU的计算本质是数据流优化而非单指令控制。文章详细剖析了CPU串行思维的局限,阐述了昇腾DaVinci架构的并行特性,重点介绍了Tiling分块和双缓冲流水线两大核心技术。最后通过AscendC编程示例,展示了如何从"控制细节"转向"表达意图&q

文章图片
#算法#深度学习#人工智能 +1
跳出 CPU 惯性:在昇腾 CANN 训练营,我读懂了 NPU 并行计算的底层逻辑

摘要:本文分享了一位算法开发者从CPU思维转向昇腾NPU并行计算的思维重构历程。通过开发基础卷积算子的实践,作者深刻认识到NPU的计算本质是数据流优化而非单指令控制。文章详细剖析了CPU串行思维的局限,阐述了昇腾DaVinci架构的并行特性,重点介绍了Tiling分块和双缓冲流水线两大核心技术。最后通过AscendC编程示例,展示了如何从"控制细节"转向"表达意图&q

文章图片
#算法#深度学习#人工智能 +1
昇腾 CANN 多核规约算子深度优化:基于硬件特性的共享内存与同步机制实践

本文深入剖析了昇腾NPU异构计算架构中规约算子(ReduceSum、Softmax等)的优化策略。针对"并行计算"与"全局聚合"的核心矛盾,提出了基于昇腾AICore硬件特性的多级规约方案:1) 充分利用三级存储体系(LM/UB/GM)的性能差异,最小化GM访问;2) 采用向量化指令优化局部规约;3) 设计多级并行汇总架构,通过分组策略降低同步开销;4) 实

文章图片
#java#昇腾#c++ +1
昇腾 CANN 多核规约算子深度优化:基于硬件特性的共享内存与同步机制实践

本文深入剖析了昇腾NPU异构计算架构中规约算子(ReduceSum、Softmax等)的优化策略。针对"并行计算"与"全局聚合"的核心矛盾,提出了基于昇腾AICore硬件特性的多级规约方案:1) 充分利用三级存储体系(LM/UB/GM)的性能差异,最小化GM访问;2) 采用向量化指令优化局部规约;3) 设计多级并行汇总架构,通过分组策略降低同步开销;4) 实

文章图片
#java#昇腾#c++ +1
昇腾 CANN 多核规约算子深度优化:基于硬件特性的共享内存与同步机制实践

本文深入剖析了昇腾NPU异构计算架构中规约算子(ReduceSum、Softmax等)的优化策略。针对"并行计算"与"全局聚合"的核心矛盾,提出了基于昇腾AICore硬件特性的多级规约方案:1) 充分利用三级存储体系(LM/UB/GM)的性能差异,最小化GM访问;2) 采用向量化指令优化局部规约;3) 设计多级并行汇总架构,通过分组策略降低同步开销;4) 实

文章图片
#java#昇腾#c++ +1
到底了