zhangwenjin123 个人主页

@zhangwenjin123

zhangwenjin123

2025-11-19 23:26:44 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

跳出 CPU 惯性：在昇腾 CANN 训练营，我读懂了 NPU 并行计算的底层逻辑

摘要：本文分享了一位算法开发者从CPU思维转向昇腾NPU并行计算的思维重构历程。通过开发基础卷积算子的实践，作者深刻认识到NPU的计算本质是数据流优化而非单指令控制。文章详细剖析了CPU串行思维的局限，阐述了昇腾DaVinci架构的并行特性，重点介绍了Tiling分块和双缓冲流水线两大核心技术。最后通过AscendC编程示例，展示了如何从"控制细节"转向"表达意图&q

#算法 #深度学习 #人工智能 +1

跳出 CPU 惯性：在昇腾 CANN 训练营，我读懂了 NPU 并行计算的底层逻辑

#算法 #深度学习 #人工智能 +1

昇腾 CANN 多核规约算子深度优化：基于硬件特性的共享内存与同步机制实践

本文深入剖析了昇腾NPU异构计算架构中规约算子(ReduceSum、Softmax等)的优化策略。针对"并行计算"与"全局聚合"的核心矛盾，提出了基于昇腾AICore硬件特性的多级规约方案：1) 充分利用三级存储体系(LM/UB/GM)的性能差异，最小化GM访问；2) 采用向量化指令优化局部规约；3) 设计多级并行汇总架构，通过分组策略降低同步开销；4) 实

#java #昇腾 #c++ +1

昇腾 CANN 多核规约算子深度优化：基于硬件特性的共享内存与同步机制实践

#java #昇腾 #c++ +1

昇腾 CANN 多核规约算子深度优化：基于硬件特性的共享内存与同步机制实践

#java #昇腾 #c++ +1

到底了