logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

跳出 CPU 惯性:在昇腾 CANN 训练营,我读懂了 NPU 并行计算的底层逻辑

摘要:本文分享了一位算法开发者从CPU思维转向昇腾NPU并行计算的思维重构历程。通过开发基础卷积算子的实践,作者深刻认识到NPU的计算本质是数据流优化而非单指令控制。文章详细剖析了CPU串行思维的局限,阐述了昇腾DaVinci架构的并行特性,重点介绍了Tiling分块和双缓冲流水线两大核心技术。最后通过AscendC编程示例,展示了如何从"控制细节"转向"表达意图&q

文章图片
#算法#深度学习#人工智能 +1
昇腾 NPU 多核规约算子优化:从硬件底层到工业级实现

本文深入剖析了昇腾NPU异构计算架构中规约算子(ReduceSum、Softmax等)的优化策略。针对"并行计算"与"全局聚合"的核心矛盾,提出了基于昇腾AICore硬件特性的多级规约方案:1) 充分利用三级存储体系(LM/UB/GM)的性能差异,最小化GM访问;2) 采用向量化指令优化局部规约;3) 设计多级并行汇总架构,通过分组策略降低同步开销;4) 实

文章图片
#java#昇腾#c++ +1
从 50ms 到 9ms:我在昇腾 NPU 上的生产级大模型优化实战

本文记录了作者将AI大模型推理延迟从50ms优化到10ms的实战经历。通过全面性能分析发现,44%时间消耗在数据转换等非计算环节。采取预处理融合、算子算法优化、显存池化、批处理和混合精度等系统性优化策略,最终实现5.6倍性能提升,峰值算力利用率达83%。文章强调性能优化需从全局出发,注重生产环境验证,并分享了"先定位系统瓶颈后精准优化"的方法论。作者将经验贡献给CANN社区,建

文章图片
#算法#人工智能#昇腾 +1
从 50ms 到 9ms:我在昇腾 NPU 上的生产级大模型优化实战

本文记录了作者将AI大模型推理延迟从50ms优化到10ms的实战经历。通过全面性能分析发现,44%时间消耗在数据转换等非计算环节。采取预处理融合、算子算法优化、显存池化、批处理和混合精度等系统性优化策略,最终实现5.6倍性能提升,峰值算力利用率达83%。文章强调性能优化需从全局出发,注重生产环境验证,并分享了"先定位系统瓶颈后精准优化"的方法论。作者将经验贡献给CANN社区,建

文章图片
#算法#人工智能#昇腾 +1
跳出 CPU 惯性:在昇腾 CANN 训练营,我读懂了 NPU 并行计算的底层逻辑

摘要:本文分享了一位算法开发者从CPU思维转向昇腾NPU并行计算的思维重构历程。通过开发基础卷积算子的实践,作者深刻认识到NPU的计算本质是数据流优化而非单指令控制。文章详细剖析了CPU串行思维的局限,阐述了昇腾DaVinci架构的并行特性,重点介绍了Tiling分块和双缓冲流水线两大核心技术。最后通过AscendC编程示例,展示了如何从"控制细节"转向"表达意图&q

文章图片
#算法#深度学习#人工智能 +1
昇腾 CANN 算子开发全景:从硬件认知到多核协同的性能突破之道

摘要:本文深入剖析昇腾NPU算子开发的核心技术与工程实践。首先解析昇腾NPU异构计算架构特性,包括AICore的三级存储体系与DMA传输机制。重点阐述Tiling策略设计原则、多核并行的Grid-Stride模式实现、以及多级规约算法优化。通过代码示例展示动态Tiling计算、矩阵乘法并行处理、二级规约等关键技术实现。文章强调性能调优需基于Profiling数据,结合硬件特性进行向量指令优化、内存

文章图片
#spring#后端#深度学习 +3
昇腾 NPU 多核规约算子优化:从硬件底层到工业级实现

本文深入剖析了昇腾NPU异构计算架构中规约算子(ReduceSum、Softmax等)的优化策略。针对"并行计算"与"全局聚合"的核心矛盾,提出了基于昇腾AICore硬件特性的多级规约方案:1) 充分利用三级存储体系(LM/UB/GM)的性能差异,最小化GM访问;2) 采用向量化指令优化局部规约;3) 设计多级并行汇总架构,通过分组策略降低同步开销;4) 实

文章图片
#java#昇腾#c++ +1
昇腾 CANN 算子开发全景:从硬件认知到多核协同的性能突破之道

摘要:本文深入剖析昇腾NPU算子开发的核心技术与工程实践。首先解析昇腾NPU异构计算架构特性,包括AICore的三级存储体系与DMA传输机制。重点阐述Tiling策略设计原则、多核并行的Grid-Stride模式实现、以及多级规约算法优化。通过代码示例展示动态Tiling计算、矩阵乘法并行处理、二级规约等关键技术实现。文章强调性能调优需基于Profiling数据,结合硬件特性进行向量指令优化、内存

文章图片
#spring#后端#深度学习 +3
昇腾 CANN 算子开发全景:从硬件认知到多核协同的性能突破之道

摘要:本文深入剖析昇腾NPU算子开发的核心技术与工程实践。首先解析昇腾NPU异构计算架构特性,包括AICore的三级存储体系与DMA传输机制。重点阐述Tiling策略设计原则、多核并行的Grid-Stride模式实现、以及多级规约算法优化。通过代码示例展示动态Tiling计算、矩阵乘法并行处理、二级规约等关键技术实现。文章强调性能调优需基于Profiling数据,结合硬件特性进行向量指令优化、内存

文章图片
#spring#后端#深度学习 +3
昇腾 CANN 算子开发全景:从硬件认知到多核协同的性能突破之道

摘要:本文深入剖析昇腾NPU算子开发的核心技术与工程实践。首先解析昇腾NPU异构计算架构特性,包括AICore的三级存储体系与DMA传输机制。重点阐述Tiling策略设计原则、多核并行的Grid-Stride模式实现、以及多级规约算法优化。通过代码示例展示动态Tiling计算、矩阵乘法并行处理、二级规约等关键技术实现。文章强调性能调优需基于Profiling数据,结合硬件特性进行向量指令优化、内存

文章图片
#spring#后端#深度学习 +3
    共 14 条
  • 1
  • 2
  • 请选择