2501_94496331 个人主页

@2501_94496331

2501_94496331

2025-12-01 22:22:26 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

CANN架构下ResNet-50卷积算子优化实战

本文针对ResNet-50在昇腾硬件上的推理性能优化展开研究。通过分析工业场景中的实际痛点，提出基于CANN架构的三维优化策略：采用Winograd变换降低计算复杂度，优化数据排布提升缓存命中率，以及利用多核并行和TensorCore加速计算。实验表明，优化后模型吞吐量提升42%，延迟降至25ms以内，硬件利用率达85%以上，完全满足实时业务需求。文章详细阐述了工程实现中的关键问题和解决方案，为深

#架构 #CANN #人工智能 +1

昇腾AI算力优化：CANN算子性能全解析

本文深入探讨了昇腾AI处理器中CANN算子的性能优化方法，揭示了NPU算力与实际吞吐量差异的核心原因。通过分析任务调度与数据流转的协同机制，提出了"Host拆分-ACL分发-Device流水线"的三级调度优化方案，并详细阐述了内存预分配、异步拷贝、流水线并行等关键技术。文章结合大模型推理、工业质检等实际项目案例，展示了优化前后40%以上的性能提升效果，同时提供了经过验证的CAN

#CANN #人工智能 #自然语言处理

一文读懂CANN算子：从概念到实践的入门指南

摘要：本文深入解析华为CANN算子的核心价值与实战应用。不同于通用框架算子，CANN算子深度融合升腾芯片硬件特性，通过硬件亲和性、算子融合等优化手段实现3-5倍性能提升。文章从开发者痛点出发，提供三类算子的选型指南（内置/融合/自定义），并以矩阵乘法为例演示关键调用步骤与易错点。同时介绍了MindStudio、ascendebug等实用工具链的高效用法，以及自动算子生成等未来趋势。最后给出从入门到

#CANN #学习

昇腾NPU与CANN架构全解析

摘要：本文深入解析昇腾NPU的硬件架构与CANN软件栈的协同设计，揭示AI算力高效释放的技术路径。达芬奇架构通过专用计算单元（Cube/Vector/Scalar）分工和本地内存优化，实现神经网络计算效率突破；CANN架构则通过分层设计解决框架适配、算子优化等关键问题。重点以加权加法算子为例，演示基于TBE的自定义算子开发全流程，包括接口设计、计算逻辑实现及测试优化技巧。最后指出掌握软硬协同优化能

#架构 #CANN #人工智能

昇腾AI算力优化：CANN算子性能全解析

#CANN #人工智能 #自然语言处理

一文读懂CANN算子：从概念到实践的入门指南

CANN架构下ResNet-50卷积算子优化实战

#架构 #CANN #人工智能 +1

华为CANN实战：ResNet-50卷积算子优化揭秘

摘要：本文深入探讨了基于华为CANN架构优化ResNet-50卷积算子的工程实践。针对昇腾芯片上推理延迟高（18.2ms）、硬件利用率低（TCU仅42%）的问题，通过数据布局优化（通道维度重排）、存储管理优化（三级缓存复用）和计算调度优化（算子融合+混合精度）三大策略，最终实现7.5ms推理延迟，3×3卷积耗时降低75.6%，TCU利用率提升至88%，且Top-5准确率损失控制在0.3%以内。文章

#华为 #CANN #学习 +1

共 20 条

请选择