logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

复杂算子调试与调优秘籍 - Ascend C性能分析工具链实战

本文系统介绍了昇腾CANN平台的调试与性能优化方法论。通过解析AscendC的孪生调试架构,详细阐述了CPU/NPU双域协同设计原理。文章重点讲解了Msprof工具链的使用技巧,包括性能数据采集、可视化分析和热点图解读。以MatMul+BiasAdd+ReLU融合算子为例,展示了从初始性能分析到优化实施的完整流程,最终实现60%的性能提升。同时介绍了企业级实践中的高级调试技巧,如精度保障、动态调试

文章图片
#CANN#昇腾
Ascend C高性能编程实战:降低NPU计算耗时的指令级优化

本文深入探讨了昇腾NPU指令级优化的关键技术,通过四级优化案例展示了从基础向量化到内联汇编的完整进阶路径。文章揭示了达芬奇架构指令系统的性能等级差异,提出七条黄金优化法则:优先向量指令、使用FMA融合、合理调度指令、避免分支跳转、寄存器重用、指令级并行和终极汇编优化。通过矩阵乘法实战,验证了优化方法可将硬件利用率从5%提升至95%,性能提升最高达16倍。针对企业级AI推理场景,展示了如何优化千亿参

文章图片
#CANN#昇腾
Ascend C 内存迷宫:高效管理AI Core上的分级存储体系

本文深入解析了AscendAICore的六级存储架构(HBM到寄存器),重点探讨了内存优化技术在企业级AI应用中的关键作用。通过MoeGatingTopK算子实战案例,详细介绍了数据分块、双缓冲、地址对齐等核心技术,展示了如何实现90%以上的带宽利用率。文章包含Bank冲突避免、缓存一致性、原子操作等解决方案,提供从基础到高级的完整内存优化体系。实测数据显示,经过系统优化后,带宽利用率从35%提升

文章图片
#CANN#昇腾
Ascend C算子开发范式解密:从“AddCustom”到“Sigmoid”的代码实战

本文系统介绍了AscendC算子开发的核心技术与实践方法。通过AddCustom(内存密集型)和Sigmoid(计算密集型)两个典型案例,详细解析了核函数设计、内存优化、向量化编程等关键技术。重点包括:1)统一核函数模板设计;2)内存层次优化策略;3)双缓冲流水线实现;4)计算密度提升方法;5)精度与性能平衡技巧。文章提供了从基础到进阶的完整开发框架,包含代码示例、性能分析数据和优化检查表,为As

文章图片
#CANN#昇腾
Ascend C Tiling 策略核心原理解析:数据切分的艺术与科学

本文深入探讨了AI处理器中Tiling(分块)技术的核心作用与实现方法。作为连接算法与硬件的桥梁,Tiling通过将大规模数据分割为适合片上缓存处理的Tile块,有效解决了"内存墙"问题。文章系统分析了Tiling的数据结构设计原则、数学基础算法(包括均匀切分和负载均衡优化),并详细阐述了其在矩阵乘法、卷积等场景中的应用策略,展示了Tiling如何通过双缓冲、流水线等技术实现计

文章图片
#CANN#昇腾
Ascend C 算子工程化实践:从 TilingKey 配置到多数据类型支持的稳健设计

本文基于华为官方250个错误案例分析,聚焦AscendC算子开发中的"找不到tilingkey"和"不支持int8"等工程化问题。文章系统阐述了工业级算子开发的三大关键技术:1)动态TilingKey机制,通过数学模型实现输入形状自适应;2)多数据类型支持,采用模板化设计确保fp32/fp16/int8等类型的兼容性;3)配置管理系统,实现参数统一控制与热更

文章图片
#CANN#昇腾
Triton-on-Ascend生态建设与未来展望:从算子库到行业应用的全景分析

本文探讨将GPU领域的Triton编译器引入昇腾Ascend平台的战略价值与技术路径。Triton通过类似Python的语法简化NPU算子开发,有望将开发周期从"人月"缩短至"人日",性能可达手写代码的85%。文章对比了传统AscendC与Triton的向量加法实现,展示了Triton在抽象层次和开发效率上的优势,并以MoeGatingTopK为例说明其应用

文章图片
#昇腾#CANN#架构
Ascend C 算子开发全流程揭秘:从 msopgen 到编译部署

本文系统介绍了AscendC算子开发全流程,包括工程生成(msopgen工具解析)、内核实现(AscendC编程模型)、编译优化(CMake配置)、测试验证(分层测试策略)、部署上线(自动化部署脚本)和性能优化。通过完整案例展示了从算子定义到生产部署的标准化工序,提供了一套包含工具链流程图、工程架构图的开发方法论。文章强调开发效率提升50%以上、测试覆盖率超90%等关键指标,为AI应用提供高效算力

文章图片
#CANN#昇腾
性能探针:Ascend C算子性能分析与Profiling工具链实战

本文系统介绍了华为昇腾AI算子性能优化工具链CANNProfiling的完整生态。从性能分析认知革命入手,强调数据驱动优化的必要性,详细解析了msprof命令行工具和AscendProfiler可视化分析工具的使用方法。通过矩阵乘法算子优化案例,展示了从性能分析、瓶颈定位到优化验证的全流程,最终实现4.2倍性能提升。文章还分享了企业级性能监控实践、高级优化技巧和故障排查指南,并展望了AI驱动的自动

文章图片
#昇腾#CANN
DevUI插件化架构探索:微内核设计与动态加载实战

本文深入解析DevUI插件化架构的核心设计,提出基于微内核(Microkernel)​ 与动态模块加载的企业级前端架构方案。通过插件生命周期管理依赖注入容器沙箱隔离机制三大核心技术,实现应用的高度可扩展性和运行时模块热插拔。文章包含完整的架构设计、核心算法实现、以及在MateChat超大型项目中的实战验证,为复杂前端应用提供可持续演进的架构解决方案。🎯 架构创新:微内核+插件化的前沿架构模式⚡

文章图片
#架构
    共 53 条
  • 1
  • 2
  • 3
  • 6
  • 请选择