logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

自定义算子的“诞生记”:基于CANN Kernel自调工程的完整CI/CD流水线

摘要:本文基于多年异构计算实战经验,系统阐述基于CANN Kernel自调工程的CI/CD全链路自动化流水线。该体系包含四大核心环节:工程生成(msopgen)、双端验证(CPU模拟/NPU真机)、自动化测试(msopst)、持续集成(GitLab CI/CD)。关键技术亮点包括三阶段流水线设计(开发/测试/部署)、孪生调试体系(CPU/NPU同步验证)以及企业级质量门禁(性能/精度/兼容性)。通

文章图片
#昇腾#CANN
CANN ops-cv ColorConvert色彩空间转换的硬核实战 AIPP硬件加速与寄存器配置全解析

本文深度剖析CANN算子库中ColorConvert色彩空间转换算子的技术实现,揭示从API调用到NPU硬件寄存器配置的全链路机制。通过分析yuv2rgb.cpp源码,结合AIPP硬件加速单元特性,展示色彩转换在AI推理流水线中的性能优化方案。文章包含实测数据对比(AIPP加速带来18.9倍性能提升)、完整代码示例和实战经验,为CV开发者提供从原理到落地的技术参考。重点解析了硬件矩阵映射、动态参数

文章图片
#CANN
复杂算子调试与调优秘籍 - Ascend C性能分析工具链实战

本文系统介绍了昇腾CANN平台的调试与性能优化方法论。通过解析AscendC的孪生调试架构,详细阐述了CPU/NPU双域协同设计原理。文章重点讲解了Msprof工具链的使用技巧,包括性能数据采集、可视化分析和热点图解读。以MatMul+BiasAdd+ReLU融合算子为例,展示了从初始性能分析到优化实施的完整流程,最终实现60%的性能提升。同时介绍了企业级实践中的高级调试技巧,如精度保障、动态调试

文章图片
#CANN#昇腾
Ascend C高性能编程实战:降低NPU计算耗时的指令级优化

本文深入探讨了昇腾NPU指令级优化的关键技术,通过四级优化案例展示了从基础向量化到内联汇编的完整进阶路径。文章揭示了达芬奇架构指令系统的性能等级差异,提出七条黄金优化法则:优先向量指令、使用FMA融合、合理调度指令、避免分支跳转、寄存器重用、指令级并行和终极汇编优化。通过矩阵乘法实战,验证了优化方法可将硬件利用率从5%提升至95%,性能提升最高达16倍。针对企业级AI推理场景,展示了如何优化千亿参

文章图片
#CANN#昇腾
Ascend C 内存迷宫:高效管理AI Core上的分级存储体系

本文深入解析了AscendAICore的六级存储架构(HBM到寄存器),重点探讨了内存优化技术在企业级AI应用中的关键作用。通过MoeGatingTopK算子实战案例,详细介绍了数据分块、双缓冲、地址对齐等核心技术,展示了如何实现90%以上的带宽利用率。文章包含Bank冲突避免、缓存一致性、原子操作等解决方案,提供从基础到高级的完整内存优化体系。实测数据显示,经过系统优化后,带宽利用率从35%提升

文章图片
#CANN#昇腾
Ascend C算子开发范式解密:从“AddCustom”到“Sigmoid”的代码实战

本文系统介绍了AscendC算子开发的核心技术与实践方法。通过AddCustom(内存密集型)和Sigmoid(计算密集型)两个典型案例,详细解析了核函数设计、内存优化、向量化编程等关键技术。重点包括:1)统一核函数模板设计;2)内存层次优化策略;3)双缓冲流水线实现;4)计算密度提升方法;5)精度与性能平衡技巧。文章提供了从基础到进阶的完整开发框架,包含代码示例、性能分析数据和优化检查表,为As

文章图片
#CANN#昇腾
Ascend C Tiling 策略核心原理解析:数据切分的艺术与科学

本文深入探讨了AI处理器中Tiling(分块)技术的核心作用与实现方法。作为连接算法与硬件的桥梁,Tiling通过将大规模数据分割为适合片上缓存处理的Tile块,有效解决了"内存墙"问题。文章系统分析了Tiling的数据结构设计原则、数学基础算法(包括均匀切分和负载均衡优化),并详细阐述了其在矩阵乘法、卷积等场景中的应用策略,展示了Tiling如何通过双缓冲、流水线等技术实现计

文章图片
#CANN#昇腾
Ascend C 算子工程化实践:从 TilingKey 配置到多数据类型支持的稳健设计

本文基于华为官方250个错误案例分析,聚焦AscendC算子开发中的"找不到tilingkey"和"不支持int8"等工程化问题。文章系统阐述了工业级算子开发的三大关键技术:1)动态TilingKey机制,通过数学模型实现输入形状自适应;2)多数据类型支持,采用模板化设计确保fp32/fp16/int8等类型的兼容性;3)配置管理系统,实现参数统一控制与热更

文章图片
#CANN#昇腾
Triton-on-Ascend生态建设与未来展望:从算子库到行业应用的全景分析

本文探讨将GPU领域的Triton编译器引入昇腾Ascend平台的战略价值与技术路径。Triton通过类似Python的语法简化NPU算子开发,有望将开发周期从"人月"缩短至"人日",性能可达手写代码的85%。文章对比了传统AscendC与Triton的向量加法实现,展示了Triton在抽象层次和开发效率上的优势,并以MoeGatingTopK为例说明其应用

文章图片
#昇腾#CANN#架构
Ascend C 算子开发全流程揭秘:从 msopgen 到编译部署

本文系统介绍了AscendC算子开发全流程,包括工程生成(msopgen工具解析)、内核实现(AscendC编程模型)、编译优化(CMake配置)、测试验证(分层测试策略)、部署上线(自动化部署脚本)和性能优化。通过完整案例展示了从算子定义到生产部署的标准化工序,提供了一套包含工具链流程图、工程架构图的开发方法论。文章强调开发效率提升50%以上、测试覆盖率超90%等关键指标,为AI应用提供高效算力

文章图片
#CANN#昇腾
    共 52 条
  • 1
  • 2
  • 3
  • 6
  • 请选择