logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

自定义算子的“诞生记”:基于CANN Kernel自调工程的完整CI/CD流水线

摘要:本文基于多年异构计算实战经验,系统阐述基于CANN Kernel自调工程的CI/CD全链路自动化流水线。该体系包含四大核心环节:工程生成(msopgen)、双端验证(CPU模拟/NPU真机)、自动化测试(msopst)、持续集成(GitLab CI/CD)。关键技术亮点包括三阶段流水线设计(开发/测试/部署)、孪生调试体系(CPU/NPU同步验证)以及企业级质量门禁(性能/精度/兼容性)。通

文章图片
#昇腾#CANN
Triton-on-Ascend生态建设与未来展望:从算子库到行业应用的全景分析

本文探讨将GPU领域的Triton编译器引入昇腾Ascend平台的战略价值与技术路径。Triton通过类似Python的语法简化NPU算子开发,有望将开发周期从"人月"缩短至"人日",性能可达手写代码的85%。文章对比了传统AscendC与Triton的向量加法实现,展示了Triton在抽象层次和开发效率上的优势,并以MoeGatingTopK为例说明其应用

文章图片
#昇腾#CANN#架构
性能探针:Ascend C算子性能分析与Profiling工具链实战

本文系统介绍了华为昇腾AI算子性能优化工具链CANNProfiling的完整生态。从性能分析认知革命入手,强调数据驱动优化的必要性,详细解析了msprof命令行工具和AscendProfiler可视化分析工具的使用方法。通过矩阵乘法算子优化案例,展示了从性能分析、瓶颈定位到优化验证的全流程,最终实现4.2倍性能提升。文章还分享了企业级性能监控实践、高级优化技巧和故障排查指南,并展望了AI驱动的自动

文章图片
#昇腾#CANN
Ascend C高性能编程实战:降低NPU计算耗时的指令级优化

本文深入探讨了昇腾NPU指令级优化的关键技术,通过四级优化案例展示了从基础向量化到内联汇编的完整进阶路径。文章揭示了达芬奇架构指令系统的性能等级差异,提出七条黄金优化法则:优先向量指令、使用FMA融合、合理调度指令、避免分支跳转、寄存器重用、指令级并行和终极汇编优化。通过矩阵乘法实战,验证了优化方法可将硬件利用率从5%提升至95%,性能提升最高达16倍。针对企业级AI推理场景,展示了如何优化千亿参

文章图片
#CANN#昇腾
从 Ascend C Kernel 到 AI 框架调用 - 算子集成与编译部署全流程深度解析

本文基于CANN量化Matmul开发样例,系统解析从Ascend C Kernel编写到AI框架调用的完整技术链路。我将深入探讨ops-nn算子库架构、NPU硬件特性如何影响算子设计、量化矩阵乘的Tiling策略与Kernel实现,以及算子如何通过ATC编译、集成到PyTorch/TensorFlow等框架。通过实际开发案例展示从硬件特性到软件生态的垂直整合,提供可落地的算子开发部署方法论。硬件感

文章图片
#人工智能#昇腾#CANN
Triton - Ascend算子性能优化的验证与评估:从工具链到企业级实战

本文深入解析Triton在昇腾AI处理器上的性能验证与评估全流程,涵盖性能基准测试优化效果验证回归测试框架等关键技术。通过完整的性能评估工具箱和真实数据对比,展示系统化的性能分析方法。文章包含昇腾平台特有的硬件性能计数器精度验证方法性能回归检测等实战内容,为AI开发者提供从基础验证到高级优化的完整解决方案。基于多年项目经验,分享独特性能分析见解,帮助读者建立科学的性能评估体系。基于多年实战经验,我

文章图片
#性能优化#昇腾#Triton +1
Ascend C 内存迷宫:高效管理AI Core上的分级存储体系

本文深入解析了AscendAICore的六级存储架构(HBM到寄存器),重点探讨了内存优化技术在企业级AI应用中的关键作用。通过MoeGatingTopK算子实战案例,详细介绍了数据分块、双缓冲、地址对齐等核心技术,展示了如何实现90%以上的带宽利用率。文章包含Bank冲突避免、缓存一致性、原子操作等解决方案,提供从基础到高级的完整内存优化体系。实测数据显示,经过系统优化后,带宽利用率从35%提升

文章图片
#CANN#昇腾
AI模型迁移实战:以YOLOv3为例的昇腾平台适配全流程解析

模型分析脚本# 检查上采样参数是否支持# YOLO特定输出层需要自定义# 运行分析print(f"需要自定义的算子: {unsupported}")上采样层和YOLO输出解码层。YOLO输出层的核心计算包括:坐标解码:将网络输出的偏移量转换为实际坐标置信度计算:应用sigmoid函数类别概率:应用softmax或sigmoid数学公式提前分析:在迁移前充分分析模型架构,识别潜在问题渐进优化:从功能

文章图片
#人工智能#CANN#昇腾
Ascend C算子开发范式解密:从“AddCustom”到“Sigmoid”的代码实战

本文系统介绍了AscendC算子开发的核心技术与实践方法。通过AddCustom(内存密集型)和Sigmoid(计算密集型)两个典型案例,详细解析了核函数设计、内存优化、向量化编程等关键技术。重点包括:1)统一核函数模板设计;2)内存层次优化策略;3)双缓冲流水线实现;4)计算密度提升方法;5)精度与性能平衡技巧。文章提供了从基础到进阶的完整开发框架,包含代码示例、性能分析数据和优化检查表,为As

文章图片
#CANN#昇腾
性能对决:AsNumpy 与 NumPy 在典型矩阵运算中的基准测试

本文通过严谨的基准测试对比了AsNumpy与NumPy在科学计算中的性能表现。测试采用昇腾910B NPU与Intel Xeon Gold CPU硬件环境,覆盖不同规模的矩阵乘法、精度影响及复杂运算场景。结果显示:NPU在大规模矩阵运算(>1024维)中优势显著,FP16下加速比达12.3倍;而小规模计算和FP64场景则更适合CPU。文章提供了可复现的测试框架、性能优化建议及选型决策树,建议

文章图片
#numpy#矩阵#CANN +1
    共 64 条
  • 1
  • 2
  • 3
  • 7
  • 请选择