登录社区云,与社区用户共同成长
邀请您加入社区
1. 自定义算子开发系列:算子Kernel直调极简编程实践**简介:**Kernel直调方式具备代码轻量化、开发直观便捷的优势,本文介绍了Ascend C异构混合编程和AscendOps模板化编程两种编程方式,在Kernel直调方式基础上进一步降低了算子开发实现和编译部署的难度。2. 自定义算子开发系列:AICPU Tiling下沉编程方式介绍。
本次系列直播我们将重点拆解CANN全面开源开放背后的深层故事。见证国产AI算力底座如何通过开放、协同,构筑自主创新的产业未来。大模型时代,算力是底座,而以CANN为代表的AI基础软件是释放算力的关键“阀门”。12月22日-26日,连续5天,5场系列直播。
本文深入解析Triton-on-Ascend平台的自动调优技术体系,展示其在昇腾AI处理器上的优化效果。通过智能参数空间探索、贝叶斯优化和多目标优化等核心算法,自动调优相比手工调优可提升算子性能60%以上。文章包含矩阵乘法和卷积算子的完整调优案例,以及推荐系统、大语言模型等实战场景的优化数据。实测显示,自动调优在不同类型算子上可获得57%-64%的性能提升,同时提供故障诊断工具和最佳实践指导。最后
Ascend C 是昇腾异构计算架构 CANN 下的核心开发语言,是面向昇腾硬件编程的直接入口。本文覆盖了昇腾初级开发的 “最小知识闭环”:从概念认知到 Ascend C 工具,再到开发初体验与环境搭建,是入门昇腾开发的基础指南。后续可深入算子优化、Ascend C 高级特性等方向,进一步提升开发能力。2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0基础入门系列、码力全开特辑
本文深入探讨基于AscendC的大词表EmbeddingLookup算子优化技术,提出通过分块内存访问、动态批处理流水线和混合精度压缩三大核心技术,实现100GB词表加载延迟降低72%、QPS提升3.8倍,并在FP16下保持<0.2%精度损失。关键技术包括三级流水线+双缓冲机制(85%硬件利用率)、向量化Gather操作(95%UB命中率)和动态Shape支持。文章提供BERT-Large优
本文为AscendC算子调试的权威指南,系统介绍了两种核心调试方法:基于Kernel的调试(聚焦计算逻辑验证)和基于命令行的调试(侧重生产环境集成)。通过10+实战案例和性能数据对比,揭示了两种模式的协同价值:Kernel调试效率提升3-5倍,命令行调试可发现70%框架集成问题。文章提供完整的工具链方案,包括自动化测试套件、智能调试决策系统和性能分析工具,帮助开发者建立从算法验证到生产部署的全流程
本期硬核技术篇,聚焦昇腾在美团LongCat-Flash模型上的深度优化实战。两位大模型技术专家将首次揭秘:如何通过多流并发、通算掩盖、SuperKernel等组合拳,将通信开销化为无形。这是一场关于软硬件协同、榨干每一分算力的技术解密,献给所有追求性能巅峰的开发者。12月24日下午14:00,我在直播间等你!
面对这一挑战,客户参考了昇腾CANN开源算子源码仓ops-nn中高性能CrossEntropyLoss算子的实现,该算子已经具备高性能的CE Loss交叉熵损失函数计算能力,客户在此基础上,融入了ZLoss和lseForZLoss计算,分别用于计算辅助损失ZLoss和ZLoss场景下输出给反向传播的值。这两个损失函数的原始实现存在显著的性能瓶颈——它们的计算由一系列串行的小Vector算子构成,导
本文将深入解析华为昇腾Ascend C单算子工程的标准目录架构。不同于简单的文件列表,我们将探究每个目录背后的设计哲学与工程考量。文章将从msopgen工具生成的工程模板出发,详解op_kernel/op_proto/framework/test/等核心目录的职责与协作关系。通过完整的加法算子实例,展示从JSON描述到编译测试的端到端开发流程。文中包含5个Mermaid架构图、真实项目中的目录优化
本文系统阐述了AscendC算子工程的创建流程与架构设计,涵盖从原型定义到编译部署的全链路开发。重点分析了标准算子工程的分层架构(Host/Kernel分离)与异构编译原理,通过Matmul等案例详细解析工程模板选择、目录结构设计及构建系统实现。文章还分享了企业级开发经验,包括多算子协同管理、依赖控制与CI/CD实践,并针对常见问题提供解决方案。特别强调工程化能力对生产级算子开发的关键作用,指出清
本文深入解析华为昇腾CANN算子测试框架中的gen_data.py与verify_result.py设计与实现。测试数据生成采用科学方法论,覆盖边界条件、特殊值等四类用例;精度验证构建多维度体系,包含绝对误差、相对误差、信噪比等指标。文章通过实战案例展示从数据生成到自动化回归测试的全流程,提供5个Mermaid流程图、真实误差分析数据及13年经验总结的调试方法。重点阐述了企业级测试流水线设计、容差
本文系统阐述了基于AscendC自定义算子的端到端AI应用开发全流程。通过TensorFlow/PyTorch模型集成、算子融合优化等关键技术,实现工业级AI应用的高效部署。重点分析了算子开发与框架集成的核心挑战,提出内存管理、多流并行等优化方案,并以异常检测系统为例展示4.8倍的性能提升。文章还涵盖微服务部署架构、全链路监控体系等生产环境实践,为AI工程化落地提供完整解决方案。
本文深入探讨了华为CANN架构下AscendC算子与PyTorch生态的融合技术,提出了一套完整的七层软件栈解决方案。通过达芬奇3DCube计算单元、AscendC向量化编程和PyTorchAdapter桥接三大核心技术,实现了90%的CUDA算子迁移成本降低和89%的算子融合覆盖率。文章详细介绍了动态Shape融合、三级测试框架等关键技术,并提供了AddCustom算子融合实例、企业级测试方案和
调试能力是区分“能跑通的代码”和“能上线的算子”的唯一标准。那些年我见过最离谱的Bug,从AI Core神秘静默崩溃,到结果误差在第七位小数点后随机波动。这篇文章,我不给你列枯燥的错误码清单,我要给你一套能带走的“破案工具箱”和“刑侦思维”。第一,“结果错了,为啥? 我们将用二分法+ASAN+GDB三板斧,从海量代码中定位幽灵访越界。第二,“跑得太慢,卡在哪? 我们将深入Ascend Insi
本文系统介绍了Triton在昇腾AI处理器上的算子调试全流程。首先阐述了Triton调试的重要性及其复杂性来源,然后详细解析了调试工具链,包括Triton内置调试算子、AscendDebugger硬件级调试和CPU/NPU孪生调试策略。文章深入讲解了性能分析工具msProf的使用方法,以及如何识别和分类计算瓶颈、内存瓶颈等性能问题。针对常见调试场景,提供了内存对齐、Atomic操作等问题的具体解决
本文深入探讨了如何利用Pybind11将原生AscendC算子优雅封装为Python扩展模块,实现高性能C++与易用Python的无缝集成。文章从Pybind11核心原理出发,基于PPT素材详细解析了工程结构规划、核心实现(extension_add.cpp)、CMake编译配置等关键环节,构建了一个完整的Python生态集成方案。通过支持PyTorch Tensor和NumPy数组等多种输入形式
CANN
——CANN
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net