登录社区云,与社区用户共同成长
邀请您加入社区
随着昇腾CANN全面开源开放,昇腾在和客户联创达成商业目标的过程中自身也在不断成长进步,一方面CANN吸纳了客户实践中的声音,对易用性、功能满足度、性能等层面积极改进;另一方面客户也将自身的一部分实践内容分享贡献到CANN开源社区,进一步推动了CANN的生态满足度。我们将这过程中诞生的新功能特性、算子开发实践、推理和训练部署实践总结成了20篇文章分享给大家,相信开发者们能通过这些文章有所借鉴和收获
目标: 指导学生为一个特殊的激活函数(如 Swish 激活函数) 开发一个自定义的昇腾 NPU 算子。# GM 区输入 / 输出# UB 缓冲区numel = prod(shape) # 元素个数burst = numel // 16 # 简单按 16 对齐,真实工程需按 shape 计算# 1) 把 x 从 GM 搬到 UB# 2) 计算 sigmoid(x) = 1 / (1 + exp(-x
全栈效率: CANN 提供了从模型转换 (ATC) 到设备调用 (AscendCL) 的全套工具链,确保 AI 算法能在昇腾 NPU 上获得极致的性能。实时性保障: 通过异步执行和高性能算子,满足了边缘侧对毫秒级实时决策的苛刻要求。开发运维友好: 专业的性能分析工具和标准化的 API,极大地简化了 AI 应用的开发和运维难度。openEuler 作为 CANN 的稳定运行底座,与昇腾生态的深度融合
1. 自定义算子开发系列:算子Kernel直调极简编程实践**简介:**Kernel直调方式具备代码轻量化、开发直观便捷的优势,本文介绍了Ascend C异构混合编程和AscendOps模板化编程两种编程方式,在Kernel直调方式基础上进一步降低了算子开发实现和编译部署的难度。2. 自定义算子开发系列:AICPU Tiling下沉编程方式介绍。
本次系列直播我们将重点拆解CANN全面开源开放背后的深层故事。见证国产AI算力底座如何通过开放、协同,构筑自主创新的产业未来。大模型时代,算力是底座,而以CANN为代表的AI基础软件是释放算力的关键“阀门”。12月22日-26日,连续5天,5场系列直播。
本文深入解析Triton-on-Ascend平台的自动调优技术体系,展示其在昇腾AI处理器上的优化效果。通过智能参数空间探索、贝叶斯优化和多目标优化等核心算法,自动调优相比手工调优可提升算子性能60%以上。文章包含矩阵乘法和卷积算子的完整调优案例,以及推荐系统、大语言模型等实战场景的优化数据。实测显示,自动调优在不同类型算子上可获得57%-64%的性能提升,同时提供故障诊断工具和最佳实践指导。最后
Ascend C 是昇腾异构计算架构 CANN 下的核心开发语言,是面向昇腾硬件编程的直接入口。本文覆盖了昇腾初级开发的 “最小知识闭环”:从概念认知到 Ascend C 工具,再到开发初体验与环境搭建,是入门昇腾开发的基础指南。后续可深入算子优化、Ascend C 高级特性等方向,进一步提升开发能力。2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0基础入门系列、码力全开特辑
本文深入探讨基于AscendC的大词表EmbeddingLookup算子优化技术,提出通过分块内存访问、动态批处理流水线和混合精度压缩三大核心技术,实现100GB词表加载延迟降低72%、QPS提升3.8倍,并在FP16下保持<0.2%精度损失。关键技术包括三级流水线+双缓冲机制(85%硬件利用率)、向量化Gather操作(95%UB命中率)和动态Shape支持。文章提供BERT-Large优
本文为AscendC算子调试的权威指南,系统介绍了两种核心调试方法:基于Kernel的调试(聚焦计算逻辑验证)和基于命令行的调试(侧重生产环境集成)。通过10+实战案例和性能数据对比,揭示了两种模式的协同价值:Kernel调试效率提升3-5倍,命令行调试可发现70%框架集成问题。文章提供完整的工具链方案,包括自动化测试套件、智能调试决策系统和性能分析工具,帮助开发者建立从算法验证到生产部署的全流程
本期硬核技术篇,聚焦昇腾在美团LongCat-Flash模型上的深度优化实战。两位大模型技术专家将首次揭秘:如何通过多流并发、通算掩盖、SuperKernel等组合拳,将通信开销化为无形。这是一场关于软硬件协同、榨干每一分算力的技术解密,献给所有追求性能巅峰的开发者。12月24日下午14:00,我在直播间等你!
面对这一挑战,客户参考了昇腾CANN开源算子源码仓ops-nn中高性能CrossEntropyLoss算子的实现,该算子已经具备高性能的CE Loss交叉熵损失函数计算能力,客户在此基础上,融入了ZLoss和lseForZLoss计算,分别用于计算辅助损失ZLoss和ZLoss场景下输出给反向传播的值。这两个损失函数的原始实现存在显著的性能瓶颈——它们的计算由一系列串行的小Vector算子构成,导
本文将深入解析华为昇腾Ascend C单算子工程的标准目录架构。不同于简单的文件列表,我们将探究每个目录背后的设计哲学与工程考量。文章将从msopgen工具生成的工程模板出发,详解op_kernel/op_proto/framework/test/等核心目录的职责与协作关系。通过完整的加法算子实例,展示从JSON描述到编译测试的端到端开发流程。文中包含5个Mermaid架构图、真实项目中的目录优化
本文系统阐述了AscendC算子工程的创建流程与架构设计,涵盖从原型定义到编译部署的全链路开发。重点分析了标准算子工程的分层架构(Host/Kernel分离)与异构编译原理,通过Matmul等案例详细解析工程模板选择、目录结构设计及构建系统实现。文章还分享了企业级开发经验,包括多算子协同管理、依赖控制与CI/CD实践,并针对常见问题提供解决方案。特别强调工程化能力对生产级算子开发的关键作用,指出清
本文深入解析华为昇腾CANN算子测试框架中的gen_data.py与verify_result.py设计与实现。测试数据生成采用科学方法论,覆盖边界条件、特殊值等四类用例;精度验证构建多维度体系,包含绝对误差、相对误差、信噪比等指标。文章通过实战案例展示从数据生成到自动化回归测试的全流程,提供5个Mermaid流程图、真实误差分析数据及13年经验总结的调试方法。重点阐述了企业级测试流水线设计、容差
本文系统阐述了基于AscendC自定义算子的端到端AI应用开发全流程。通过TensorFlow/PyTorch模型集成、算子融合优化等关键技术,实现工业级AI应用的高效部署。重点分析了算子开发与框架集成的核心挑战,提出内存管理、多流并行等优化方案,并以异常检测系统为例展示4.8倍的性能提升。文章还涵盖微服务部署架构、全链路监控体系等生产环境实践,为AI工程化落地提供完整解决方案。
CANN
——CANN
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net