
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
《AscendC算子融合技术解析与实践》摘要:本文深入探讨了AscendC平台中算子融合技术在高性能计算中的应用。通过分析计算密度公式FLOPs/Bytes,指出Element-wise操作存在IO瓶颈问题。文章以AddRelu算子为例,对比传统单算子调度与融合方案,展示后者可减少50%IO数据量并提升带宽性能。详细介绍了融合算子的实现方法,包括UB空间规划、原地计算等关键技术,同时指出UB容量、

2025年昇腾CANN训练营第二季推出系列课程,助力开发者提升算子开发技能,参与可获认证证书及丰厚奖品。本文重点介绍图优化(GraphOptimization)中的自定义Pass开发技术,以ScopeFusionPass为例,详细讲解如何实现"Add+Relu"算子融合。内容包括:核心概念图解、ScopeFusionPass工作机制、实战编写自定义Pass(定义模式、执行融合、

在 AI 开发中,“能跑推理”和“能做训练”是两个完全不同的段位。对于推理,我们只需要实现 $Y = f(X)$。但对于训练,我们需要支持 PyTorch 的Autograd机制,这意味着我们要手写对应的反向算子:给定输出的梯度 $\frac{\partial L}{\partial Y}$(记为dy),计算输入的梯度 $\frac{\partial L}{\partial X}$(记为dx)和权

2025年昇腾CANN训练营第二季推出0基础入门、开发者案例等课程,助力开发者提升算子开发技能。本文以官方VectorAdd算子为例,深度解析AscendC开发范式。文章剖析了标准算子类的结构,包括初始化函数、核心处理函数和三级流水线设计,详细讲解了内存管理、队列通信等关键技术点。通过分析Init、Process、CopyIn、Compute、CopyOut等核心函数,总结出AscendC开发的三

GE 是昇腾软件栈中的“总指挥”。抽象层级:Ascend C 关注点(算子内部),GE 关注面(算子之间)。性能收益:通过图编译,消除 Host 调度开销,实现算子间的无缝衔接。开发模式:定义 IR -> 构建 Graph -> Session 运行。掌握了 GE 编程,你就具备了构建高性能推理引擎(如类似于 TensorRT 的应用)的能力。

摘要:2025年昇腾CANN训练营第二季推出FlashDecoding专题课程,聚焦大模型推理中的Decode阶段性能优化。针对长上下文场景下Attention计算的访存瓶颈,提出KVCache切分策略(Split-K),通过OnlineSoftmax数学公式实现分块结果的无损合并。课程详细讲解AscendC实现方案,包括Stage1分块计算和Stage2全局规约两个核心Kernel,并分析异步流

2025年昇腾CANN训练营第二季推出系列课程助力开发者提升算子开发技能。文章重点解析动态Shape算子开发,提出"液态金属架构"理念,通过InferShape、动态Tiling和Kernel执行三大模块实现二进制泛化。其中动态Tiling作为核心,在运行时根据真实输入Shape计算切分参数,Kernel代码则完全依赖这些参数执行。文章还探讨了非连续内存处理和极端Shape等进

摘要:2025年昇腾CANN训练营第二季提供系列课程,帮助开发者提升算子开发技能,完成认证可获奖励。文章重点探讨了深度学习算子融合技术,提出利用C++模板元编程构建惰性求值引擎,通过表达式模板技术实现算子自动融合。详细介绍了TensorWrapper包装类、操作节点定义及简易DSL实现方法,最终利用AscendC指令实现高效计算。该方案将数学逻辑与底层指令解耦,通过模板展开优化计算图,显著提升开发

调试是一门侦探艺术,而不是试错运气。开发阶段:利用 CPU Twin + ASan,确保逻辑 100% 正确,内存 0 越界。联调阶段:利用 PRINTF(带核号过滤),验证数值精度和关键节点状态。疑难杂症:利用 CAModel 和 Timeline,透视硬件微观行为。不要害怕报错。每一个 Core Dump 都是 NPU 在试图告诉你:我不理解你的逻辑。通过调试工具听懂它的语言,你就能驾驭它。本

摘要:2025年昇腾CANN训练营第二季推出0基础到进阶的算子开发课程,助力开发者提升技能。本文以3D检测网络中的Voxelization算子为例,详解其核心算法:通过哈希映射将离散点云转换为规则网格,处理动态输入和并发写入问题。重点展示了AscendC实现方案,包括原子操作处理冲突、随机内存访问优化等关键技术,并指出性能瓶颈及优化方向(如点云预排序)。该算子是检验AI芯片编程能力的重要案例,掌握









