
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
2025年昇腾CANN训练营第二季推出系列课程,助力开发者提升算子开发技能,完成认证可获证书及大奖。文章重点讲解如何实现"一次编写,端侧运行"的交叉编译技术:通过搭建OpenHarmony SDK和昇腾ACL库(ARM版)工具链,配置CMake进行交叉编译生成ARM架构可执行文件,并使用HDC工具部署到鸿蒙设备运行。同时指出端侧开发需注意内存池化、静态Shape等资源约束问题,

2025年昇腾CANN训练营第二季推出系列课程助力开发者提升算子开发技能。文章重点解析动态Shape算子开发,提出"液态金属架构"理念,通过InferShape、动态Tiling和Kernel执行三大模块实现二进制泛化。其中动态Tiling作为核心,在运行时根据真实输入Shape计算切分参数,Kernel代码则完全依赖这些参数执行。文章还探讨了非连续内存处理和极端Shape等进

摘要:2025年昇腾CANN训练营第二季提供全场景算子开发课程,助力开发者技能提升。本期重点介绍SystemProfiling技术,通过硬件级性能分析突破算子优化瓶颈。文章详解如何采集NPU硬件指标(HBM带宽、频率功耗等),并指导解读波形数据诊断内存、算力等瓶颈。结合Roofline模型分析,帮助开发者从系统架构视角优化性能,实现从代码逻辑到硬件物理的思维跃迁。该技术是AI系统调优的关键技能,为

摘要:本文详细解析在昇腾NPU上开发高性能Softmax算子的关键技术。针对FP16数值范围有限的挑战,提出基于x-max(x)的数值稳定方案,避免指数运算溢出。重点剖析AscendC编程中的向量化优化技巧,如使用Brcb指令实现高效广播,避免标量-向量数据搬运开销。同时强调工业级实现中FP16到FP32的精度保护策略,并简要探讨大模型场景下的OnlineSoftmax实现思路。通过硬件特性和算法

AI CPU 是昇腾全栈能力的“补完计划”。定位:它是兜底方案,不是主力输出。优势:支持标准 C++ 和 STL,开发效率极高,逻辑处理能力强。劣势:算力弱于 AI Core,且存在引擎切换开销。协同:优秀的异构应用,总是将 95% 的 FLOPs 交给 AI Core,将 5% 的复杂控制逻辑交给 AI CPU。掌握了 AI CPU 开发,你就再也不用担心遇到“Ascend C 实现不了”的算法

摘要:本文深入探讨昇腾NPU上数据重排性能优化策略。针对Transpose/Permute操作导致的计算流等待问题,提出三种硬件级优化方案:1)利用MTE引擎的Stride搬运实现内存搬运时的数据重排;2)使用Vector单元的Gather指令处理UB内部细粒度重排;3)借助Cube单元的格式转换电路完成大规模矩阵转置。特别指出,通过MatMul伪计算可充分利用Cube单元的高吞吐特性。文章强调在

摘要:2025年昇腾CANN训练营第二季推出0基础到进阶的算子开发课程,助力开发者提升技能。本文以3D检测网络中的Voxelization算子为例,详解其核心算法:通过哈希映射将离散点云转换为规则网格,处理动态输入和并发写入问题。重点展示了AscendC实现方案,包括原子操作处理冲突、随机内存访问优化等关键技术,并指出性能瓶颈及优化方向(如点云预排序)。该算子是检验AI芯片编程能力的重要案例,掌握

2025昇腾CANN训练营第二季推出0基础到进阶课程,助力开发者掌握算子开发技能。本文重点解析旋转位置编码(RoPE)在AscendC中的实现方法。RoPE通过向量旋转注入位置信息,其核心是将向量分量视为复数进行旋转。文章详细讲解了LLaMA采用的"Half-Rotate"模式实现公式,并给出AscendC代码实现方案:利用Vector单元的Muls指令完成数据交换和符号变换,

2025年昇腾CANN训练营第二季推出0基础入门、开发者案例等课程,助力开发者提升算子开发技能。本文以官方VectorAdd算子为例,深度解析AscendC开发范式。文章剖析了标准算子类的结构,包括初始化函数、核心处理函数和三级流水线设计,详细讲解了内存管理、队列通信等关键技术点。通过分析Init、Process、CopyIn、Compute、CopyOut等核心函数,总结出AscendC开发的三

摘要:2025年昇腾CANN训练营第二季提供系列课程,帮助开发者提升算子开发技能,完成认证可获奖励。文章重点探讨了深度学习算子融合技术,提出利用C++模板元编程构建惰性求值引擎,通过表达式模板技术实现算子自动融合。详细介绍了TensorWrapper包装类、操作节点定义及简易DSL实现方法,最终利用AscendC指令实现高效计算。该方案将数学逻辑与底层指令解耦,通过模板展开优化计算图,显著提升开发









