
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文探讨了Cube矩阵运算中的Tiling策略优化问题。相比向量运算的一维切分,矩阵运算需要在M、N、K三个维度进行联合优化,并考虑GM→L1→L0A/L0B→L0C→GM的复杂内存层级。文章提出了基于AICore架构的三维切分模型,详细分析了16字节对齐、L1/L0C缓冲区容量等硬件约束条件,并给出了启发式搜索算法实现。重点讨论了K-Loop模式、贪心扩展策略和数据类型位宽差异等关键问题,指出最

摘要:本文深入解析昇腾AI芯片中的UBFusion算子融合技术,通过将多个小算子融合为一个大算子,实现"一次搬运,多次计算"的性能优化。文章对比了标准流水线与融合流水线的差异,详细介绍了AscendC中的两种融合范式:Vector链式融合和Cube+Vector异构融合,并探讨了内存复用和指令并行等优化技巧。该技术能显著降低HBM带宽压力,充分发挥昇腾芯片的算力优势,是提升AI

摘要:2025年昇腾CANN训练营第二季推出专题课程,助力开发者提升算子开发技能。针对AI芯片不擅长排序的问题,提出基于AscendC的双调排序解决方案。文章详细介绍了双调排序算法原理,并给出AscendC实现TopK的具体方法,包括核心排序逻辑、索引追踪技巧和性能优化策略。通过混合使用硬件指令和数据打包技术,可在AI芯片上高效实现排序功能,为LLM解码等场景提供支持。

摘要:2025年昇腾CANN训练营第二季提供从0基础到进阶的算子开发课程,完成认证可获得证书及奖品。本文重点解析AI芯片中随机数生成的工程难题,介绍Philox算法如何在确定性硬件上实现并行伪随机数生成,并以Dropout算子开发为例,展示AscendC实现过程,包括核心逻辑、代码实现及性能优化技巧。文章最后预告下期将探讨零代码算子融合技术。(149字)
摘要:2025年昇腾CANN训练营第二季推出0基础到进阶的算子开发课程,助力开发者提升技能。本文以3D检测网络中的Voxelization算子为例,详解其核心算法:通过哈希映射将离散点云转换为规则网格,处理动态输入和并发写入问题。重点展示了AscendC实现方案,包括原子操作处理冲突、随机内存访问优化等关键技术,并指出性能瓶颈及优化方向(如点云预排序)。该算子是检验AI芯片编程能力的重要案例,掌握

摘要:本文详细解析在昇腾NPU上开发高性能Softmax算子的关键技术。针对FP16数值范围有限的挑战,提出基于x-max(x)的数值稳定方案,避免指数运算溢出。重点剖析AscendC编程中的向量化优化技巧,如使用Brcb指令实现高效广播,避免标量-向量数据搬运开销。同时强调工业级实现中FP16到FP32的精度保护策略,并简要探讨大模型场景下的OnlineSoftmax实现思路。通过硬件特性和算法

摘要:2025年昇腾CANN训练营推出Int8量化算子开发专题,帮助开发者提升大模型推理性能。文章详细解析了Int8矩阵乘法原理,通过AscendC实现将FP16数据压缩为Int8,利用Cube单元加速计算,再反量化为FP16。重点介绍了Int8Matmul类型定义、反量化处理流程及开发注意事项,包括溢出风险、精度损失等关键问题。掌握该技术可显著降低显存占用,提升推理速度,适用于大模型部署场景。

摘要:2025年昇腾CANN训练营第二季推出FlashDecoding专题课程,聚焦大模型推理中的Decode阶段性能优化。针对长上下文场景下Attention计算的访存瓶颈,提出KVCache切分策略(Split-K),通过OnlineSoftmax数学公式实现分块结果的无损合并。课程详细讲解AscendC实现方案,包括Stage1分块计算和Stage2全局规约两个核心Kernel,并分析异步流

2025年昇腾CANN训练营第二季推出系列课程,助力开发者提升算子开发技能,完成认证可获证书及大奖。文章重点讲解如何实现"一次编写,端侧运行"的交叉编译技术:通过搭建OpenHarmony SDK和昇腾ACL库(ARM版)工具链,配置CMake进行交叉编译生成ARM架构可执行文件,并使用HDC工具部署到鸿蒙设备运行。同时指出端侧开发需注意内存池化、静态Shape等资源约束问题,

2025年昇腾CANN训练营第二季推出系列课程助力开发者提升算子开发技能。文章重点解析动态Shape算子开发,提出"液态金属架构"理念,通过InferShape、动态Tiling和Kernel执行三大模块实现二进制泛化。其中动态Tiling作为核心,在运行时根据真实输入Shape计算切分参数,Kernel代码则完全依赖这些参数执行。文章还探讨了非连续内存处理和极端Shape等进









