logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【昇腾CANN训练营·第十期】实战验收:Ascend C算子开发微认证通关宝典

摘要:2025年昇腾CANN训练营第二季推出系列专题课程,助力开发者掌握AscendC算子开发技能,完成认证可获得证书及华为产品奖励。本期重点解析AscendC算子开发微认证攻略,涵盖理论考点(硬件架构、编程模型、API规范)和实操技巧(环境配置、代码补全、避坑指南),并提供考前检查清单。通过认证将验证开发者对AI底层开发的掌握程度,为进阶学习奠定基础。

文章图片
#昇腾#架构#开发语言
【昇腾CANN训练营·进阶篇】拒绝 NaN!手搓 Safe Softmax 算子的数值稳定艺术

摘要:本文详细解析在昇腾NPU上开发高性能Softmax算子的关键技术。针对FP16数值范围有限的挑战,提出基于x-max(x)的数值稳定方案,避免指数运算溢出。重点剖析AscendC编程中的向量化优化技巧,如使用Brcb指令实现高效广播,避免标量-向量数据搬运开销。同时强调工业级实现中FP16到FP32的精度保护策略,并简要探讨大模型场景下的OnlineSoftmax实现思路。通过硬件特性和算法

文章图片
#昇腾#算法
一节课破壁融合算子:掌握高效提速的核心技法

《AscendC算子融合技术解析与实践》摘要:本文深入探讨了AscendC平台中算子融合技术在高性能计算中的应用。通过分析计算密度公式FLOPs/Bytes,指出Element-wise操作存在IO瓶颈问题。文章以AddRelu算子为例,对比传统单算子调度与融合方案,展示后者可减少50%IO数据量并提升带宽性能。详细介绍了融合算子的实现方法,包括UB空间规划、原地计算等关键技术,同时指出UB容量、

文章图片
#昇腾#人工智能
【昇腾CANN训练营·进阶篇】乾坤大挪移:达芬奇架构下的 Transpose 高效实现心法

摘要:本文深入探讨昇腾NPU上数据重排性能优化策略。针对Transpose/Permute操作导致的计算流等待问题,提出三种硬件级优化方案:1)利用MTE引擎的Stride搬运实现内存搬运时的数据重排;2)使用Vector单元的Gather指令处理UB内部细粒度重排;3)借助Cube单元的格式转换电路完成大规模矩阵转置。特别指出,通过MatMul伪计算可充分利用Cube单元的高吞吐特性。文章强调在

文章图片
#昇腾#人工智能#算法
【昇腾CANN训练营·微操篇】摒弃标量思维:深入 Ascend C 向量指令的 Mask 与 Repeat 机制

摘要:2025年昇腾CANN训练营第二季推出0基础入门、码力全开特辑等专题课程,助力开发者提升算子开发技能。完成AscendC算子中级认证可获证书,参与社区任务更有机会赢取华为手机等大奖。报名链接:https://www.hiascend.com/developer/activities/cann20252

文章图片
#昇腾
【昇腾CANN训练营·行业篇】去伪存真:基于 AI Core 的高效 NMS(非极大值抑制)算子开发

摘要:2025年昇腾CANN训练营第二季提供算子开发课程,助力开发者技能提升。本文重点讲解在AscendC中优化目标检测网络中的NMS(非极大值抑制)算法。针对NMS串行处理的特点,提出"并行IoU+串行Mask"策略,利用Vector指令批量计算交并比,同时保持贪心算法逻辑。详细介绍了AscendC实现方案,包括Kernel类定义、IoU并行计算核心逻辑,并探讨了性能优化方向

文章图片
#昇腾
【昇腾CANN训练营·行业篇】自动驾驶核心:基于Ascend C的Voxelization体素化算子开发

摘要:2025年昇腾CANN训练营第二季推出Voxelization算子开发专题,重点解决3D点云处理中的稀疏性、冲突写入和随机访存难题。该算子需将不规则点云转换为规整特征图,核心挑战包括动态输入、并发写入和内存不连续访问。训练营提供从基础到进阶的课程体系,完成认证可获华为设备奖励,助力开发者掌握自动驾驶等领域的LiDAR感知模型优化能力。报名链接:https://www.hiascend.com

文章图片
#昇腾
【昇腾CANN训练营·黑客篇】硬核调试:使用BlackBox与Exception Dump定位NPU死机与异常

摘要:2025年昇腾CANN训练营第二季提供全场景算子开发课程,助力开发者技能提升。针对NPU算子开发中的致命错误,文章详细介绍了两种调试方法:通过acl.json配置导出异常信息(ExceptionDump)和使用ada工具提取黑匣子日志(BlackBox)。重点解析了常见错误类型(越界写、死锁、栈溢出)的诊断技巧,强调反汇编分析和防御性编程的重要性。训练营还提供AscendC认证和丰厚奖品,报

文章图片
#昇腾
【昇腾CANN训练营·行业篇】长序列推理救星:FlashDecoding算子开发与KV Cache并行规约实战

摘要:2025年昇腾CANN训练营第二季推出FlashDecoding专题课程,聚焦大模型推理中的Decode阶段性能优化。针对长上下文场景下Attention计算的访存瓶颈,提出KVCache切分策略(Split-K),通过OnlineSoftmax数学公式实现分块结果的无损合并。课程详细讲解AscendC实现方案,包括Stage1分块计算和Stage2全局规约两个核心Kernel,并分析异步流

文章图片
#昇腾
【昇腾CANN训练营·前沿篇】解构DeepSeek:基于Ascend C实现MLA (Multi-Head Latent Attention) 算子

摘要:2025年昇腾CANN训练营第二季推出系列课程,助力开发者提升算子开发技能,完成认证可获奖励。本文重点解析DeepSeek提出的MLA(Multi-Head Latent Attention)技术,通过低秩投影压缩KV缓存,显著降低显存占用。文章详细阐述MLA的核心算法原理,包括RoPE解耦和矩阵吸收技巧,并展示如何使用AscendC实现融合算子FusedMLA Kernel,通过双路Att

文章图片
#昇腾
    共 227 条
  • 1
  • 2
  • 3
  • 23
  • 请选择