logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【昇腾CANN训练营·行业篇】长序列推理救星:FlashDecoding算子开发与KV Cache并行规约实战

摘要:2025年昇腾CANN训练营第二季推出FlashDecoding专题课程,聚焦大模型推理中的Decode阶段性能优化。针对长上下文场景下Attention计算的访存瓶颈,提出KVCache切分策略(Split-K),通过OnlineSoftmax数学公式实现分块结果的无损合并。课程详细讲解AscendC实现方案,包括Stage1分块计算和Stage2全局规约两个核心Kernel,并分析异步流

文章图片
#昇腾
【昇腾CANN训练营·第十九期】一次编译,到处运行:揭秘Ascend C算子的二进制泛化机制

2025年昇腾CANN训练营第二季推出系列课程助力开发者提升算子开发技能。文章重点解析动态Shape算子开发,提出"液态金属架构"理念,通过InferShape、动态Tiling和Kernel执行三大模块实现二进制泛化。其中动态Tiling作为核心,在运行时根据真实输入Shape计算切分参数,Kernel代码则完全依赖这些参数执行。文章还探讨了非连续内存处理和极端Shape等进

文章图片
#昇腾#架构#人工智能
【昇腾CANN训练营·进阶篇】极致融合:利用C++表达式模板(Expression Templates)实现算子“零开销”级联

摘要:2025年昇腾CANN训练营第二季提供系列课程,帮助开发者提升算子开发技能,完成认证可获奖励。文章重点探讨了深度学习算子融合技术,提出利用C++模板元编程构建惰性求值引擎,通过表达式模板技术实现算子自动融合。详细介绍了TensorWrapper包装类、操作节点定义及简易DSL实现方法,最终利用AscendC指令实现高效计算。该方案将数学逻辑与底层指令解耦,通过模板展开优化计算图,显著提升开发

文章图片
#昇腾#c++
【昇腾CANN训练营·调试篇】黑盒里的微光:Ascend C 算子调试与定位的高级技巧

调试是一门侦探艺术,而不是试错运气。开发阶段:利用 CPU Twin + ASan,确保逻辑 100% 正确,内存 0 越界。联调阶段:利用 PRINTF(带核号过滤),验证数值精度和关键节点状态。疑难杂症:利用 CAModel 和 Timeline,透视硬件微观行为。不要害怕报错。每一个 Core Dump 都是 NPU 在试图告诉你:我不理解你的逻辑。通过调试工具听懂它的语言,你就能驾驭它。本

文章图片
#昇腾
【昇腾CANN训练营·行业篇】自动驾驶核心:基于Ascend C的Voxelization体素化算子开发

摘要:2025年昇腾CANN训练营第二季推出0基础到进阶的算子开发课程,助力开发者提升技能。本文以3D检测网络中的Voxelization算子为例,详解其核心算法:通过哈希映射将离散点云转换为规则网格,处理动态输入和并发写入问题。重点展示了AscendC实现方案,包括原子操作处理冲突、随机内存访问优化等关键技术,并指出性能瓶颈及优化方向(如点云预排序)。该算子是检验AI芯片编程能力的重要案例,掌握

文章图片
#昇腾
【昇腾CANN训练营·算法篇】图计算的艺术:基于Ascend C实现GNN核心算子Scatter-Gather与消息传递

2025年昇腾CANN训练营第二季推出系列课程,助力开发者提升算子开发技能。训练营重点讲解图神经网络(GNN)的Message Passing机制,其核心是通过Gather-Scatter操作实现节点间信息传递。课程详细介绍了AscendC实现GNN算子的方法,包括Kernel类定义、计算流程及性能优化策略,如索引排序和稀疏矩阵乘法转换。掌握这些技术可优化AlphaFold等前沿模型,完成课程可获

文章图片
#昇腾
【昇腾CANN训练营·算法篇】图计算的艺术:基于Ascend C实现GNN核心算子Scatter-Gather与消息传递

2025年昇腾CANN训练营第二季推出GNN算子开发专题课程,帮助开发者掌握图神经网络核心算法。GNN通过消息传递机制实现节点特征更新,工程实现中采用边表(COO格式)替代邻接矩阵。课程详细讲解了基于AscendC的Scatter-Gather范式实现,包括Kernel类定义、核心计算逻辑和性能优化策略,如索引排序和稀疏矩阵乘法转换。训练营提供从0基础到进阶的系列课程,完成认证可获得证书及华为设备

文章图片
#昇腾
【昇腾CANN训练营·番外篇】考古与未来:从TIK (Python DSL)到Ascend C的演进启示

2025年昇腾CANN训练营第二季推出系列课程,助力开发者提升算子开发技能。训练营提供0基础入门、码力全开特辑等专题,完成AscendC算子中级认证可获得证书及抽奖机会。文章对比了昇腾算子开发的两种范式:基于Python的TIK/TBE和基于C++的AscendC,通过VectorAdd算子实例展示其差异。TIK需要手动计算参数,类似"汇编级Python";而AscendC采用

文章图片
#昇腾
【昇腾CANN训练营·前沿篇】解构DeepSeek:基于Ascend C实现MLA (Multi-Head Latent Attention) 算子

摘要:2025年昇腾CANN训练营第二季推出系列课程,助力开发者提升算子开发技能,完成认证可获奖励。本文重点解析DeepSeek提出的MLA(Multi-Head Latent Attention)技术,通过低秩投影压缩KV缓存,显著降低显存占用。文章详细阐述MLA的核心算法原理,包括RoPE解耦和矩阵吸收技巧,并展示如何使用AscendC实现融合算子FusedMLA Kernel,通过双路Att

文章图片
#昇腾
【昇腾CANN训练营·进阶篇】上帝的骰子:在 AI Core 上实现高性能随机数生成与 Dropout 算子

摘要:2025年昇腾CANN训练营第二季提供从0基础到进阶的算子开发课程,完成认证可获得证书及奖品。本文重点解析AI芯片中随机数生成的工程难题,介绍Philox算法如何在确定性硬件上实现并行伪随机数生成,并以Dropout算子开发为例,展示AscendC实现过程,包括核心逻辑、代码实现及性能优化技巧。文章最后预告下期将探讨零代码算子融合技术。(149字)

#昇腾#人工智能
    共 185 条
  • 1
  • 2
  • 3
  • 19
  • 请选择