
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文详细介绍了在昇腾 CANN 的 ops-nn 仓库中新增 SwiGLU 激活函数算子的完整流程。首先分析了 ops-nn 的架构定位与算子注册机制,然后基于 SwiGLU 的数学定义设计了前向计算和反向梯度推导方案,进而拆解出从算子注册、Shape 推导到 Tiling 策略、Ascend C 实现等七个关键开发步骤。重点探讨了 Tiling 策略的设计原理与实现细节,并提供了完整的代码实现框

本文详细介绍了在昇腾 CANN 的 ops-nn 仓库中新增 SwiGLU 激活函数算子的完整流程。首先分析了 ops-nn 的架构定位与算子注册机制,然后基于 SwiGLU 的数学定义设计了前向计算和反向梯度推导方案,进而拆解出从算子注册、Shape 推导到 Tiling 策略、Ascend C 实现等七个关键开发步骤。重点探讨了 Tiling 策略的设计原理与实现细节,并提供了完整的代码实现框

本文详细介绍了在昇腾 CANN 的 ops-nn 仓库中新增 SwiGLU 激活函数算子的完整流程。首先分析了 ops-nn 的架构定位与算子注册机制,然后基于 SwiGLU 的数学定义设计了前向计算和反向梯度推导方案,进而拆解出从算子注册、Shape 推导到 Tiling 策略、Ascend C 实现等七个关键开发步骤。重点探讨了 Tiling 策略的设计原理与实现细节,并提供了完整的代码实现框

摘要 catlass是一个专为昇腾NPU设计的GEMM模板库,灵感源自NVIDIA CUTLASS,通过分层模板设计封装硬件细节,实现高性能矩阵运算。其核心架构包含四层:1) TilePolicy定义分块策略,匹配昇腾张量核心特性;2) ThreadMap优化数据映射,确保高效内存访问;3) Mainloop实现流水线计算,支持多级并行;4) Epilogue链式后处理,支持算子融合。开发者通过组

摘要 catlass是一个专为昇腾NPU设计的GEMM模板库,灵感源自NVIDIA CUTLASS,通过分层模板设计封装硬件细节,实现高性能矩阵运算。其核心架构包含四层:1) TilePolicy定义分块策略,匹配昇腾张量核心特性;2) ThreadMap优化数据映射,确保高效内存访问;3) Mainloop实现流水线计算,支持多级并行;4) Epilogue链式后处理,支持算子融合。开发者通过组

摘要 catlass是一个专为昇腾NPU设计的GEMM模板库,灵感源自NVIDIA CUTLASS,通过分层模板设计封装硬件细节,实现高性能矩阵运算。其核心架构包含四层:1) TilePolicy定义分块策略,匹配昇腾张量核心特性;2) ThreadMap优化数据映射,确保高效内存访问;3) Mainloop实现流水线计算,支持多级并行;4) Epilogue链式后处理,支持算子融合。开发者通过组

FlashAttention 在昇腾 NPU 上的工程实践 摘要:本文详细介绍了在华为昇腾 NPU 上部署和优化 FlashAttention 算子的全流程实践。通过分析 ops-transformer 仓库的实现架构,阐述了 FlashAttention 三个版本(v1/v2/v3)的核心差异及适用场景,并针对不同昇腾硬件(910/910B/910C)的特性给出了优化建议。文章重点讲解了编译环境

FlashAttention 在昇腾 NPU 上的工程实践 摘要:本文详细介绍了在华为昇腾 NPU 上部署和优化 FlashAttention 算子的全流程实践。通过分析 ops-transformer 仓库的实现架构,阐述了 FlashAttention 三个版本(v1/v2/v3)的核心差异及适用场景,并针对不同昇腾硬件(910/910B/910C)的特性给出了优化建议。文章重点讲解了编译环境

FlashAttention 在昇腾 NPU 上的工程实践 摘要:本文详细介绍了在华为昇腾 NPU 上部署和优化 FlashAttention 算子的全流程实践。通过分析 ops-transformer 仓库的实现架构,阐述了 FlashAttention 三个版本(v1/v2/v3)的核心差异及适用场景,并针对不同昇腾硬件(910/910B/910C)的特性给出了优化建议。文章重点讲解了编译环境

本文介绍了华为昇腾 CANN 官方示例库 cann-samples 的基本结构和使用方法,重点解析了 AscendCL(Ascend Computing Language)的核心调用流程。文章首先概述了 cann-samples 的项目结构,包括推理、算子开发、媒体处理等不同场景的示例分类。随后详细阐述了 AscendCL 的 7 个关键步骤生命周期管理,从初始化到资源释放的完整过程,并深入解读了








