logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

CANN ops-nn:新增一个自定义激活函数算子的完整流程

本文详细介绍了在昇腾 CANN 的 ops-nn 仓库中新增 SwiGLU 激活函数算子的完整流程。首先分析了 ops-nn 的架构定位与算子注册机制,然后基于 SwiGLU 的数学定义设计了前向计算和反向梯度推导方案,进而拆解出从算子注册、Shape 推导到 Tiling 策略、Ascend C 实现等七个关键开发步骤。重点探讨了 Tiling 策略的设计原理与实现细节,并提供了完整的代码实现框

文章图片
CANN ops-nn:新增一个自定义激活函数算子的完整流程

本文详细介绍了在昇腾 CANN 的 ops-nn 仓库中新增 SwiGLU 激活函数算子的完整流程。首先分析了 ops-nn 的架构定位与算子注册机制,然后基于 SwiGLU 的数学定义设计了前向计算和反向梯度推导方案,进而拆解出从算子注册、Shape 推导到 Tiling 策略、Ascend C 实现等七个关键开发步骤。重点探讨了 Tiling 策略的设计原理与实现细节,并提供了完整的代码实现框

文章图片
CANN ops-nn:新增一个自定义激活函数算子的完整流程

本文详细介绍了在昇腾 CANN 的 ops-nn 仓库中新增 SwiGLU 激活函数算子的完整流程。首先分析了 ops-nn 的架构定位与算子注册机制,然后基于 SwiGLU 的数学定义设计了前向计算和反向梯度推导方案,进而拆解出从算子注册、Shape 推导到 Tiling 策略、Ascend C 实现等七个关键开发步骤。重点探讨了 Tiling 策略的设计原理与实现细节,并提供了完整的代码实现框

文章图片
CANN catlass:用模板组装一个自定义 GEMM 算子

摘要 catlass是一个专为昇腾NPU设计的GEMM模板库,灵感源自NVIDIA CUTLASS,通过分层模板设计封装硬件细节,实现高性能矩阵运算。其核心架构包含四层:1) TilePolicy定义分块策略,匹配昇腾张量核心特性;2) ThreadMap优化数据映射,确保高效内存访问;3) Mainloop实现流水线计算,支持多级并行;4) Epilogue链式后处理,支持算子融合。开发者通过组

文章图片
CANN catlass:用模板组装一个自定义 GEMM 算子

摘要 catlass是一个专为昇腾NPU设计的GEMM模板库,灵感源自NVIDIA CUTLASS,通过分层模板设计封装硬件细节,实现高性能矩阵运算。其核心架构包含四层:1) TilePolicy定义分块策略,匹配昇腾张量核心特性;2) ThreadMap优化数据映射,确保高效内存访问;3) Mainloop实现流水线计算,支持多级并行;4) Epilogue链式后处理,支持算子融合。开发者通过组

文章图片
CANN catlass:用模板组装一个自定义 GEMM 算子

摘要 catlass是一个专为昇腾NPU设计的GEMM模板库,灵感源自NVIDIA CUTLASS,通过分层模板设计封装硬件细节,实现高性能矩阵运算。其核心架构包含四层:1) TilePolicy定义分块策略,匹配昇腾张量核心特性;2) ThreadMap优化数据映射,确保高效内存访问;3) Mainloop实现流水线计算,支持多级并行;4) Epilogue链式后处理,支持算子融合。开发者通过组

文章图片
CANN ops-transformer:编译和运行 FlashAttention 示例

FlashAttention 在昇腾 NPU 上的工程实践 摘要:本文详细介绍了在华为昇腾 NPU 上部署和优化 FlashAttention 算子的全流程实践。通过分析 ops-transformer 仓库的实现架构,阐述了 FlashAttention 三个版本(v1/v2/v3)的核心差异及适用场景,并针对不同昇腾硬件(910/910B/910C)的特性给出了优化建议。文章重点讲解了编译环境

文章图片
#transformer#深度学习#人工智能
CANN ops-transformer:编译和运行 FlashAttention 示例

FlashAttention 在昇腾 NPU 上的工程实践 摘要:本文详细介绍了在华为昇腾 NPU 上部署和优化 FlashAttention 算子的全流程实践。通过分析 ops-transformer 仓库的实现架构,阐述了 FlashAttention 三个版本(v1/v2/v3)的核心差异及适用场景,并针对不同昇腾硬件(910/910B/910C)的特性给出了优化建议。文章重点讲解了编译环境

文章图片
#transformer#深度学习#人工智能
CANN ops-transformer:编译和运行 FlashAttention 示例

FlashAttention 在昇腾 NPU 上的工程实践 摘要:本文详细介绍了在华为昇腾 NPU 上部署和优化 FlashAttention 算子的全流程实践。通过分析 ops-transformer 仓库的实现架构,阐述了 FlashAttention 三个版本(v1/v2/v3)的核心差异及适用场景,并针对不同昇腾硬件(910/910B/910C)的特性给出了优化建议。文章重点讲解了编译环境

文章图片
#transformer#深度学习#人工智能
CANN cann-samples:从示例代码理解 AscendCL 调用流程

本文介绍了华为昇腾 CANN 官方示例库 cann-samples 的基本结构和使用方法,重点解析了 AscendCL(Ascend Computing Language)的核心调用流程。文章首先概述了 cann-samples 的项目结构,包括推理、算子开发、媒体处理等不同场景的示例分类。随后详细阐述了 AscendCL 的 7 个关键步骤生命周期管理,从初始化到资源释放的完整过程,并深入解读了

文章图片
    共 136 条
  • 1
  • 2
  • 3
  • 14
  • 请选择