小a杰. 个人主页

@2501_94417424

小a杰.

2025-11-28 23:29:53 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

catlass模板库拆解高性能算子开发的关键

昇腾CANN的catlass算子模板库通过三层架构（基础模板层、算子模板层、接口层）封装硬件优化技术，显著提升NPU算子开发效率和性能。以MatMul模板为例，采用分块计算、双缓冲等优化策略，实测性能接近理论峰值（125TFLOPS），开发时间从15人天缩短至2人天。该模板库使开发者无需深入硬件细节即可实现高性能算子，是昇腾生态的关键组件。

catlass模板库拆解高性能算子开发的关键

Ascend C编程语言进阶：高性能算子开发技巧

本文介绍了Ascend C编程语言的高级特性和性能优化技巧。主要内容包括：1）精细的内存层级管理（GM/LM/Register）及内存对齐优化；2）计算单元（Cube/Vector/Scalar Unit）的高效利用；3）多AI Core间的同步与通信机制。通过MatMul算子实例展示了分块计算、流水线设计等优化方法，在Ascend 910上实现1024×1024矩阵乘法的高性能计算。关键优化点包

#c语言 #android #开发语言

Ascend C编程语言进阶：高性能算子开发技巧

#c语言 #android #开发语言

FlashAttention算子深度解读昇腾NPU上的注意力计算优化

本文介绍了在昇腾NPU上使用Ascend C开发自定义算子的完整流程。主要内容包括：1）算子设计阶段确定功能接口；2）使用Ascend C实现计算逻辑；3）编译生成NPU可执行代码；4）部署到CANN运行环境；5）功能验证和性能测试。通过AddOne和MatMul两个算子实例，展示了内存管理、分块计算等核心开发技术，并提供了内存对齐、流水线设计等优化技巧。实测数据显示，采用Ascend C开发的算

#c语言 #开发语言

FlashAttention算子深度解读昇腾NPU上的注意力计算优化

#c语言 #开发语言

FlashAttention算子深度解读昇腾NPU上的注意力计算优化

#c语言 #开发语言

昇腾NPU模型迁移实战：从GPU到NPU的平滑迁移

本文介绍了深度学习模型从GPU迁移到昇腾NPU的完整流程。主要内容包括：1）环境准备，安装CANN和配置开发环境；2）模型分析，确定需要迁移的算子；3）算子迁移与验证；4）性能调优方法。文章通过PyTorch和Transformer模型示例展示了迁移的核心思路：只需将模型和数据移至NPU，代码改动极小。实测数据显示，优化后的昇腾NPU性能可超越GPU。该迁移方案能降低部署成本，同时深入理解NPU硬

昇腾NPU模型迁移实战：从GPU到NPU的平滑迁移

共 63 条

请选择