
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
上礼拜有个同学问我:“catlass 到底干嘛的?跟 ops-transformer 啥关系?我给他打了个比方:ops-transformer 是现成的成品菜,开袋即食;catlass 是菜谱加厨具,你自己照着做。成品菜方便但口味固定,菜谱灵活但得自己动手。今天我们就动手——用 catlass 的算子模板,写一个跑在昇腾NPU上的 FlashAttention 算子。

上礼拜有个同学问我:“catlass 到底干嘛的?跟 ops-transformer 啥关系?我给他打了个比方:ops-transformer 是现成的成品菜,开袋即食;catlass 是菜谱加厨具,你自己照着做。成品菜方便但口味固定,菜谱灵活但得自己动手。今天我们就动手——用 catlass 的算子模板,写一个跑在昇腾NPU上的 FlashAttention 算子。

第一次在昇腾NPU上跑大模型那会,attention计算直接把显存吃满。那时候我还没搞清楚怎么回事,模型就OOM了。后来才发现,标准attention计算的显存占用是序列长度的平方级。也就是说,序列长度翻倍,显存占用直接翻四倍。这在 Ascend 910 上跑长文本,基本等于自杀。——它把 FlashAttention 算子实现在昇腾NPU上,让你能在显存受限的情况下跑更长的序列。

第一次在昇腾NPU上跑大模型那会,attention计算直接把显存吃满。那时候我还没搞清楚怎么回事,模型就OOM了。后来才发现,标准attention计算的显存占用是序列长度的平方级。也就是说,序列长度翻倍,显存占用直接翻四倍。这在 Ascend 910 上跑长文本,基本等于自杀。——它把 FlashAttention 算子实现在昇腾NPU上,让你能在显存受限的情况下跑更长的序列。

第一次在昇腾NPU上跑大模型那会,attention计算直接把显存吃满。那时候我还没搞清楚怎么回事,模型就OOM了。后来才发现,标准attention计算的显存占用是序列长度的平方级。也就是说,序列长度翻倍,显存占用直接翻四倍。这在 Ascend 910 上跑长文本,基本等于自杀。——它把 FlashAttention 算子实现在昇腾NPU上,让你能在显存受限的情况下跑更长的序列。

随着 Llama、Qwen、ChatGLM 等大语言模型(LLM)的广泛应用,高效推理已成为产业落地的核心瓶颈。尽管昇腾 910B 等 AI 芯片提供了高达 256 TFLOPS(FP16)的理论算力,但在实际部署中,许多模型的利用率不足 30%。究其原因,往往是通用算子库无法匹配模型中的非标准结构或细粒度融合需求。此时,Ascend C便成为打通“算法-编译-硬件”全链路的关键工具。本文将以Tr

2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0基础入门系列、码力全开特辑、开发者案例等专题课程,助力不同阶段开发者快速提升算子开发技能。获得Ascend C算子中级认证,即可领取精美证书,完成社区任务更有机会赢取华为手机,平板、开发板等大奖。报名链接:https://www.hiascend.com/developer/activities/cann20252。

Ascend C 是华为为昇腾 AI 处理器(如 Ascend 910B、310P 等)量身打造的高性能 C++ 扩展语言。它并非一门全新的编程语言,而是基于标准 C++17/20,通过引入一系列内置函数(Intrinsics)内存管理原语和并行编程模型,使开发者能够直接操作昇腾芯片的计算单元(如 AI Core 中的 Cube 单元、Vector 单元)和片上内存(如 Unified Buffe

随着 Llama、Qwen、ChatGLM 等大语言模型(LLM)的广泛应用,高效推理已成为产业落地的核心瓶颈。尽管昇腾 910B 等 AI 芯片提供了高达 256 TFLOPS(FP16)的理论算力,但在实际部署中,许多模型的利用率不足 30%。究其原因,往往是通用算子库无法匹配模型中的非标准结构或细粒度融合需求。此时,Ascend C便成为打通“算法-编译-硬件”全链路的关键工具。本文将以Tr

2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0基础入门系列、码力全开特辑、开发者案例等专题课程,助力不同阶段开发者快速提升算子开发技能。获得Ascend C算子中级认证,即可领取精美证书,完成社区任务更有机会赢取华为手机,平板、开发板等大奖。报名链接:https://www.hiascend.com/developer/activities/cann20252。








