
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
上周帮一个实习生在昇腾NPU上跑 ops-transformer 的 FlashAttention 算子,从 clone 到 ut 通过花了两天——不是因为代码难,是因为踩了太多环境坑。把整个过程记下来,后面的人不用再踩一遍。昇腾CANN 的 ops-transformer 仓库是 Transformer 类大模型进阶算子库,FlashAttention、MoE路由、MC2 通信这些算子全在这里。
上周帮一个实习生在昇腾NPU上跑 ops-transformer 的 FlashAttention 算子,从 clone 到 ut 通过花了两天——不是因为代码难,是因为踩了太多环境坑。把整个过程记下来,后面的人不用再踩一遍。昇腾CANN 的 ops-transformer 仓库是 Transformer 类大模型进阶算子库,FlashAttention、MoE路由、MC2 通信这些算子全在这里。
上周帮一个实习生在昇腾NPU上跑 ops-transformer 的 FlashAttention 算子,从 clone 到 ut 通过花了两天——不是因为代码难,是因为踩了太多环境坑。把整个过程记下来,后面的人不用再踩一遍。昇腾CANN 的 ops-transformer 仓库是 Transformer 类大模型进阶算子库,FlashAttention、MoE路由、MC2 通信这些算子全在这里。
刚接触昇腾CANN那会,我以为 ops-transformer 就是个普通的算子仓库,和 ops-math、ops-nn 没什么区别。后来跑一个 70B 模型的推理任务,显存直接爆了,才发现大模型的注意力计算才是真正的吞显存怪兽——而 ops-transformer 里那个 FlashAttention,是昇腾NPU上唯一能把这头怪兽关进笼子的东西。ops-transformer 是昇腾CANN
刚接触昇腾CANN那会,我以为 ops-transformer 就是个普通的算子仓库,和 ops-math、ops-nn 没什么区别。后来跑一个 70B 模型的推理任务,显存直接爆了,才发现大模型的注意力计算才是真正的吞显存怪兽——而 ops-transformer 里那个 FlashAttention,是昇腾NPU上唯一能把这头怪兽关进笼子的东西。ops-transformer 是昇腾CANN
刚接触昇腾CANN那会,我以为 ops-transformer 就是个普通的算子仓库,和 ops-math、ops-nn 没什么区别。后来跑一个 70B 模型的推理任务,显存直接爆了,才发现大模型的注意力计算才是真正的吞显存怪兽——而 ops-transformer 里那个 FlashAttention,是昇腾NPU上唯一能把这头怪兽关进笼子的东西。ops-transformer 是昇腾CANN







