hid33650692 个人主页

@2500_94661693

hid33650692

2025-12-16 17:38:30 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

用 catlass 模板写一个 FlashAttention 算子：从零到跑通

上礼拜有个同学问我：“catlass 到底干嘛的？跟 ops-transformer 啥关系？我给他打了个比方：ops-transformer 是现成的成品菜，开袋即食；catlass 是菜谱加厨具，你自己照着做。成品菜方便但口味固定，菜谱灵活但得自己动手。今天我们就动手——用 catlass 的算子模板，写一个跑在昇腾NPU上的 FlashAttention 算子。

#算法 #开发语言

用 catlass 模板写一个 FlashAttention 算子：从零到跑通

#算法 #开发语言

FlashAttention：让大模型在昇腾NPU上快起来的秘密

第一次在昇腾NPU上跑大模型那会，attention计算直接把显存吃满。那时候我还没搞清楚怎么回事，模型就OOM了。后来才发现，标准attention计算的显存占用是序列长度的平方级。也就是说，序列长度翻倍，显存占用直接翻四倍。这在 Ascend 910 上跑长文本，基本等于自杀。——它把 FlashAttention 算子实现在昇腾NPU上，让你能在显存受限的情况下跑更长的序列。

#c语言 #开发语言 #算法

FlashAttention：让大模型在昇腾NPU上快起来的秘密

#c语言 #开发语言 #算法

FlashAttention：让大模型在昇腾NPU上快起来的秘密

#c语言 #开发语言 #算法

从算法到硬件：Ascend C 在大模型推理中的实战优化

随着 Llama、Qwen、ChatGLM 等大语言模型（LLM）的广泛应用，高效推理已成为产业落地的核心瓶颈。尽管昇腾 910B 等 AI 芯片提供了高达 256 TFLOPS（FP16）的理论算力，但在实际部署中，许多模型的利用率不足 30%。究其原因，往往是通用算子库无法匹配模型中的非标准结构或细粒度融合需求。此时，Ascend C便成为打通“算法-编译-硬件”全链路的关键工具。本文将以Tr

#算法 #c语言 #开发语言

Ascend C 高级优化与典型算子实现剖析

2025年昇腾CANN训练营第二季，基于CANN开源开放全场景，推出0基础入门系列、码力全开特辑、开发者案例等专题课程，助力不同阶段开发者快速提升算子开发技能。获得Ascend C算子中级认证，即可领取精美证书，完成社区任务更有机会赢取华为手机，平板、开发板等大奖。报名链接:https://www.hiascend.com/developer/activities/cann20252。

#c语言 #开发语言

深入理解 Ascend C：华为昇腾 AI 芯片的高效算子开发语言

Ascend C 是华为为昇腾 AI 处理器（如 Ascend 910B、310P 等）量身打造的高性能 C++ 扩展语言。它并非一门全新的编程语言，而是基于标准 C++17/20，通过引入一系列内置函数（Intrinsics）内存管理原语和并行编程模型，使开发者能够直接操作昇腾芯片的计算单元（如 AI Core 中的 Cube 单元、Vector 单元）和片上内存（如 Unified Buffe

#人工智能 #开发语言 #c语言

从算法到硬件：Ascend C 在大模型推理中的实战优化

#算法 #c语言 #开发语言

Ascend C 高级优化与典型算子实现剖析

#c语言 #开发语言

共 21 条

请选择