额哈哈sy 个人主页

@2501_93660349

额哈哈sy

2025-12-01 12:40:19 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

CANN 里那个把 Transformer 推理瓶颈撕开的算子——FlashAttention 到底干了什么

摘要：FlashAttention通过分块计算和OnlineSoftmax技术，避免生成完整的注意力矩阵，显著降低显存占用和提升推理速度。在昇腾NPU上，ops-transformer针对硬件特性优化了分块策略、因果掩码融合和KVCache对齐，使Llama2-70B推理显存降至8%、延迟减少65%。该技术本质是优化数据搬运而非近似计算，特别适合内存带宽受限场景。需注意算子对头维度128有最优适配

#transformer #深度学习 #人工智能

CANN 里那个把 Transformer 推理瓶颈撕开的算子——FlashAttention 到底干了什么

#transformer #深度学习 #人工智能

CANN：不只是加速器，更是AI落地的“操作系统”

在今天这个大模型横行、推理需求爆炸式增长的时代，光靠通用CPU跑AI已经越来越力不从心。我们迫切需要一套既能榨干硬件性能、又能让开发者高效开发的底层支撑系统——而CANN（Compute Architecture for Neural Networks），正是这样一种被低估却至关重要的存在。很多人一听到“AI加速架构”，第一反应可能是某个芯片或者某家厂商的专属工具链。但CANN不一样。

#人工智能 #架构

在昇腾上跑算法：从传统排序到AI加速的思维跃迁

本文探讨了如何在华为昇腾AI处理器上优化传统算法，提出从"CPU思维"转向"昇腾思维"的方法。以Top-K算法为例，通过将数据转化为Tensor形式并调用昇腾专用算子，实现了5倍于CPU的性能提升。文章总结了昇腾算法设计的三大原则：张量化、批处理和算子融合，并指出昇腾不仅适用于AI任务，也能加速图像处理、金融计算等传统算法。最后为开发者提供了昇腾开发的入门建

#算法 #人工智能

在昇腾上跑算法：从传统排序到AI加速的思维跃迁

#算法 #人工智能

在昇腾上跑算法：从传统排序到AI加速的思维跃迁

#算法 #人工智能

到底了