logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

CANN 里那个把 Transformer 推理瓶颈撕开的算子——FlashAttention 到底干了什么

摘要:FlashAttention通过分块计算和OnlineSoftmax技术,避免生成完整的注意力矩阵,显著降低显存占用和提升推理速度。在昇腾NPU上,ops-transformer针对硬件特性优化了分块策略、因果掩码融合和KVCache对齐,使Llama2-70B推理显存降至8%、延迟减少65%。该技术本质是优化数据搬运而非近似计算,特别适合内存带宽受限场景。需注意算子对头维度128有最优适配

#transformer#深度学习#人工智能
CANN 里那个把 Transformer 推理瓶颈撕开的算子——FlashAttention 到底干了什么

摘要:FlashAttention通过分块计算和OnlineSoftmax技术,避免生成完整的注意力矩阵,显著降低显存占用和提升推理速度。在昇腾NPU上,ops-transformer针对硬件特性优化了分块策略、因果掩码融合和KVCache对齐,使Llama2-70B推理显存降至8%、延迟减少65%。该技术本质是优化数据搬运而非近似计算,特别适合内存带宽受限场景。需注意算子对头维度128有最优适配

#transformer#深度学习#人工智能
CANN:不只是加速器,更是AI落地的“操作系统”

在今天这个大模型横行、推理需求爆炸式增长的时代,光靠通用CPU跑AI已经越来越力不从心。我们迫切需要一套既能榨干硬件性能、又能让开发者高效开发的底层支撑系统——而CANN(Compute Architecture for Neural Networks),正是这样一种被低估却至关重要的存在。很多人一听到“AI加速架构”,第一反应可能是某个芯片或者某家厂商的专属工具链。但CANN不一样。

#人工智能#架构
在昇腾上跑算法:从传统排序到AI加速的思维跃迁

本文探讨了如何在华为昇腾AI处理器上优化传统算法,提出从"CPU思维"转向"昇腾思维"的方法。以Top-K算法为例,通过将数据转化为Tensor形式并调用昇腾专用算子,实现了5倍于CPU的性能提升。文章总结了昇腾算法设计的三大原则:张量化、批处理和算子融合,并指出昇腾不仅适用于AI任务,也能加速图像处理、金融计算等传统算法。最后为开发者提供了昇腾开发的入门建

文章图片
#算法#人工智能
在昇腾上跑算法:从传统排序到AI加速的思维跃迁

本文探讨了如何在华为昇腾AI处理器上优化传统算法,提出从"CPU思维"转向"昇腾思维"的方法。以Top-K算法为例,通过将数据转化为Tensor形式并调用昇腾专用算子,实现了5倍于CPU的性能提升。文章总结了昇腾算法设计的三大原则:张量化、批处理和算子融合,并指出昇腾不仅适用于AI任务,也能加速图像处理、金融计算等传统算法。最后为开发者提供了昇腾开发的入门建

文章图片
#算法#人工智能
在昇腾上跑算法:从传统排序到AI加速的思维跃迁

本文探讨了如何在华为昇腾AI处理器上优化传统算法,提出从"CPU思维"转向"昇腾思维"的方法。以Top-K算法为例,通过将数据转化为Tensor形式并调用昇腾专用算子,实现了5倍于CPU的性能提升。文章总结了昇腾算法设计的三大原则:张量化、批处理和算子融合,并指出昇腾不仅适用于AI任务,也能加速图像处理、金融计算等传统算法。最后为开发者提供了昇腾开发的入门建

#算法#人工智能
到底了