徐安安_ye4 个人主页

@2601_96131644

徐安安_ye4

2026-05-21 22:19:49 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

用 TGI 在昇腾 NPU 上部署 FlashAttention：完整实战手册

之前有个朋友用 vLLM 跑 Llama-2-7B，遇上了一个很诡异的问题：长文本生成的时候，每生成 50idot token 就会卡顿 2-3 秒。查了半天发现是 PagedAttention 的显存整理开销。后来帮他换成了 TGI（HuggingFace 官方的推理框架），同样开 FlashAttention，长文本生成的延迟稳得很。这里把 TGI 在昇腾 NPU 上的完整部署流程记下来，照着

#python

FlashAttention与医疗诊断：AI辅助看片的智能时代

FlashAttention通过三层架构（影像编码、病灶建模、诊断输出），让医疗诊断的AUC提升。

#人工智能

FlashAttention与智能作曲：让AI谱写动人旋律

FlashAttention通过三层架构（乐符编码、旋律建模、和弦生成），让智能作曲的VQVAE评分提升。

#人工智能

FlashAttention与游戏AI：非玩家角色智能进化

FlashAttention通过三层架构（状态编码、决策生成、动作执行与学习），让游戏AI的智能度提升。

#游戏 #人工智能

FlashAttention与代码生成：程序员的智能搭档

昇腾CANN平台上的ops-transformer算子库最近合入了代码生成优化。很多人问："FlashAttention能不能用于代码生成？"答案是能！而且效果炸裂。在昇腾NPU（Ascend 910）上实测，用FlashAttention的代码生成模型Pass@1提升22.8%，推理速度提升5.8倍。这个代码生成指南已经在atomgit开源，包含完整代码和实测数据。

#学习

FlashAttention与代码生成：程序员的智能搭档

#学习

FlashAttention与代码生成：程序员的智能搭档

#学习

【无标题】

之前有个朋友在昇腾NPU上调FlashAttention的参数，发现block_size这个参数可以调——默认是128，但他试了64和256，发现性能不一样。他问我：这个128是怎么来的？为什么不是64？不是256？这里面有什么讲究？这个问题问得很好。FlashAttention的分块大小不是拍脑袋选的，它是SRAM大小、头维度、计算强度三个因素平衡出来的结果。今天用尽量直观的方式，把这个问题讲清

#前端

【无标题】

#前端

FlashAttention 为什么在昇腾 NPU 上这么快？聊清楚硬件亲和性这件事

SRAM 够大（64MB），能放 128×128 的分块，减少 HBM 读写。Cube 和 Vector Core 能同时工作，流水线并行打满利用率。原生支持 FP16→FP32 累加，Softmax 不用手动 Cast。SRAM 的 Bank 并行，隐藏访问延迟。你要是想自己写一个 FlashAttention 算子（或者优化现有的），重点不是堆 FLOPS，而是减少 HBM 读写次数 + 最大

#网络 #python

共 14 条

请选择