
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
之前有个朋友用 vLLM 跑 Llama-2-7B,遇上了一个很诡异的问题:长文本生成的时候,每生成 50idot token 就会卡顿 2-3 秒。查了半天发现是 PagedAttention 的显存整理开销。后来帮他换成了 TGI(HuggingFace 官方的推理框架),同样开 FlashAttention,长文本生成的延迟稳得很。这里把 TGI 在昇腾 NPU 上的完整部署流程记下来,照着

FlashAttention通过三层架构(影像编码、病灶建模、诊断输出),让医疗诊断的AUC提升。

FlashAttention通过三层架构(乐符编码、旋律建模、和弦生成),让智能作曲的VQVAE评分提升。

FlashAttention通过三层架构(状态编码、决策生成、动作执行与学习),让游戏AI的智能度提升。

昇腾CANN平台上的ops-transformer算子库最近合入了代码生成优化。很多人问:"FlashAttention能不能用于代码生成?"答案是能!而且效果炸裂。在昇腾NPU(Ascend 910)上实测,用FlashAttention的代码生成模型Pass@1提升22.8%,推理速度提升5.8倍。这个代码生成指南已经在atomgit开源,包含完整代码和实测数据。

昇腾CANN平台上的ops-transformer算子库最近合入了代码生成优化。很多人问:"FlashAttention能不能用于代码生成?"答案是能!而且效果炸裂。在昇腾NPU(Ascend 910)上实测,用FlashAttention的代码生成模型Pass@1提升22.8%,推理速度提升5.8倍。这个代码生成指南已经在atomgit开源,包含完整代码和实测数据。

昇腾CANN平台上的ops-transformer算子库最近合入了代码生成优化。很多人问:"FlashAttention能不能用于代码生成?"答案是能!而且效果炸裂。在昇腾NPU(Ascend 910)上实测,用FlashAttention的代码生成模型Pass@1提升22.8%,推理速度提升5.8倍。这个代码生成指南已经在atomgit开源,包含完整代码和实测数据。

之前有个朋友在昇腾NPU上调FlashAttention的参数,发现block_size这个参数可以调——默认是128,但他试了64和256,发现性能不一样。他问我:这个128是怎么来的?为什么不是64?不是256?这里面有什么讲究?这个问题问得很好。FlashAttention的分块大小不是拍脑袋选的,它是SRAM大小、头维度、计算强度三个因素平衡出来的结果。今天用尽量直观的方式,把这个问题讲清

之前有个朋友在昇腾NPU上调FlashAttention的参数,发现block_size这个参数可以调——默认是128,但他试了64和256,发现性能不一样。他问我:这个128是怎么来的?为什么不是64?不是256?这里面有什么讲究?这个问题问得很好。FlashAttention的分块大小不是拍脑袋选的,它是SRAM大小、头维度、计算强度三个因素平衡出来的结果。今天用尽量直观的方式,把这个问题讲清

SRAM 够大(64MB),能放 128×128 的分块,减少 HBM 读写。Cube 和 Vector Core 能同时工作,流水线并行打满利用率。原生支持 FP16→FP32 累加,Softmax 不用手动 Cast。SRAM 的 Bank 并行,隐藏访问延迟。你要是想自己写一个 FlashAttention 算子(或者优化现有的),重点不是堆 FLOPS,而是减少 HBM 读写次数 + 最大








