
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
SRAM 够大(64MB),能放 128×128 的分块,减少 HBM 读写。Cube 和 Vector Core 能同时工作,流水线并行打满利用率。原生支持 FP16→FP32 累加,Softmax 不用手动 Cast。SRAM 的 Bank 并行,隐藏访问延迟。你要是想自己写一个 FlashAttention 算子(或者优化现有的),重点不是堆 FLOPS,而是减少 HBM 读写次数 + 最大

SRAM 够大(64MB),能放 128×128 的分块,减少 HBM 读写。Cube 和 Vector Core 能同时工作,流水线并行打满利用率。原生支持 FP16→FP32 累加,Softmax 不用手动 Cast。SRAM 的 Bank 并行,隐藏访问延迟。你要是想自己写一个 FlashAttention 算子(或者优化现有的),重点不是堆 FLOPS,而是减少 HBM 读写次数 + 最大

SRAM 够大(64MB),能放 128×128 的分块,减少 HBM 读写。Cube 和 Vector Core 能同时工作,流水线并行打满利用率。原生支持 FP16→FP32 累加,Softmax 不用手动 Cast。SRAM 的 Bank 并行,隐藏访问延迟。你要是想自己写一个 FlashAttention 算子(或者优化现有的),重点不是堆 FLOPS,而是减少 HBM 读写次数 + 最大

之前有个朋友用 vLLM 跑 Llama-2-7B,遇上了一个很诡异的问题:长文本生成的时候,每生成 50idot token 就会卡顿 2-3 秒。查了半天发现是 PagedAttention 的显存整理开销。后来帮他换成了 TGI(HuggingFace 官方的推理框架),同样开 FlashAttention,长文本生成的延迟稳得很。这里把 TGI 在昇腾 NPU 上的完整部署流程记下来,照着

之前有个朋友用 vLLM 跑 Llama-2-7B,遇上了一个很诡异的问题:长文本生成的时候,每生成 50idot token 就会卡顿 2-3 秒。查了半天发现是 PagedAttention 的显存整理开销。后来帮他换成了 TGI(HuggingFace 官方的推理框架),同样开 FlashAttention,长文本生成的延迟稳得很。这里把 TGI 在昇腾 NPU 上的完整部署流程记下来,照着








