
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
想把 LLaMA 的上下文从 4K 拉到 32K,但一跑就 OOM?别急着换模型。FlashAttention 的分块机制配合 ops-transformer 的 chunked prefill,让你在昇腾NPU 上跑 32K 上下文成为可能。这篇文章手把手带你配置长上下文环境,30 分钟搞定。
想把 LLaMA 的上下文从 4K 拉到 32K,但一跑就 OOM?别急着换模型。FlashAttention 的分块机制配合 ops-transformer 的 chunked prefill,让你在昇腾NPU 上跑 32K 上下文成为可能。这篇文章手把手带你配置长上下文环境,30 分钟搞定。
想把 LLaMA 的上下文从 4K 拉到 32K,但一跑就 OOM?别急着换模型。FlashAttention 的分块机制配合 ops-transformer 的 chunked prefill,让你在昇腾NPU 上跑 32K 上下文成为可能。这篇文章手把手带你配置长上下文环境,30 分钟搞定。
正在用昇腾NPU 跑大模型推理,被以下几个问题困扰?别急着加 GPU。换个 attention 算子就能解决。ops-transformer 仓库(https://atomgit.com/cann/ops-transformer)里的 FlashAttention 算子,把 PyTorch 原生 attention 换成它,延迟直接砍到 1/3,显存占用降到原来的 1/5。这篇文章手把手带你从零开
正在用昇腾NPU 跑大模型推理,被以下几个问题困扰?别急着加 GPU。换个 attention 算子就能解决。ops-transformer 仓库(https://atomgit.com/cann/ops-transformer)里的 FlashAttention 算子,把 PyTorch 原生 attention 换成它,延迟直接砍到 1/3,显存占用降到原来的 1/5。这篇文章手把手带你从零开
正在用昇腾NPU 跑大模型推理,被以下几个问题困扰?别急着加 GPU。换个 attention 算子就能解决。ops-transformer 仓库(https://atomgit.com/cann/ops-transformer)里的 FlashAttention 算子,把 PyTorch 原生 attention 换成它,延迟直接砍到 1/3,显存占用降到原来的 1/5。这篇文章手把手带你从零开
刚接触 CANN 那会,我被大模型推理的延迟吓到了——13B 的模型,跑 2048 个 token 要 89 毫秒。朋友说:“你没用 FlashAttention 吧?换了它,延迟直接砍到 1/3。我半信半疑去 ops-transformer 仓库(https://atomgit.com/cann/ops-transformer)翻代码,才发现这玩意本质上是个"智能快递分拣中心"——把原本要反复搬
刚接触 CANN 那会,我被大模型推理的延迟吓到了——13B 的模型,跑 2048 个 token 要 89 毫秒。朋友说:“你没用 FlashAttention 吧?换了它,延迟直接砍到 1/3。我半信半疑去 ops-transformer 仓库(https://atomgit.com/cann/ops-transformer)翻代码,才发现这玩意本质上是个"智能快递分拣中心"——把原本要反复搬
刚接触 CANN 那会,我被大模型推理的延迟吓到了——13B 的模型,跑 2048 个 token 要 89 毫秒。朋友说:“你没用 FlashAttention 吧?换了它,延迟直接砍到 1/3。我半信半疑去 ops-transformer 仓库(https://atomgit.com/cann/ops-transformer)翻代码,才发现这玩意本质上是个"智能快递分拣中心"——把原本要反复搬
第一次在昇腾NPU 上跑 LLaMA-13B 的时候,显存爆了。不是模型太大,是 attention 计算中间存了一大堆临时矩阵,把 HBM(高带宽内存)撑到爆。那会还没用 ops-transformer 的 FlashAttention,用的是 PyTorch 原生的。后来翻 ops-transformer 的代码才发现,人家根本不存那些中间矩阵——直接在 SRAM(静态随机存取存储器)里把活干







