logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

你的大模型想开 32K 上下文?FlashAttention 长上下文优化实战

想把 LLaMA 的上下文从 4K 拉到 32K,但一跑就 OOM?别急着换模型。FlashAttention 的分块机制配合 ops-transformer 的 chunked prefill,让你在昇腾NPU 上跑 32K 上下文成为可能。这篇文章手把手带你配置长上下文环境,30 分钟搞定。

#android
你的大模型想开 32K 上下文?FlashAttention 长上下文优化实战

想把 LLaMA 的上下文从 4K 拉到 32K,但一跑就 OOM?别急着换模型。FlashAttention 的分块机制配合 ops-transformer 的 chunked prefill,让你在昇腾NPU 上跑 32K 上下文成为可能。这篇文章手把手带你配置长上下文环境,30 分钟搞定。

#android
你的大模型想开 32K 上下文?FlashAttention 长上下文优化实战

想把 LLaMA 的上下文从 4K 拉到 32K,但一跑就 OOM?别急着换模型。FlashAttention 的分块机制配合 ops-transformer 的 chunked prefill,让你在昇腾NPU 上跑 32K 上下文成为可能。这篇文章手把手带你配置长上下文环境,30 分钟搞定。

#android
# 你的 LLaMA 模型在昇腾NPU 上跑太慢了?三步换上 FlashAttention,提速 2-3 倍

正在用昇腾NPU 跑大模型推理,被以下几个问题困扰?别急着加 GPU。换个 attention 算子就能解决。ops-transformer 仓库(https://atomgit.com/cann/ops-transformer)里的 FlashAttention 算子,把 PyTorch 原生 attention 换成它,延迟直接砍到 1/3,显存占用降到原来的 1/5。这篇文章手把手带你从零开

# 你的 LLaMA 模型在昇腾NPU 上跑太慢了?三步换上 FlashAttention,提速 2-3 倍

正在用昇腾NPU 跑大模型推理,被以下几个问题困扰?别急着加 GPU。换个 attention 算子就能解决。ops-transformer 仓库(https://atomgit.com/cann/ops-transformer)里的 FlashAttention 算子,把 PyTorch 原生 attention 换成它,延迟直接砍到 1/3,显存占用降到原来的 1/5。这篇文章手把手带你从零开

# 你的 LLaMA 模型在昇腾NPU 上跑太慢了?三步换上 FlashAttention,提速 2-3 倍

正在用昇腾NPU 跑大模型推理,被以下几个问题困扰?别急着加 GPU。换个 attention 算子就能解决。ops-transformer 仓库(https://atomgit.com/cann/ops-transformer)里的 FlashAttention 算子,把 PyTorch 原生 attention 换成它,延迟直接砍到 1/3,显存占用降到原来的 1/5。这篇文章手把手带你从零开

ops-transformer 的 FlashAttention:给昇腾NPU 配了个“智能分拣中心“

刚接触 CANN 那会,我被大模型推理的延迟吓到了——13B 的模型,跑 2048 个 token 要 89 毫秒。朋友说:“你没用 FlashAttention 吧?换了它,延迟直接砍到 1/3。我半信半疑去 ops-transformer 仓库(https://atomgit.com/cann/ops-transformer)翻代码,才发现这玩意本质上是个"智能快递分拣中心"——把原本要反复搬

#transformer#深度学习#人工智能
ops-transformer 的 FlashAttention:给昇腾NPU 配了个“智能分拣中心“

刚接触 CANN 那会,我被大模型推理的延迟吓到了——13B 的模型,跑 2048 个 token 要 89 毫秒。朋友说:“你没用 FlashAttention 吧?换了它,延迟直接砍到 1/3。我半信半疑去 ops-transformer 仓库(https://atomgit.com/cann/ops-transformer)翻代码,才发现这玩意本质上是个"智能快递分拣中心"——把原本要反复搬

#transformer#深度学习#人工智能
ops-transformer 的 FlashAttention:给昇腾NPU 配了个“智能分拣中心“

刚接触 CANN 那会,我被大模型推理的延迟吓到了——13B 的模型,跑 2048 个 token 要 89 毫秒。朋友说:“你没用 FlashAttention 吧?换了它,延迟直接砍到 1/3。我半信半疑去 ops-transformer 仓库(https://atomgit.com/cann/ops-transformer)翻代码,才发现这玩意本质上是个"智能快递分拣中心"——把原本要反复搬

#transformer#深度学习#人工智能
ops-transformer 的 FlashAttention:给昇腾NPU 配了个“高效厨房“

第一次在昇腾NPU 上跑 LLaMA-13B 的时候,显存爆了。不是模型太大,是 attention 计算中间存了一大堆临时矩阵,把 HBM(高带宽内存)撑到爆。那会还没用 ops-transformer 的 FlashAttention,用的是 PyTorch 原生的。后来翻 ops-transformer 的代码才发现,人家根本不存那些中间矩阵——直接在 SRAM(静态随机存取存储器)里把活干

#transformer#深度学习#人工智能
    共 115 条
  • 1
  • 2
  • 3
  • 12
  • 请选择