logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

FlashAttention:让长文本推理不再“卡显存“

上个月接了个需求,客户要用 Qwen-72B 处理 10 万 token 的长文档。一开始我说:“没问题,昇腾 910 有 64GB 显存,72B 模型参数才 140GB 左右,量化一下能塞下。结果一跑,OOM。客户问:“不是说 64GB 显存够吗?FlashAttention 就是来解决这个问题的。它把 Attention 的显存占用从 O(N²) 降到 O(N),让昇腾 NPU 能跑更长的序列

文章图片
#python
手搓一个昇腾NPU上的RMSNorm算子:从原理到性能调优全记录

前段时间在优化一个Qwen-72B的推理服务,发现profile下来RMSNorm占了总计算时间的12%。这个算子本身很简单——就一个向量归一化加一个逐元素乘法——但它被调用的次数太多了。Transformer每一层前后各调一次,72B模型有80层,一次推理要跑160次RMSNorm。CANN开源社区的ops-transformer仓库里有现成的RMSNorm算子实现,性能调得很好。

文章图片
#transformer#mfc#深度学习
在昇腾 NPU 上用 DeepSpeed ZeRO-2 微调大模型:Qwen2.5-7B 训练实战

cann-recipes-train 是昇腾 CANN 开源社区的大模型训练仓库,专门展示如何在昇腾 NPU 上跑通主流大模型的预训练和微调流程。推理:加载别人已经训练好的模型,直接用预训练:从零开始训练,需要大量数据、算力、时间微调(Fine-tuning):在预训练模型基础上,用少量数据微调这篇文章讲微调——在昇腾 NPU 上用 LoRA + QLoRA 技术微调 Qwen2.5-7B,让它学

文章图片
#python
深度 | 昇腾NPU MoE算子实现:从TopKGating到Expert并行,稀疏激活的硬件适配

本文深入解析了昇腾 NPU 上 MoE(混合专家)算子的实现与优化,重点围绕TopKGating 路由和Expert 并行两大核心操作展开。

文章图片
#网络
深度 | 昇腾NPU MoE算子实现:从TopKGating到Expert并行,稀疏激活的硬件适配

本文深入解析了昇腾 NPU 上 MoE(混合专家)算子的实现与优化,重点围绕TopKGating 路由和Expert 并行两大核心操作展开。

文章图片
#网络
在昇腾 NPU 上用 DeepSpeed ZeRO-2 微调大模型:Qwen2.5-7B 训练实战

cann-recipes-train 是昇腾 CANN 开源社区的大模型训练仓库,专门展示如何在昇腾 NPU 上跑通主流大模型的预训练和微调流程。推理:加载别人已经训练好的模型,直接用预训练:从零开始训练,需要大量数据、算力、时间微调(Fine-tuning):在预训练模型基础上,用少量数据微调这篇文章讲微调——在昇腾 NPU 上用 LoRA + QLoRA 技术微调 Qwen2.5-7B,让它学

文章图片
#python
在昇腾 NPU 上用 DeepSpeed ZeRO-2 微调大模型:Qwen2.5-7B 训练实战

cann-recipes-train 是昇腾 CANN 开源社区的大模型训练仓库,专门展示如何在昇腾 NPU 上跑通主流大模型的预训练和微调流程。推理:加载别人已经训练好的模型,直接用预训练:从零开始训练,需要大量数据、算力、时间微调(Fine-tuning):在预训练模型基础上,用少量数据微调这篇文章讲微调——在昇腾 NPU 上用 LoRA + QLoRA 技术微调 Qwen2.5-7B,让它学

文章图片
#python
在昇腾 NPU 上用 DeepSpeed ZeRO-2 微调大模型:Qwen2.5-7B 训练实战

cann-recipes-train 是昇腾 CANN 开源社区的大模型训练仓库,专门展示如何在昇腾 NPU 上跑通主流大模型的预训练和微调流程。推理:加载别人已经训练好的模型,直接用预训练:从零开始训练,需要大量数据、算力、时间微调(Fine-tuning):在预训练模型基础上,用少量数据微调这篇文章讲微调——在昇腾 NPU 上用 LoRA + QLoRA 技术微调 Qwen2.5-7B,让它学

文章图片
#python
    共 40 条
  • 1
  • 2
  • 3
  • 4
  • 请选择