zyh121212666666 个人主页

@zyh121212666666

zyh121212666666

2025-12-16 11:54:03 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

FlashAttention：让长文本推理不再“卡显存“

上个月接了个需求，客户要用 Qwen-72B 处理 10 万 token 的长文档。一开始我说：“没问题，昇腾 910 有 64GB 显存，72B 模型参数才 140GB 左右，量化一下能塞下。结果一跑，OOM。客户问：“不是说 64GB 显存够吗？FlashAttention 就是来解决这个问题的。它把 Attention 的显存占用从 O(N²) 降到 O(N)，让昇腾 NPU 能跑更长的序列

#python

手搓一个昇腾NPU上的RMSNorm算子：从原理到性能调优全记录

前段时间在优化一个Qwen-72B的推理服务，发现profile下来RMSNorm占了总计算时间的12%。这个算子本身很简单——就一个向量归一化加一个逐元素乘法——但它被调用的次数太多了。Transformer每一层前后各调一次，72B模型有80层，一次推理要跑160次RMSNorm。CANN开源社区的ops-transformer仓库里有现成的RMSNorm算子实现，性能调得很好。

#transformer #mfc #深度学习

在昇腾 NPU 上用 DeepSpeed ZeRO-2 微调大模型：Qwen2.5-7B 训练实战

cann-recipes-train 是昇腾 CANN 开源社区的大模型训练仓库，专门展示如何在昇腾 NPU 上跑通主流大模型的预训练和微调流程。推理：加载别人已经训练好的模型，直接用预训练：从零开始训练，需要大量数据、算力、时间微调（Fine-tuning）：在预训练模型基础上，用少量数据微调这篇文章讲微调——在昇腾 NPU 上用 LoRA + QLoRA 技术微调 Qwen2.5-7B，让它学