
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
上个月接了个需求,客户要用 Qwen-72B 处理 10 万 token 的长文档。一开始我说:“没问题,昇腾 910 有 64GB 显存,72B 模型参数才 140GB 左右,量化一下能塞下。结果一跑,OOM。客户问:“不是说 64GB 显存够吗?FlashAttention 就是来解决这个问题的。它把 Attention 的显存占用从 O(N²) 降到 O(N),让昇腾 NPU 能跑更长的序列

前段时间在优化一个Qwen-72B的推理服务,发现profile下来RMSNorm占了总计算时间的12%。这个算子本身很简单——就一个向量归一化加一个逐元素乘法——但它被调用的次数太多了。Transformer每一层前后各调一次,72B模型有80层,一次推理要跑160次RMSNorm。CANN开源社区的ops-transformer仓库里有现成的RMSNorm算子实现,性能调得很好。

cann-recipes-train 是昇腾 CANN 开源社区的大模型训练仓库,专门展示如何在昇腾 NPU 上跑通主流大模型的预训练和微调流程。推理:加载别人已经训练好的模型,直接用预训练:从零开始训练,需要大量数据、算力、时间微调(Fine-tuning):在预训练模型基础上,用少量数据微调这篇文章讲微调——在昇腾 NPU 上用 LoRA + QLoRA 技术微调 Qwen2.5-7B,让它学

本文深入解析了昇腾 NPU 上 MoE(混合专家)算子的实现与优化,重点围绕TopKGating 路由和Expert 并行两大核心操作展开。

本文深入解析了昇腾 NPU 上 MoE(混合专家)算子的实现与优化,重点围绕TopKGating 路由和Expert 并行两大核心操作展开。

ops-nn 的 MatMul 融合算子通过三项核心技术实现。

ops-nn 的 MatMul 融合算子通过三项核心技术实现。

cann-recipes-train 是昇腾 CANN 开源社区的大模型训练仓库,专门展示如何在昇腾 NPU 上跑通主流大模型的预训练和微调流程。推理:加载别人已经训练好的模型,直接用预训练:从零开始训练,需要大量数据、算力、时间微调(Fine-tuning):在预训练模型基础上,用少量数据微调这篇文章讲微调——在昇腾 NPU 上用 LoRA + QLoRA 技术微调 Qwen2.5-7B,让它学

cann-recipes-train 是昇腾 CANN 开源社区的大模型训练仓库,专门展示如何在昇腾 NPU 上跑通主流大模型的预训练和微调流程。推理:加载别人已经训练好的模型,直接用预训练:从零开始训练,需要大量数据、算力、时间微调(Fine-tuning):在预训练模型基础上,用少量数据微调这篇文章讲微调——在昇腾 NPU 上用 LoRA + QLoRA 技术微调 Qwen2.5-7B,让它学

cann-recipes-train 是昇腾 CANN 开源社区的大模型训练仓库,专门展示如何在昇腾 NPU 上跑通主流大模型的预训练和微调流程。推理:加载别人已经训练好的模型,直接用预训练:从零开始训练,需要大量数据、算力、时间微调(Fine-tuning):在预训练模型基础上,用少量数据微调这篇文章讲微调——在昇腾 NPU 上用 LoRA + QLoRA 技术微调 Qwen2.5-7B,让它学








