logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

从 MiniMind 推理实战出发:使用 msprof 定位 Ascend NPU 性能瓶颈

本文基于MiniMind模型在Ascend 910B4上的推理性能分析,通过msprof工具发现主要瓶颈集中在:1)Device侧算子串行导致stream利用率低;2)小batch size限制MatMul和FlashAttention并行度;3)部分算子落入低效AI_CPU路径;4)高频小算子累积开销显著;5)Host侧调度和首次调用开销较大。

到底了