
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
从 MiniMind 推理实战出发:使用 msprof 定位 Ascend NPU 性能瓶颈
本文基于MiniMind模型在Ascend 910B4上的推理性能分析,通过msprof工具发现主要瓶颈集中在:1)Device侧算子串行导致stream利用率低;2)小batch size限制MatMul和FlashAttention并行度;3)部分算子落入低效AI_CPU路径;4)高频小算子累积开销显著;5)Host侧调度和首次调用开销较大。
到底了







