logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

基于昇腾的性能通用定位指南-02整体定位流程

性能优化总体思路围绕展开,具体步骤如下。说明:性能优化的前提是不造成精度劣化,特殊情况下,需对齐精度劣化是否能接受。

#昇腾
基于昇腾的性能通用定位指南-03 性能工具的使用

cluster_analyse:集群场景下,如千卡、万卡等无法直接分析全部数据的场景,可通过此工具来提取集群迭代耗时和通信数据, 快速定位慢卡、慢节点以及慢链路问题。支持比较GPU与NPU之间、NPU与NPU之间的单卡性能差异,更推荐在GPU迁移NPU性能劣化、性能抖动等有基线比对数据的场景使用。AI框架Profiler接口封装了msprof命令行工具,进一步增加了对AI框架层性能数据的采集与解析

#昇腾
揭开算子精度调试黑箱,MindStudio算子工具助力开发效率大幅提升

msSanitizer 与 msDebug 作为 MindStudio 算子工具链的重要能力,分别从 “异常预防” 和 “问题溯源” 两个维度发力,为昇腾 NPU 算子的精度调试提供了系统化解决方案,是提升算子开发质量与效率的关键利器,目前该工具已正式发布,更多功能请参考官方资料。

文章图片
#人工智能#昇腾
基于昇腾的性能通用定位指南-03 性能工具的使用

cluster_analyse:集群场景下,如千卡、万卡等无法直接分析全部数据的场景,可通过此工具来提取集群迭代耗时和通信数据, 快速定位慢卡、慢节点以及慢链路问题。支持比较GPU与NPU之间、NPU与NPU之间的单卡性能差异,更推荐在GPU迁移NPU性能劣化、性能抖动等有基线比对数据的场景使用。AI框架Profiler接口封装了msprof命令行工具,进一步增加了对AI框架层性能数据的采集与解析

#昇腾
INT4量化新突破!昇腾MindStudio 量化工具助力DeepSeek R1显存减负75%,精度仅损失<1%

msModelSlim量化工具,为用户提供了多种量化、离群值抑制算法的API接口。同时,msModelSlim也提供一键量化、自动选层的能力,用户无需深入量化细节或反复调试参数,仅需调用简洁接口即可快速完成最优量化配置搜索,降低操作门槛,显著提升开发效率。无论是希望快速部署轻量化模型的工程师,还是追求极致性能的研究者,msModelSlim都能提供专业、高效的量化工具,助力AI应用高效落地,欢迎大

文章图片
#昇腾
基于昇腾的性能通用定位指南-03 性能工具的使用

cluster_analyse:集群场景下,如千卡、万卡等无法直接分析全部数据的场景,可通过此工具来提取集群迭代耗时和通信数据, 快速定位慢卡、慢节点以及慢链路问题。支持比较GPU与NPU之间、NPU与NPU之间的单卡性能差异,更推荐在GPU迁移NPU性能劣化、性能抖动等有基线比对数据的场景使用。AI框架Profiler接口封装了msprof命令行工具,进一步增加了对AI框架层性能数据的采集与解析

#昇腾
基于昇腾的性能通用定位指南-01概述

更新时间:2025/09/17随着人工智能模型规模的不断扩大及应用场景的日益复杂,在昇腾AI计算平台上进行训练和部署时,面临着Host-Device协同效率不高、重要算子性能下滑、通信延迟增大、模型下发效率低等诸多挑战。因此,深度学习系统的性能瓶颈也从计算能力提升,转变为对硬件平台、软件栈、通信机制以及模型结构之间的协同效率进行全面优化的需求。在此背景下,迫切需要构建一套系统性的性能分析与优化框架

#昇腾
揭开算子精度调试黑箱,MindStudio算子工具助力开发效率大幅提升

CrossEntropy为一个交叉熵损失函数,算子数学模型和CPU实现参考如下:图3. 示例算子数学模型算子编写完毕,板上执行时,出现AiCore Error问题,如下图所示:图4. 示例算子异常plog地址未对齐,即未按照32B对齐;地址出现越界行为,即非法读、写;核内、核间存在竞争问题;Ascend C API 使用不当;

文章图片
#人工智能
INT4量化新突破!昇腾MindStudio 量化工具助力DeepSeek R1显存减负75%,精度仅损失<1%

msModelSlim量化工具,为用户提供了多种量化、离群值抑制算法的API接口。同时,msModelSlim也提供一键量化、自动选层的能力,用户无需深入量化细节或反复调试参数,仅需调用简洁接口即可快速完成最优量化配置搜索,降低操作门槛,显著提升开发效率。无论是希望快速部署轻量化模型的工程师,还是追求极致性能的研究者,msModelSlim都能提供专业、高效的量化工具,助力AI应用高效落地,欢迎大

文章图片
到底了