
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
metrics:label:# 不配置将直接使用内置默认配置 export MS_SERVICE_METRIC_CONFIG_PATH = /path/to/metric_config.yaml具体配置项说明可以参考:https://gitcode.com/Ascend/msserviceprofiler/blob/master/ms_service_metric/README.md[#ms](j

metrics:label:# 不配置将直接使用内置默认配置 export MS_SERVICE_METRIC_CONFIG_PATH = /path/to/metric_config.yaml具体配置项说明可以参考:https://gitcode.com/Ascend/msserviceprofiler/blob/master/ms_service_metric/README.md[#ms](j

在强化学习场景下存在多个不同的任务阶段,其内存变化比较大,可以使用 PyTorch Profiler 中的 profile_memory 数据或者 Snapshot 数据来分析内存使用,特别是 Snapshot,其可以查看内存使用细节,在深入分析时非常有用。

MindStudio服务化自动寻优工具,通过仿真建模,自动搜索推荐最优配置参数,帮助开发者告别繁琐的参数调试流程,有效减少反复分析服务化参数-实测-再分析的试错过程,大幅提升服务化调优效率。目前该工具已正式发布,欢迎广大开发者点击链接下载体验!msserviceprofiler/docs/服务化自动寻优工具.md · Ascend/msit - Gitee.com。

在AI计算领域,随着模型规模不断扩大,如何突破训练性能瓶颈已成为开发者面临的关键挑战。特别是在大规模分布式训练场景下,传统性能监测方案存在明显不足:其一,采用被动式监测策略,往往在性能抖动发生后才能触发数据采集,导致问题定位存在延迟;其二,面对训练过程中产生的海量性能数据(通常达数百GB量级),传统方案的解析和转储效率低下,进一步延长了问题诊断周期。这些缺陷不仅影响排障效率,更会造成计算资源浪费。

msSanitizer 与 msDebug 作为 MindStudio 算子工具链的重要能力,分别从 “异常预防” 和 “问题溯源” 两个维度发力,为昇腾 NPU 算子的精度调试提供了系统化解决方案,是提升算子开发质量与效率的关键利器,目前该工具已正式发布,更多功能请参考官方资料。

更新时间:2025/09/17随着人工智能模型规模的不断扩大及应用场景的日益复杂,在昇腾AI计算平台上进行训练和部署时,面临着Host-Device协同效率不高、重要算子性能下滑、通信延迟增大、模型下发效率低等诸多挑战。因此,深度学习系统的性能瓶颈也从计算能力提升,转变为对硬件平台、软件栈、通信机制以及模型结构之间的协同效率进行全面优化的需求。在此背景下,迫切需要构建一套系统性的性能分析与优化框架
性能优化总体思路围绕展开,具体步骤如下。说明:性能优化的前提是不造成精度劣化,特殊情况下,需对齐精度劣化是否能接受。
cluster_analyse:集群场景下,如千卡、万卡等无法直接分析全部数据的场景,可通过此工具来提取集群迭代耗时和通信数据, 快速定位慢卡、慢节点以及慢链路问题。支持比较GPU与NPU之间、NPU与NPU之间的单卡性能差异,更推荐在GPU迁移NPU性能劣化、性能抖动等有基线比对数据的场景使用。AI框架Profiler接口封装了msprof命令行工具,进一步增加了对AI框架层性能数据的采集与解析
msModelSlim量化工具,为用户提供了多种量化、离群值抑制算法的API接口。同时,msModelSlim也提供一键量化、自动选层的能力,用户无需深入量化细节或反复调试参数,仅需调用简洁接口即可快速完成最优量化配置搜索,降低操作门槛,显著提升开发效率。无论是希望快速部署轻量化模型的工程师,还是追求极致性能的研究者,msModelSlim都能提供专业、高效的量化工具,助力AI应用高效落地,欢迎大








