logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

基于昇腾的性能通用定位指南-03 性能工具的使用

cluster_analyse:集群场景下,如千卡、万卡等无法直接分析全部数据的场景,可通过此工具来提取集群迭代耗时和通信数据, 快速定位慢卡、慢节点以及慢链路问题。支持比较GPU与NPU之间、NPU与NPU之间的单卡性能差异,更推荐在GPU迁移NPU性能劣化、性能抖动等有基线比对数据的场景使用。AI框架Profiler接口封装了msprof命令行工具,进一步增加了对AI框架层性能数据的采集与解析

#昇腾
基于昇腾的性能通用定位指南-01概述

更新时间:2025/09/17随着人工智能模型规模的不断扩大及应用场景的日益复杂,在昇腾AI计算平台上进行训练和部署时,面临着Host-Device协同效率不高、重要算子性能下滑、通信延迟增大、模型下发效率低等诸多挑战。因此,深度学习系统的性能瓶颈也从计算能力提升,转变为对硬件平台、软件栈、通信机制以及模型结构之间的协同效率进行全面优化的需求。在此背景下,迫切需要构建一套系统性的性能分析与优化框架

#昇腾
基于昇腾的性能通用定位指南-01概述

更新时间:2025/09/17随着人工智能模型规模的不断扩大及应用场景的日益复杂,在昇腾AI计算平台上进行训练和部署时,面临着Host-Device协同效率不高、重要算子性能下滑、通信延迟增大、模型下发效率低等诸多挑战。因此,深度学习系统的性能瓶颈也从计算能力提升,转变为对硬件平台、软件栈、通信机制以及模型结构之间的协同效率进行全面优化的需求。在此背景下,迫切需要构建一套系统性的性能分析与优化框架

#昇腾
基于昇腾的性能通用定位指南-01概述

更新时间:2025/09/17随着人工智能模型规模的不断扩大及应用场景的日益复杂,在昇腾AI计算平台上进行训练和部署时,面临着Host-Device协同效率不高、重要算子性能下滑、通信延迟增大、模型下发效率低等诸多挑战。因此,深度学习系统的性能瓶颈也从计算能力提升,转变为对硬件平台、软件栈、通信机制以及模型结构之间的协同效率进行全面优化的需求。在此背景下,迫切需要构建一套系统性的性能分析与优化框架

#昇腾
揭开算子精度调试黑箱,MindStudio算子工具助力开发效率大幅提升

CrossEntropy为一个交叉熵损失函数,算子数学模型和CPU实现参考如下:图3. 示例算子数学模型算子编写完毕,板上执行时,出现AiCore Error问题,如下图所示:图4. 示例算子异常plog地址未对齐,即未按照32B对齐;地址出现越界行为,即非法读、写;核内、核间存在竞争问题;Ascend C API 使用不当;

文章图片
#人工智能
MindStudio全新支持训练数据在线监测,大幅提升训练效率

需要注意的是,MSPTI(MindStudio Profiling Tool Interface)是更加细粒度的API接口,适合对profiler较为熟悉的用户调用,实现自定义定制化性能指标采集。MindStudio全流程工具链持续演进,旨在为开发者提供更简洁易用的开发工具,此次全新推出msMonitor这款轻量化、高效的昇腾平台训练数据在线监测工具,为AI开发者提供了强大的性能优化支持。其二,面

文章图片
告别参数泥潭!MindStudio快速锁定大模型推理服务化吞吐最优解

MindStudio服务化自动寻优工具,通过仿真建模,自动搜索推荐最优配置参数,帮助开发者告别繁琐的参数调试流程,有效减少反复分析服务化参数-实测-再分析的试错过程,大幅提升服务化调优效率。目前该工具已正式发布,欢迎广大开发者点击链接下载体验!msserviceprofiler/docs/服务化自动寻优工具.md · Ascend/msit - Gitee.com。

文章图片
INT4量化新突破!昇腾MindStudio 量化工具助力DeepSeek R1显存减负75%,精度仅损失<1%

msModelSlim量化工具,为用户提供了多种量化、离群值抑制算法的API接口。同时,msModelSlim也提供一键量化、自动选层的能力,用户无需深入量化细节或反复调试参数,仅需调用简洁接口即可快速完成最优量化配置搜索,降低操作门槛,显著提升开发效率。无论是希望快速部署轻量化模型的工程师,还是追求极致性能的研究者,msModelSlim都能提供专业、高效的量化工具,助力AI应用高效落地,欢迎大

文章图片
到底了