logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

昇腾平台上的pytorch模型训练和性能调优指南

在昇腾异构计算架构中,MindStudio Insight工具以时间线(Timeline)的呈现方式将训练/推理过程中的host、device上的运行详细情况平铺在时间轴上,直观呈现host侧的API耗时情况以及device侧的task耗时,并将host与device进行关联呈现,帮助用户快速识别host瓶颈或device瓶颈,同时提供各种筛选分类、专家建议等功能,支撑用户进行深度调优。训练脚本在

文章图片
#pytorch#人工智能#python +2
昇腾卡上模型训练过程中出现grad_norm为NAN的问题定位方法

grad_norm通常用模型参数梯度的范数表示,常用二范数计算;所以grad_norm出现NAN值先排查模型参数的梯度是否存在NAN值;Megatron-LM中grad_norm计算方法是MegatronOptimizer类中的clip_grad_norm方法(megatron/optimizer/optimizer.py文件中)

#算法#人工智能#pytorch +3
昇腾卡上训练模型遇到报错rtEnableP2P failed的解决方法

因此,模型初始化各网络层时的npu()数据 和 模型加载的ckpt都在0卡上,但训练时产生的数据都在各个卡上,一起计算时就会出现0卡和其它卡之间的通信拷贝。每张卡pcie有16个atu资源,每张卡通信时都占用2个atu(一个发送,一个接受),意味着同时最多只能和8个device p2p enable.组网时HCCL又限制了只能在当前环所有卡,和另外一个环里的一张卡,比如0和8,1和9。4)排查模型

#人工智能#python#pytorch +2
DeepSeek-V3/R1在昇腾硬件上的量化测试指南

可以帮助开发者在昇腾硬件上快速部署DeepSeek-V3/R1量化模型

文章图片
#人工智能#语言模型#python +2
昇腾计算图融合算法开发教程

本教程端到端教会用户完成:将Pytorch训好的模型转化为昇腾计算图表达,然后自定义规则对计算图做融合优化,最后将优化后的计算图做编译运行,从而针对性的深度优化用户自定义模型的推理性能。Pytorch模型转化为onnx格式return xreturn xreturn xif stride!resnet50_model = torch.load('resnet50.pth', map_locatio

文章图片
#人工智能#pytorch#华为 +1
昇腾MindSpeed特性开发指南

MindSpeed 是针对华为昇腾设备的大模型加速库。大模型训练是一种非常复杂的过程,涉及到许多技术和挑战,其中大模型训练需要大量的显存资源是一个难题,对计算卡提出了不小的挑战。为了在单个计算卡显存资源不足时,可以通过多张计算卡进行计算,业界出现了类似 Megatron、DeepSpeed 等第三方大模型加速库,对模型、输入数据等进行切分并分配到不同的计算卡上,最后再通过集合通信对结果进行汇总。

#人工智能#python#pytorch +2
昇腾大模型量化推理--ModelSlim量化工具使用

MindStudio ModelSlim,昇腾模型压缩工具,一个以加速为目标、压缩为技术、昇腾为根本的亲和压缩工具。支持训练加速和推理加速,包括模型低秩分解、稀疏训练、训练后量化、量化感知训练等功能,昇腾AI模型开发用户可以灵活调用Python API接口,对模型进行性能调优,并支持导出不同格式模型,在昇腾AI处理器上运行。

文章图片
#人工智能#华为#python +1
昇腾平台上的pytorch模型训练和性能调优指南

在昇腾异构计算架构中,MindStudio Insight工具以时间线(Timeline)的呈现方式将训练/推理过程中的host、device上的运行详细情况平铺在时间轴上,直观呈现host侧的API耗时情况以及device侧的task耗时,并将host与device进行关联呈现,帮助用户快速识别host瓶颈或device瓶颈,同时提供各种筛选分类、专家建议等功能,支撑用户进行深度调优。训练脚本在

文章图片
#pytorch#人工智能#python +2
昇腾卡上模型训练过程中出现grad_norm为NAN的问题定位方法

grad_norm通常用模型参数梯度的范数表示,常用二范数计算;所以grad_norm出现NAN值先排查模型参数的梯度是否存在NAN值;Megatron-LM中grad_norm计算方法是MegatronOptimizer类中的clip_grad_norm方法(megatron/optimizer/optimizer.py文件中)

#算法#人工智能#pytorch +3
昇腾平台上的pytorch模型训练和性能调优指南

在昇腾异构计算架构中,MindStudio Insight工具以时间线(Timeline)的呈现方式将训练/推理过程中的host、device上的运行详细情况平铺在时间轴上,直观呈现host侧的API耗时情况以及device侧的task耗时,并将host与device进行关联呈现,帮助用户快速识别host瓶颈或device瓶颈,同时提供各种筛选分类、专家建议等功能,支撑用户进行深度调优。训练脚本在

文章图片
#pytorch#人工智能#python +2
    共 21 条
  • 1
  • 2
  • 3
  • 请选择