weixin_41374321 个人主页

@weixin_41374321

weixin_41374321

2023-04-26 16:14:19 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

昇腾平台上的pytorch模型训练和性能调优指南

在昇腾异构计算架构中，MindStudio Insight工具以时间线（Timeline）的呈现方式将训练/推理过程中的host、device上的运行详细情况平铺在时间轴上，直观呈现host侧的API耗时情况以及device侧的task耗时，并将host与device进行关联呈现，帮助用户快速识别host瓶颈或device瓶颈，同时提供各种筛选分类、专家建议等功能，支撑用户进行深度调优。训练脚本在

#pytorch #人工智能 #python +2

昇腾大模型量化推理--ModelSlim量化工具使用

MindStudio ModelSlim，昇腾模型压缩工具，一个以加速为目标、压缩为技术、昇腾为根本的亲和压缩工具。支持训练加速和推理加速，包括模型低秩分解、稀疏训练、训练后量化、量化感知训练等功能，昇腾AI模型开发用户可以灵活调用Python API接口，对模型进行性能调优，并支持导出不同格式模型，在昇腾AI处理器上运行。

#人工智能 #华为 #python +1

昇腾平台上的pytorch模型训练和性能调优指南

#pytorch #人工智能 #python +2

昇腾计算图融合算法开发教程

本教程端到端教会用户完成：将Pytorch训好的模型转化为昇腾计算图表达，然后自定义规则对计算图做融合优化，最后将优化后的计算图做编译运行，从而针对性的深度优化用户自定义模型的推理性能。Pytorch模型转化为onnx格式return xreturn xreturn xif stride!resnet50_model = torch.load('resnet50.pth', map_locatio

#人工智能 #pytorch #华为 +1

昇腾卡上训练模型遇到报错rtEnableP2P failed的解决方法

因此，模型初始化各网络层时的npu()数据和模型加载的ckpt都在0卡上，但训练时产生的数据都在各个卡上，一起计算时就会出现0卡和其它卡之间的通信拷贝。每张卡pcie有16个atu资源，每张卡通信时都占用2个atu（一个发送，一个接受），意味着同时最多只能和8个device p2p enable.组网时HCCL又限制了只能在当前环所有卡，和另外一个环里的一张卡，比如0和8，1和9。4）排查模型

#人工智能 #python #pytorch +2

DeepSeek-V3/R1在昇腾硬件上的量化测试指南

可以帮助开发者在昇腾硬件上快速部署DeepSeek-V3/R1量化模型

#人工智能 #语言模型 #python +2

Qwen3在昇腾卡上的训练和推理部署

Qwen3是Qwen系列中最新一代的大型语言模型，提供了密集和混合专家(MoE)模型的全面套件。思维模式（用于复杂的逻辑推理、数学和编码）和非思维模式（用于高效、通用的对话）在单个模型内无缝切换，确保跨各种场景的最佳性能。增强了推理能力在数学、代码生成和常识逻辑推理方面超过了之前的QwQ（思维模式）和Qwen2.5（非思维模式）。人类偏好调整，擅长创意写作、角色扮演、多轮对话和指令跟随，提供更自然

#人工智能 #nlp #华为

昇腾卡上模型训练过程中出现grad_norm为NAN的问题定位方法

grad_norm通常用模型参数梯度的范数表示，常用二范数计算；所以grad_norm出现NAN值先排查模型参数的梯度是否存在NAN值；Megatron-LM中grad_norm计算方法是MegatronOptimizer类中的clip_grad_norm方法（megatron/optimizer/optimizer.py文件中）

#算法 #人工智能 #pytorch +3

DeepSeek-V3/R1在昇腾硬件上的量化测试指南

可以帮助开发者在昇腾硬件上快速部署DeepSeek-V3/R1量化模型

#人工智能 #语言模型 #python +2

Qwen3在昇腾卡上的训练和推理部署

#人工智能 #nlp #华为

共 12 条

请选择