
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
在用 MindSpore 做大模型分布式训练时遇到棘手问题,求有实战经验的朋友指点一下。目前已经完成模型组网、数据集加载、优化器配置,单机单卡训练可以正常跑通,loss 下降也很平稳,但切换到多卡分布式训练后就出现异常:多卡训练 loss 震荡剧烈,收敛速度远不如单机,不同卡之间输出 logits 存在明显差异,偶尔还会出现训练中途精度突然跳水,也没有显存溢出、报错退出的情况。
使用华为昇腾AI处理器(Ascend 910)搭配MindSpore框架进行大模型训练时遇到了一个棘手的问题,已经排查了好几天还没解决,特来求助。正在尝试在单台8卡昇腾910服务器上微调Qwen-14B模型。环境配置完成后,启动训练脚本大约运行30分钟后,程序会突然崩溃,报错信息显示为“INFNAN模式溢出”和“TBE compile failed for custom operator”双重错误
-fmk=ONNX运行转换命令后报错说缺少ascend 插件库,请问要怎么解决?使用的是mindspore2.4,mindspore lite2.7,cann是8.2.RC1,驱动版本23.0.0。
摘要:使用MindSpore推理DeepSeek模型时出现文本质量骤降问题。经排查权重转换、精度对齐等常见因素后仍无改善。关键原因可能包括:RoPE位置编码实现差异、QKV权重转置错误、RMSNorm计算不一致、注意力掩码逻辑偏差、权重精度损失、KVCache切片错误等。这些不报错的隐性实现差异会导致模型语义理解失效和生成异常,建议重点检查位置编码、归一化层和注意力机制等核心组件的实现一致性。(1
MindIE(Mind Inference Engine,推理引擎)是华为昇腾针对AI全场景业务的推理加速套件。MindSpore是一种适用于端边云场景的新型开源深度学习训练/推理框架。从字面理解,MindIE 和 MindSpore 都能做推理,区别在哪?MindIE 未开源,MindSpore 已开源,原因是啥?这两个最终会不会统一?
MindYOLO使用自定义coco2017数据集训练错误 配置ubuntu系统、CUDA11.6、MindSpore 2.2.14、MindYOLO 0.3.0。训练指令错误日志。

1、在训练了很多个batch之后,提取出来的特征(经过了4层卷积层和全连接层)出现了很大很大的值,之后几个batch后出现NAN,而在没有经过全连接层的时候,特征数字还是正常的。# set diagonal as zero and normalize 原论文是l1归一化。1采用warmup调整一下学习率,最大学习率设置为0.01;3检查最后是否进行归一处理,估计可能取值范围不在0-1之间。2采用梯
运行: docker run -it -v /dev/shm:/dev/shm --runtime=nvidia --privileged=true swr.cn-south-1.myhuaweicloud.com/mindspore/mindspore-gpu:1.3.0 /bin/bash。使用docker安装mindspore1.3还需要限制cuda版本?1.3只提供了cuda11.1版本,
参照按安装指南:https://www.mindspore.cn/install/基础环境:CUDA 11.6具体如图:执行测试过程中一直报错,请问这是哪里的问题呢?或者还需要配置其它什么东西?
原文:相关内容参考:docker 容器内安装 nccl后,测试是否安装成功:使用NVIDIA公司官方提供的测试工具:下载后,进行编译: make默认,cuda的安装位置:/usr/local/cuda默认,nccl的安装位置:/usr如果cuda和nccl的安装位置不是默认的,而是手动选择其他地方的,那么需要在make的时候配置路径:CUDA_HOME 为 cuda的安装路径。NCCL_HOME







