logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

MindSpore 加载 DeepSeek 权重后推理效果很差

摘要:使用MindSpore推理DeepSeek模型时出现文本质量骤降问题。经排查权重转换、精度对齐等常见因素后仍无改善。关键原因可能包括:RoPE位置编码实现差异、QKV权重转置错误、RMSNorm计算不一致、注意力掩码逻辑偏差、权重精度损失、KVCache切片错误等。这些不报错的隐性实现差异会导致模型语义理解失效和生成异常,建议重点检查位置编码、归一化层和注意力机制等核心组件的实现一致性。(1

#机器学习#人工智能#深度学习 +1
mindie与mindspore是什么关系?

MindIE(Mind Inference Engine,推理引擎)是华为昇腾针对AI全场景业务的推理加速套件。MindSpore是一种适用于端边云场景的新型开源深度学习训练/推理框架。从字面理解,MindIE 和 MindSpore 都能做推理,区别在哪?MindIE 未开源,MindSpore 已开源,原因是啥?这两个最终会不会统一?

#python#网络
MindSpore:【语音识别】DFCNN网络训练loss不收敛

问题描述我参考了想要用MindSpore也实现语音识别,根据脚本迁移了网络。网络最后是调通了,但是Loss不收敛,训练得到的模型推理结果比预期长了一段。请问有专家可以帮忙看看问题出在哪里吗?附加一些说明,也许可以更好解决我遇到的问题ModelArts上,是用两个网络组合完成语音识别的任务的首先构造了数据集get_data,可以把读取音频文件和标注的文本。思路是先得到声音的时域信息,就是像如下的波形

#语音识别#深度学习#人工智能 +2
mindyolo自定义数据集模型训练报错

MindYOLO使用自定义coco2017数据集训练错误 配置ubuntu系统、CUDA11.6、MindSpore 2.2.14、MindYOLO 0.3.0。训练指令错误日志。

文章图片
#深度学习#人工智能
模型训练出现NAN

1、在训练了很多个batch之后,提取出来的特征(经过了4层卷积层和全连接层)出现了很大很大的值,之后几个batch后出现NAN,而在没有经过全连接层的时候,特征数字还是正常的。# set diagonal as zero and normalize 原论文是l1归一化。1采用warmup调整一下学习率,最大学习率设置为0.01;3检查最后是否进行归一处理,估计可能取值范围不在0-1之间。2采用梯

#python#人工智能#数据挖掘
使用docker安装mindspore1.3.0

运行: docker run -it -v /dev/shm:/dev/shm --runtime=nvidia --privileged=true swr.cn-south-1.myhuaweicloud.com/mindspore/mindspore-gpu:1.3.0 /bin/bash。使用docker安装mindspore1.3还需要限制cuda版本?1.3只提供了cuda11.1版本,

#docker#linux#运维
mindspore 2.6 nightly gpu安装报错

参照按安装指南:https://www.mindspore.cn/install/基础环境:CUDA 11.6具体如图:执行测试过程中一直报错,请问这是哪里的问题呢?或者还需要配置其它什么东西?

#人工智能#算法#深度学习
docker下运行分布式代码报nccl错误:connect returned Connection timed out,成功解决

原文:相关内容参考:docker 容器内安装 nccl后,测试是否安装成功:使用NVIDIA公司官方提供的测试工具:下载后,进行编译: make默认,cuda的安装位置:/usr/local/cuda默认,nccl的安装位置:/usr如果cuda和nccl的安装位置不是默认的,而是手动选择其他地方的,那么需要在make的时候配置路径:CUDA_HOME 为 cuda的安装路径。NCCL_HOME

#docker#容器#运维
【mindspore-gpu】【gpu训练】ubuntu终端自动退出

在UBUNTU22.04上新建了一个16G的交换分区来作为备用内存,之后再跑代码就不会崩了,同时我监控了CPU的使用情况,确实跑满了16G内存又跑了8G交换分区,可见确实是内存不够导致出现退出的情况,目前代码运行已无问题。1、正确配置显卡驱动和安装cuda,自己写了个一个用GPU训练的测试程序,没有问题。2、运行我自己写得网络的时候,数据处理部分没有问题,到训练那一步的时候。用pycharm的时候

#ubuntu#python#pycharm
深度学习单机多卡GPU 用mpirun跑分布式训练,2卡不报错正常运行,但是4卡GPU或8卡GPU报错无法解决

***************************************************解答*****************************************************从你的截图里只知道你在第三张卡(rank2)上的程序被killed了,signal 9 是linux scheduler杀死进程而非进程自己退出(用2GPU可以跑,但是4GPU或8GPU会

文章图片
#深度学习#人工智能
    共 1057 条
  • 1
  • 2
  • 3
  • 106
  • 请选择