logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

MindSpore模型Pipeline并行训练报错RuntimeError: Stage 0 should has at least 1 parameter. but got none.

在新机器上重装Ascend+MindSpore2.1环境,并行设置dp:mp:pp = 1:1:2时,报如下错误:(只要是设置了pp>1,都报下面的错误)【注意】:MindSpore2.2.0版本,cell_reuse装饰器的写法有变化,不需要后面的括号。应该是开启了cell共享的环境变量,所以报这个pipeline错误。硬件环境(Ascend/GPU/CPU): Ascend。执行模式(PyNa

文章图片
#python#深度学习#机器学习
MindSpore8卡报Socket times out问题

MindSpore跑wizardcoder模型,dp:mp:pp=1:2:4,num_layer=16时可以跑通,但是当设置num_layer=20时出现如下报错。硬件环境(Ascend/GPU/CPU): Ascend。因此在多机并行时,只能采用离线切分的方法。执行模式(PyNative/ Graph): 不限。MindSpore版本: 2.2。

文章图片
#java#数据库#mysql +3
模型并行显示内存溢出

需要用多卡或者多机跑,整体HBM至少模型大小的4倍。硬件环境(Ascend/GPU/CPU): Ascend。执行模式(PyNative/ Graph): 不限。MindSpore版本: 2.2.0。模型并行显示内存溢出。一般是因为模型太大。

#python#深度学习#人工智能
模型并行策略为 1:1:8 时报错RuntimeError: Stage num is 8 is not equal to stage used: 5

需要满足pipeline_stage小于等于num_layers这一条件。模型跑4层网络,设置并行策略为dp:mp:pp=1:1:8,出现报错。这是因为模型层数只有4层,无法进行pipeline=8的分层切割。硬件环境(Ascend/GPU/CPU): Ascend。执行模式(PyNative/ Graph): 不限。MindSpore版本: 2.2.0。

文章图片
#python#深度学习#机器学习
MindSpore模型Pipeline并行发现有些卡的log中loss为0

该情况下可能不是问题,pipeline并行需要查看最后一张卡的loss,其余卡的loss均为0。MindSpore模型Pipeline并行发现有些卡的log中loss为0。硬件环境(Ascend/GPU/CPU): Ascend。执行模式(PyNative/ Graph): 不限。MindSpore版本: 2.2。

文章图片
#人工智能#深度学习
MindSpore报错:TypeError: Multiply values for specific argument: query_embeds

根据报错信息可以知道我们给query_embeds传了多个值,但是实际上是只需要一个即可,所以我们会首先看下传入的这个 self.query_tokens是不是有问题,我们通过打印分析,self.query_tokens是一个Tensor,不存在多值的情况。此时我们问题定位不仅仅只关注报错,可能是其他问题诱发这个给人误导性的报错,我们走读脚本发现在报错代码的上面有一句。硬件环境(Ascend/GP

#人工智能#深度学习
MindSpore大模型并行需要在对应的yaml里面做哪些配置

MindSpore大模型并行需要在对应的yaml里面做哪些配置。硬件环境(Ascend/GPU/CPU): Ascend。执行模式(PyNative/ Graph): 不限。MindSpore版本: 2.2.0。

文章图片
#前端#linux#运维 +3
Mindrecoder 格式转换报错ValueError: For ‘Mul‘. x.shape and y.shape need to broadcast.

因为mindformers设计的自身特点,在tokenizer时候需要将切分数据长度设置为seq_length + 1,之后再保存为mindrecoder格式,就不会报错。MindFormers基于MindSpore语言,先将数据tokenizer化后再转换为Mindrecoder格式,使用Mindrecoder格式的数据来训练模型;transformers则不需要这种特定的数据格式。硬件环境(A

文章图片
#python#深度学习#人工智能
Tokenizer文件缺失报错TypeError:__init_() missing 2 required positional arguments: ‘vocab_file‘ and ‘merge_

加载WizardCoderTokenizer.from_pretrained(…)时出现报错,发现缺少两个文件vocab_file和merge_file。需在tokenizer_config.json文件中增加vocab_file和merge_file对应的文件路径。在tokenizer_config.json文件新增两列,指定这两个文件路径。硬件环境(Ascend/GPU/CPU): Ascen

文章图片
#java#服务器#前端 +3
Tokenizer文件缺失报错TypeError:__init_() missing 2 required positional arguments: ‘vocab_file‘ and ‘merge_

加载WizardCoderTokenizer.from_pretrained(…)时出现报错,发现缺少两个文件vocab_file和merge_file。需在tokenizer_config.json文件中增加vocab_file和merge_file对应的文件路径。在tokenizer_config.json文件新增两列,指定这两个文件路径。硬件环境(Ascend/GPU/CPU): Ascen

文章图片
#java#服务器#前端 +3
到底了