logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

实验室GPU编号在pytorch和nvidia-smi中不一致引起的NCCL的分布式训练bug

(5)思考NCCL错误相关的可能因素,主要是指定GPU编号然后设置不同线程使用的device的时候,会产生这样的编号-硬件设备对应上面的错误,因此得考虑实验室机器和超算机器上面在这里的不同之处。(7)查阅了相关原因,添加了环境变量,让pytorch的顺序和nvidia-smi读取的顺序一致,问题居然就立即解决了。(6)想起来实验室机器在nvidia-smi的时候,gpu顺序和pytorch进行指定

文章图片
#pytorch#bug#深度学习
到底了