PyTorch错误解决方案及技巧

 

    • 报错:RuntimeError: Attempting to deserialize object on CUDA device 2 but torch.cuda.device_count() is 1
    • 原因:在使用Pytorch加载模型时报错。加载的模型是用两个GPU训练的,而加载模型的电脑只有一个GPU,所以会出错。
    • 解决:model = torch.load(model_path)
      改为:model = torch.load(model_path, map_location='cuda:0')
      如果是4块到2块:就把map_location改为:map_location={'cuda:1': 'cuda:0'}
  1. PyTorch多GPU的处理机制
    使用多GPU时,应该记住pytorch的处理逻辑是:

1.在各个GPU上初始化模型。
2.前向传播时,把batch分配到各个GPU上进行计算。
3.得到的输出在主GPU上进行汇总,计算loss并反向传播,更新主GPU上的权值。
4.把主GPU上的模型复制到其它GPU上。

  1. nn.Module.cuda() 和 Tensor.cuda() 的作用效果的区别
    无论是对于模型还是数据,cuda()函数都能实现从CPU到GPU的内存迁移,但是他们的作用效果有所不同。
    • 对于nn.Module:
model = model.cuda() 

model.cuda()

上面两句能够达到一样的效果,即对model自身进行内存迁移。

- 对于Tensor:

和nn.Module不同,调用tensor.cuda()只是返回这个tensor对象在GPU内存上的拷贝,而不会对自身进行改变。因此必须对tensor进行重新赋值,即tensor=tensor.cuda().

 

RuntimeError: Attempting to deserialize object on a CUDA device but torch.cuda.is_available() is Fal
展开
遇到一个错误:

RuntimeError: Attempting to deserialize object on a CUDA device but torch.cuda.is_available() is False. If you are running on a CPU-only machine, please use torch.load with map_location='cpu' to map your storages to the CPU.
出错语句:

torch.load(model_file)
改为:

model = torch.load(model_path, map_location='cpu')
 

多个GPU训练的,参考:

<https://blog.csdn.net/iamjingong/article/details/85308600>

 

torch.cuda.is_available()返回false的解决办法

展开
在使用pytorch的时候,有时会遇到torch.cuda.is_available()返回false的问题,一般出现这个的原因是因为驱动没有安装好的缘故。解决的方案是:

1、安装nvidia相应的驱动版本和对应的cuda和cudnn。

sudo add-apt-repository ppa:graphics-drivers/ppa
sudo apt update
sudo apt install nvidia-396
 
#开发使用
sudo apt install nvidia-396-dev
有时会碰到nvidia-396找不到的情况,使用

sudo apt search nvidia
后发现库中没有nvidia-396的版本,这时可以安装nvidia-384的版本

sudo apt install nvidia-384
但是该版本似乎不支持cuda9.1,如果碰到与cuda版本不支持的问题,建议可以直接去nvidia官方网站下载驱动进行安装。

https://www.nvidia.cn/Download/index.aspx?lang=cn

cuda和cudnn可以直接使用conda进行安装, 如果遇到问题,可以查阅相关的文档,这里就不赘述了。

conda install cudatoolkit
2、安装nvidia-cuda-toolkit方便使用nvcc

sudo apt-get install nvidia-cuda-toolkit
如果碰到nvcc -V 显示的版本与系统实际安装的版本不同的问题,可以参见

https://zhuanlan.zhihu.com/p/48641682

一般进行驱动的正确安装后,就可以使用gpu进行计算了。

 

将gpu改为cpu时,遇到一个报错:

RuntimeError: Attempting to deserialize object on a CUDA device but torch.cuda.is_available() is False. If you are running on a CPU-only machine, please use torch.load with map_location='cpu' to map your storages to the CPU.

此时改为:

torch.load("0.9472_0048.weights",map_location='cpu')

就可以解决问题了。

 

方便查阅,整理:

假设我们只保存了模型的参数(model.state_dict())到文件名为modelparameters.pth, model = Net()

1. cpu -> cpu或者gpu -> gpu:

checkpoint = torch.load('modelparameters.pth')

model.load_state_dict(checkpoint)

2. cpu -> gpu 1

torch.load('modelparameters.pth', map_location=lambda storage, loc: storage.cuda(1))

3. gpu 1 -> gpu 0

torch.load('modelparameters.pth', map_location={'cuda:1':'cuda:0'})

4. gpu -> cpu

torch.load('modelparameters.pth', map_location=lambda storage, loc: storage)

 

    • 报错:RuntimeError: Attempting to deserialize object on CUDA device 2 but torch.cuda.device_count() is 1
    • 原因:在使用Pytorch加载模型时报错。加载的模型是用两个GPU训练的,而加载模型的电脑只有一个GPU,所以会出错。
    • 解决:model = torch.load(model_path)
      改为:model = torch.load(model_path, map_location='cuda:0')
      如果是4块到2块:就把map_location改为:map_location={'cuda:1': 'cuda:0'}
  1. PyTorch多GPU的处理机制
    使用多GPU时,应该记住pytorch的处理逻辑是:

1.在各个GPU上初始化模型。
2.前向传播时,把batch分配到各个GPU上进行计算。
3.得到的输出在主GPU上进行汇总,计算loss并反向传播,更新主GPU上的权值。
4.把主GPU上的模型复制到其它GPU上。

  1. nn.Module.cuda() 和 Tensor.cuda() 的作用效果的区别
    无论是对于模型还是数据,cuda()函数都能实现从CPU到GPU的内存迁移,但是他们的作用效果有所不同。
    • 对于nn.Module:
model = model.cuda() 

model.cuda()

上面两句能够达到一样的效果,即对model自身进行内存迁移。

- 对于Tensor:

和nn.Module不同,调用tensor.cuda()只是返回这个tensor对象在GPU内存上的拷贝,而不会对自身进行改变。因此必须对tensor进行重新赋值,即tensor=tensor.cuda().

Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐