Ubuntu下查看cuda占用情况&清除gpu占用&跑深度学习报错RuntimeError: CUDA out of memory. Tried to allocate...解决办法

在使用GPU跑深度学习的时候，报错RuntimeError: CUDA out of memory. Tried to allocate 26.00 MiB (GPU 0; 7.92 G......。意思就是GPU显存不够了。一般来说，解决方法有如下几个：降低batch_size。比如原本设置的是64，那么现在可以改为32或者16甚至更小（我感觉我减少了batch_size之后还是没法跑，更好

zeeq_

12379人浏览 · 2021-03-23 10:29:44

zeeq_ · 2021-03-23 10:29:44 发布

在使用GPU跑深度学习的时候，报错RuntimeError: CUDA out of memory. Tried to allocate 26.00 MiB (GPU 0; 7.92 G......。意思就是GPU显存不够了。一般来说，解决方法有如下几个：

降低batch_size。比如原本设置的是64，那么现在可以改为32或者16甚至更小。
更根本的，查看一下GPU的使用情况，然后将占用较高却又没用的程序给关了。具体怎么查看怎么关，下面详细讲解。
网络缓存过多，可以在代码的合适地方加上torch.cuda.empty_cache()，清理一下缓存。
要注意的一点是，在test或者validate的时候，是不需要计算存储梯度参数值的，所以记得使用：with torch.no_grad():循环。
土豪任性解决办法，嗯，换一块（或者好几块hhh）显存更大的GPU吧。

好了，下面说说2具体怎么操作。
首先，在终端输入nvidia-smi，可以查看GPU使用情况（如果输入后报错，那我只能说，兄弟，你英韦达驱动是不是没装好），如下图所示：
在这里插入图片描述
直接看上半部分框的中间那栏，可以看到，我的GPU总共有8111MB，已经使用了8044MB，也就是说，基本上占满了，这样子去跑深度学习，怎么可能跑得起来。下半部分框显示的就是哪些程序占用了GPU显存，然后占用了多少。下面说说怎么清理这些占用的程序。
在终端输入sudo kill -9 PID，其中PID在下半部分框中可以看到。比如我的电脑上，PID为4019070的程序占用的显存最大，为3223MB。然后我现在要终止该程序，就直接在终端输入sudo kill -9 4019070，就可以了。类似的，以此清除掉其他的一些占用大的程序，然后再次输入nvidia-smi，结果如下：
在这里插入图片描述
可以看出，我的电脑GPU占用现在只有460MB了，可以愉快地去跑deeplearning了。