GPU内存分明没人占用但是分配不了内存的解决办法

服务器上多张GPU卡被不同人在不同的docker容器中使用，有时GPU分明没人使用了，使用nvidia-smi查看也是内存没占用:可是在容器内运行程序到分配GPU内存时总是报内存溢出的错误：可以看到，就是这么分配2M内存都分配不出来！尽管程序里开头的部分已经指定了要使用的是这些内存没被占用的GPU:os.environ['CUDA_VISIBLE_DEVICES']='6,7'使用pip inst

Arnold-FY-Chen

4914人浏览 · 2021-09-20 11:05:54

Arnold-FY-Chen · 2021-09-20 11:05:54 发布

服务器上多张GPU卡被不同人在不同的docker容器中使用，有时GPU分明没人使用了，使用nvidia-smi查看也是内存没占用:

可是在容器内运行程序到分配GPU内存时总是报内存溢出的错误：

可以看到，就是这么分配2M内存都分配不出来！尽管程序里开头的部分已经指定了要使用的是这些内存没被占用的GPU:

os.environ['CUDA_VISIBLE_DEVICES']='6,7'

使用pip install pynvml安装pynvml后查看内存也是有大量的可用内存:

from pynvml import *
nvmlInit()
h = nvmlDeviceGetHandleByIndex(0)
info = nvmlDeviceGetMemoryInfo(h)
print(f'total : {info.total}')
print(f'free : {info.free}')
print(f'used : {info.used}')