GPU内存分明没人占用但是分配不了内存的解决办法
服务器上多张GPU卡被不同人在不同的docker容器中使用,有时GPU分明没人使用了,使用nvidia-smi查看也是内存没占用:可是在容器内运行程序到分配GPU内存时总是报内存溢出的错误:可以看到,就是这么分配2M内存都分配不出来!尽管程序里开头的部分已经指定了要使用的是这些内存没被占用的GPU:os.environ['CUDA_VISIBLE_DEVICES']='6,7'使用pip inst
服务器上多张GPU卡被不同人在不同的docker容器中使用,有时GPU分明没人使用了,使用nvidia-smi查看也是内存没占用:
可是在容器内运行程序到分配GPU内存时总是报内存溢出的错误:
可以看到,就是这么分配2M内存都分配不出来!尽管程序里开头的部分已经指定了要使用的是这些内存没被占用的GPU:
os.environ['CUDA_VISIBLE_DEVICES']='6,7'
使用pip install pynvml安装pynvml后查看内存也是有大量的可用内存:
from pynvml import *
nvmlInit()
h = nvmlDeviceGetHandleByIndex(0)
info = nvmlDeviceGetMemoryInfo(h)
print(f'total : {info.total}')
print(f'free : {info.free}')
print(f'used : {info.used}')
按照网上有人说的删除~/.nv或者卸载安装另外的版本都没有用!在程序里加
torch.cuda.empty_cache()
也根本没用!另外,因为机器多人在做训练也不可能重启!最后发现,其实很简单,在运行程序时前面加个CUDA_VISIBLE_DEVICES变量指定GPU就可以了:
CUDA_VISIBLE_DEVICES="6,7" python test.py
另外发现,使用torch的cuda api统计内存占用是不准确的,只有总内存统计是准确的:
print("mem allocated:",torch.cuda.memory_allocated(7),torch.cuda.memory_reserved(7),torch.cuda.get_device_properties(7).total_memory)
得到的是
mem allocated: 0 0 16945512448
可以看到,和pynvml的输出结果比,只有总内存是准确的!
更多推荐
所有评论(0)