简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
PyTorch 显存爆炸|RuntimeError: CUDA out of memory. 如何排查问题?
可以看到这个机子有两张A5000,第一张卡显存是23953MiB / 24564MiB,快用完了,第二张是 18372MiB / 24564MiB,还有一点可以用。两个不同设备上的tensor运算,这个错误一般torch会报错的,但是也有非常隐晦的情况,比如不指明在哪个设备上的常量,需要手动发现。到了要检查代码这一步首先是看batch_size,但如果batch_size太大了应该是一个epoch
到底了