logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

PyTorch 显存爆炸|RuntimeError: CUDA out of memory. 如何排查问题?

可以看到这个机子有两张A5000,第一张卡显存是23953MiB / 24564MiB,快用完了,第二张是 18372MiB / 24564MiB,还有一点可以用。两个不同设备上的tensor运算,这个错误一般torch会报错的,但是也有非常隐晦的情况,比如不指明在哪个设备上的常量,需要手动发现。到了要检查代码这一步首先是看batch_size,但如果batch_size太大了应该是一个epoch

文章图片
#pytorch#人工智能#python
到底了