训练PyTorch模型遇到显存不足的情况怎么办

在跑代码的过程中，遇到了这个问题，然后参考《南溪的目标检测学习笔记》——训练PyTorch模型遇到显存不足的情况怎么办(“OOM: CUDA out of memory“)_墨门-CSDN博客减小batch_size的数量最小的数量可以设置为2；本文目的：修改batch_size，在哪修改batch_size呢?在train.py文件下，参数设置：很奇怪？电脑的GPU是6G，为啥连4都跑不了？如何

DaYinYi

22994人浏览 · 2022-01-12 16:00:02

DaYinYi · 2022-01-12 16:00:02 发布

在跑代码的过程中，遇到了这个问题，当前需要分配的显存在600MiB以下

RuntimeError: CUDA out of memory. Tried to allocate 60.00 MiB (GPU 0; 10.76 GiB total capacity; 8.71 GiB already allocated; 59.00 MiB free; 8.81 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF

然后参考《南溪的目标检测学习笔记》——训练PyTorch模型遇到显存不足的情况怎么办(“OOM: CUDA out of memory“)_墨门-CSDN博客

减小batch_size的数量

最小的数量可以设置为2；

本文目的：修改batch_size，在哪修改batch_size呢?

在train.py文件下，参数设置：

很奇怪？

电脑的GPU是6G，为啥连4都跑不了？

如何设置batchsize

batchsize过小：每次计算的梯度不稳定，引起训练的震荡比较大，很难收敛。

batchsize过大：

（1）提高了内存利用率，大矩阵乘法并行计算效率提高。

（2）计算的梯度方向比较准，引起的训练的震荡比较小。

（3）跑完一次epoch所需要的迭代次数变小，相同数据量的数据处理速度加快。

缺点：容易内容溢出，想要达到相同精度，epoch会越来越大，容易陷入局部最优，泛化性能差。

batchsize设置：通常10到100，一般设置为2的n次方。

原因：计算机的gpu和cpu的memory都是2进制方式存储的，设置2的n次方可以加快计算速度。