关于loss不收敛的一些建议-loss问题汇总（不收敛、震荡、nan）

内容搬运自知乎：loss问题汇总（不收敛、震荡、nan）之前训练网络时,会先编写学习率随训练epoch的增加而逐渐减低的函数,然后选取一个相对较大的学习率(一般从e-2量级开始),选取一个epoch能够接受的batchsize,如果loss稳定下降较快,则开始训练.从未体验过学习率和batchsize搭配之难.最近新看了一篇论文ABCNN(有空再细讲),采用开源的tensorflow工程训练一下,

猴哥儿你真了不得

9723人浏览 · 2022-04-15 11:36:54

猴哥儿你真了不得 · 2022-04-15 11:36:54 发布

内容搬运自知乎：loss问题汇总（不收敛、震荡、nan）

之前训练网络时,会先编写学习率随训练epoch的增加而逐渐减低的函数,然后选取一个相对较大的学习率(一般从e-2量级开始),选取一个epoch能够接受的batchsize,如果loss稳定下降较快,则开始训练.从未体验过学习率和batchsize搭配之难.

最近新看了一篇论文ABCNN(有空再细讲),采用开源的tensorflow工程训练一下,效果很好,因工程需要,开始将其移植到pytorch框架下,移植完毕后,关于loss函数遇到不少问题,在此记录。

学习率随epoch降低的函数

def adjust_learning_rate(learning_rate, learning_rate_decay, optimizer, epoch):
    """Sets the learning rate to the initial LR multiplied by learning_rate_decay(set 0.98, usually) every epoch"""
    learning_rate = learning_rate * (learning_rate_decay ** epoch)

    for param_group in optimizer.param_groups:
        param_group['lr'] = learning_rate

    return learning_rate

loss不收敛

此处包含两种情况,一种是loss一直在震荡,一种是loss下降一点后不再下降到理想水平,而验证集上的表现保持不变.

1.保持需要的batchsize不变;
2.查看是否有梯度回传,查看代码如下:

for name, parms in model.named_parameters():
	print('-->name:', name, '-->grad_requirs:', parms.requires_grad, '--weight', torch.mean(parms.data), ' -->grad_value:', torch.mean(parms.grad))

3.查看数据是否有问题,如标签错乱等现象;

4.调节学习率,从大向小调,建议每次除以5;我的项目即是因为学习率过大过小都不收敛引起的;

5.如果学习率调好后,需要调节batchsize大小,如batchsize调大2倍,则将学习率对应调大(项目测试调大2~3倍OK),反之,学习率对应调小

loss震荡过于明显/loss剧烈抖动
Tom Hardy：深度学习知识点总结九（模型训练技巧）
Loss曲线震荡分析
 神经网络调参：loss震荡过于明显/loss剧烈抖动

前言
在训练网络的时候，常常会出现loss出现非常明显的剧烈抖动情况，虽然大多数情况可以继续训练下去，但是实际上还是预示着问题存在。而且，有不同维度的问题，这也需要不同的解决方法，但是具体究竟是哪一种，还得具体情况具体分析。

无过拟合
是否找到合适的loss函数：在深度学习里面，不同的loss针对的任务是有不同的，有些loss函数比较通用例如L1/L2等，而如perceptual loss则比较适合在图像恢复/生成领域的任务上。当loss出现问题的适合，想一想，是不是loss设置的有问题，别人在此领域的任务的方法是否也使用和你一样的loss。
batch size是否合适：batch size的问题一般是较大会有比较好的效果，一是更快收敛，二是可以躲过一些局部最优点。但是也不是一味地增加batch size就好，太大的batch size 容易陷入sharp minima，泛化性不好。较小的batch size，类别较多时，可能会使得网络有明显的震荡。batch size增大，处理相同的数据量速度加快；随着batch size增大，达到相同精度的epoch数量变多；因此基于上述两种情况，batch size要调试到合适的数值；过大的batchsize会让网络收敛到不好的局部最优点；过小的batchsize训练速度慢，训练不收敛；具体的batch size需要根据训练集数据内容和数量进行调试。
是否使用合适的函数：一般来说，都几乎使用RELU作为全局函数，尽可能少的使用sigmoid**函数（**范围太小），容易造成梯度弥散、消失
学习率：学习率太大，一步前进的路程太长，会出现来回震荡的情况，但是学习率太小，收敛速度会比较慢。在自己训练新网络时，可以从0.1开始尝试，如果loss不下降的意思，那就降低，除以10，用0.01尝试，一般来说0.01会收敛，不行的话就用0.001. 学习率设置过大，很容易震荡。不过刚刚开始不建议把学习率设置过小，尤其是在训练的开始阶段。在开始阶段我们不能把学习率设置的太低否则loss不会收敛。我的做法是逐渐尝试，从0.1,0.08,0.06,0.05 …逐渐减小直到正常为止，有的时候学习率太低走不出低估，把冲量提高也是一种方法，适当提高mini-batch值，使其波动不大。
是否选择合适的优化算法：一般来说，我都使用Adam作为优化器（默认参数）。如果经过仔细调整的SGD算法性能可能更好，但是时间上不太允许这样做。
检查输入数据格式等信息是否正确：数据输入不对包括数据的格式不是网络模型指定的格式,导致训练的时候网络学习的数据不是想要的; 此时会出现loss曲线震荡；解决办法:检查数据输入格式,数据输入的路径；

数据和标签：数据分类标注是否准确？数据是否干净？数据库太小一般不会带来不收敛的问题，只要你一直在train总会收敛（跑飞了不算）。反而不收敛一般是由于样本的信息量太大导致网络不足以fit住整个样本空间。样本少只可能带来过拟合的问题。
网络设定不合理：如果做很复杂的分类任务，却只用了很浅的网络，可能会导致训练难以收敛，换网络换网络换网络，重要的事情说三遍，或者也可以尝试加深当前网络。

过拟合

通过提前终止确定最优模型：**在训练的过程中，可能会出现训练到最后的精度竟然还不如前面的epoch高，那么可以直接终止训练，然后将之前的model作为best model，之后使用这个model即可
Regularization(正则化)：通过正则化进行约束，一般的方法可以通过优化器的权重衰减方法，即训练到后期，通过衰减因子使权重的梯度下降越来越缓慢。或者BN、Dropout以及L1/L2
调整网络结构：一句话，你的网络结构出了问题，是错误的，没有科学性的
增加训练数据量：数据集太小太少，且没有进行数据增强，就可能导致过拟合

loss变nan

现象:loss进行一次反传后,loss变nan;
排查顺序:
训练数据(包括label)中有无异常值(nan, inf等);
网络中有无除法,确保分母不会出现0, 分母可以加一个eps=1e-8;
网络中有无开根号(torch.sqrt), 保证根号下>=0, 我的程序即是由此引起的(未保证不出现0或者极小正值的情况),解决也是加一个eps=1e-8.

训练深度学习网络时候，出现Nan是什么原因，怎么才能避免？–我自己是因为data有nan的坏数据，clear下解决

训练网络loss出现Nan解决办法

1.如果在迭代的100轮以内，出现NaN，一般情况下的原因是因为你的学习率过高，需要降低学习率。可以不断降低学习率直至不出现NaN为止，一般来说低于现有学习率1-10倍即可。

2.如果当前的网络是类似于RNN的循环神经网络的话，出现NaN可能是因为梯度爆炸的原因，一个有效的方式是增加“gradient clipping”（梯度截断来解决）

3.可能用0作为了除数;

4.可能0或者负数作为自然对数

5.需要计算loss的数组越界（尤其是自己，自定义了一个新的网络，可能出现这种情况）

6.在某些涉及指数计算，可能最后算得值为INF（无穷）（比如不做其他处理的softmax中分子分母需要计算exp（x），值过大，最后可能为INF/INF，得到NaN，此时你要确认你使用的softmax中在计算exp（x）做了相关处理（比如减去最大值等等））

7、对于层数较多的情况，各层都做batch_nomorlization;

8、对设置Weights权重使用tf.truncated_normal(0, 0.01, [3,3,1,64])生成，同时值的均值为0，方差要小一些;

9、激活函数可以使用tanh;

10、减小学习率lr。