增大batchsize训练模型,一般都能带来一定的提升。在显卡内存不够的情况下,可以通过梯度累积的方式,来扩大batchsize。

因为pytorch中,反向传播之后,梯度是不清零的,因此要实现梯度累积,比较简单

不使用梯度累积的情况下,训练代码:

for i, (input_id, label) in enumerate(train_loader):
    # 1. 模型输出
    pred = model(input_id)
    loss = criterion(pred, label)

    # 2. 反向传播
    optimizer.zero_grad()   
    # 梯度清空
    loss.backward()
    # 反向传播,计算梯度
    optimizer.step()
    # 根据梯度,更新网络参数

使用梯度累积,训练代码:

for i,(input_id, label) in enumerate(train_loader):
    # 1. 模型输出
    pred = model(input_id)
    loss = criterion(pred, label)

    # 2.1 损失规范
    loss = loss / accumulation_steps  
 
    # 2.2 反向传播,计算梯度
    loss.backward()

    if (i+1) % accumulation_steps == 0:
        optimizer.step() 
        # 更新参数
        optimizer.zero_grad() 
        # 梯度清空,为下一次反向传播做准备
    

(1)关于损失规范

我的理解是,相当于loss计算的时候,需要对batch中的每个样本求平均,这里累积多个batch也需要求平均。 也相当于多次梯度求和,再平均

(2)关于学习率如何变化

如果训练epoch不变,那个参数更新的次数也减少为原来的1/ accumulation_steps 次,因此学习率要调大(或者增大epoch)

此外, 还有两点要注意

(1)使用BN层的情况下,梯度累积的方式在统计方差和均值,没有真正的大batchsize准确

(2)学习率变化策略设置,可能和参数更新次数有关,这里也需要注意

自己的一些实验, 可以供大家参考。

这里我没有考虑上面的两个注意点,学习率在训练过程中是不变的,使用bert进行分类,指标是F1值,训练最大epoch均设为10

实验设置数据集1:F1值数据集2:F1值

batchsize=20

(学习率2e-5)

76.442.8

梯度累积2次

(学习率2e-5,batchsize=10*2)

77.045.0

梯度累积6次

(2e-5 *3 =6e-5,batchsize=10*6)

75.434.3

梯度累积6次

( 5e-5,batchsize=10*6)

77.241.4

从以上三行,暂时并不能得出什么结论,batchsize增大到60效果差了很多,也有可能将学习率变为原来的6倍太大了。将学习率稍微减小一点,结果稍微正常点。学习率的设置还是比较关键的

Logo

苏州本地的技术开发者社区,在这里可以交流本地的好吃好玩的,可以交流技术,可以交流招聘等等,没啥限制。

更多推荐