pytorch中model.train(),model.eval()和torch.no_grad()的区别

使用PyTorch进行训练和测试时一定注意要把实例化的model指定train/eval。

就要酸死你

242人浏览 · 2022-09-15 22:11:49

就要酸死你 · 2022-09-15 22:11:49 发布

参考文献：Pytorch：model.train()和model.eval()用法和区别，以及model.eval()和torch.no_grad()的区别 - 知乎

使用PyTorch进行训练和测试时一定注意要把实例化的model指定train/eval。

1 model.train()：train阶段

model.train()的作用是启用 Batch Normalization 和 Dropout。（什么是dropout？简单来说就是Dropout可以作为训练深度神经网络的一种trick供选择。在每个训练批次中，通过忽略一步法的特征检测器（让一部分的隐层节点值为0），可以明显地减少过拟合现象。参考深度学习中Dropout原理解析 - 知乎）

如果模型中有BN层(Batch Normalization）和Dropout，需要在训练时添加model.train()。model.train()是保证BN层能够用到每一批数据的均值和方差。对于Dropout，model.train()是随机取一部分网络连接来训练更新参数。

2 model.eval()：inference和test阶段

model.eval()的作用是不启用 Batch Normalization 和 Dropout，而且不会进行反向传播。

如果模型中有BN层(Batch Normalization）和Dropout，在测试时添加model.eval()。model.eval()是保证BN层能够用全部训练数据的均值和方差，即测试过程中要保证BN层的均值和方差不变。对于Dropout，model.eval()是利用到了所有网络连接，即不进行随机舍弃神经元。

训练完train样本后，生成的模型model要用来测试样本。在test之前，需要加上model.eval()，否则的话，有输入数据，即使不训练，它也会改变权值。这是model中含有BN层和Dropout所带来的的性质。

3.torch.no_grad()

torch.no_grad()是在model.eval()的基础上，再省去梯度计算，可以加速和节省空间。

华为开发者联盟HarmonyOS专区

鸿蒙生态一站式服务平台。

更多推荐

【grafana】使用教程

华为开发者联盟HarmonyOS专区

【PX4-AutoPilot教程-开发环境】使用VMware虚拟机安装Ubuntu系统并搭建PX4开发环境（ROS+mavros+jMAVSim+gazebo+QGC+QT）

学习PX4开发需要先配置好开发环境，对于新手推荐使用VMware虚拟机搭建Ubuntu系统，并下载PX4源码，配置好编译环境和工具链（ROS操作系统+mavros通信包+jMAVSim仿真+gazebo仿真+QGC地面站+QT开发平台）。教程中使用的是Ubuntu18.04系统（官方推荐使用版本），PX4固件版本为v1.13.0，飞控板为pixhawk2.4.8版本。