深度学习：学习率learning rate 的设定规律

Introduction学习率 (learning rate)，控制模型的学习进度：学习率大小学习率大学习率小学习速度快慢使用时间点刚开始训练时一定轮数过后副作用1.易损失值爆炸；2.易振荡。1.易过拟合；2.收敛速度慢。学习率设置在训练过程中，一般根据训练轮数设置动态变化的学习率。刚开始训练时：学习率以 0.01 ~ 0.001 为宜。一定轮数过后：逐渐减缓。接近训练结束：学习速率

SunnyFish-ty

78533人浏览 · 2018-05-25 16:00:05

SunnyFish-ty · 2018-05-25 16:00:05 发布

Introduction

学习率 (learning rate)，控制模型的学习进度：
这里写图片描述

学习率大小

	学习率大	学习率小
学习速度	快	慢
使用时间点	刚开始训练时	一定轮数过后
副作用	1.易损失值爆炸；2.易振荡。	1.易过拟合；2.收敛速度慢。

学习率设置

在训练过程中，一般根据训练轮数设置动态变化的学习率。

刚开始训练时：学习率以 0.01 ~ 0.001 为宜。
一定轮数过后：逐渐减缓。
接近训练结束：学习速率的衰减应该在100倍以上。

Note：
如果是迁移学习，由于模型已在原始数据上收敛，此时应设置较小学习率 (≤10−4) 在新数据上进行微调。

学习率减缓机制

	轮数减缓	指数减缓	分数减缓
英文名	step decay	exponential decay	1/t decay
方法	每N轮学习率减半	学习率按训练轮数增长指数插值递减	lrt=lr0/(1+kt) ，k 控制减缓幅度，t 为训练轮数