Tensorflow学习(5)-神经网络进一步优化(学习率、过拟合问题)
学习率的设置tf.train.exponential_decay()函数会指数级的减小学习率,使得模型在训练后期更加稳定。它实现了以下代码的功能decayed_learning_rate = learning_rate * decay_rate**(global_step_/decay_steps)该函数的使用global_steps = tf.Variable(0)...
学习率的设置
tf.train.exponential_decay()函数会指数级的减小学习率,使得模型在训练后期更加稳定。
它实现了以下代码的功能
decayed_learning_rate = learning_rate * decay_rate**(global_step_/decay_steps)
该函数的使用
global_steps = tf.Variable(0)
# 通过exponential_decay来生成学习率
# 将staircase设置为True这使得学习率成为一个阶梯函数。具体见86页
learning_rate = tf.train.exponential_decay(0.1, global_steps, 100, 0.96, staircase=True)
# 在minimize函数中写入global_step = global_steps,完成global_steps每次训练都加一
# 比较奇怪的是global_step = global_steps似乎是左边给右边赋了值,但查了查发现实际上
# 这里是将global_steps的地址赋值给了global_step(好像是因为python函数参数赋值是引用的方式)
# 训练神经网络时,左边global_step会自动加一,他的地址就是global_steps的地址
# 于是global_steps完成加一。
learning_step = tf.train.GradientDescentOptimizer(learning_rate) \
.minimize(my_loss, global_step=global_steps)
以上代码完成了初始学习率为0.1,每训练100轮后学习率乘以0.96。
过拟合问题
为了避免过拟合问题,一个非常常用的方法是正则化
就是在损失函数中加入刻画模型复杂程度的指标,在优化时不是直接优化J()而是优化J(
)+nR(w),其中
代表神经网络中所有参数,而w值代表权重,n代表模型复杂损失在损失函数中的比例。常用的有两种,L1是对权重的绝对值加和,L2是对权重的平方加和。
无论哪种,基本思想都是希望限制权重的大小,使得模型不能任意拟合训练数据中的随机噪音。
简单的带L2正则化的损失函数定义
w = tf.Variable(tf.random_normal([2, 1], stddev=1, seed=1))
y = tf.matmul(x, w)
loss = tf.reduce_mean(tf.square(y_ - y) + tf.contrib.layers.l2_regularizer(lambda )(w))
tf.contrib.layers.l2_regularizer(n),可以返回一个函数,这个函数可以计算一个给定参数(n)的L2正则化的值,以下代码给出使用这两个函数的样例。
weights = tf.constant([[1.0, 2.0],[-3.0, 4.0]])
with tf.Session() as sess:
print(sess.run(tf.contrib.layers.l1_regularizer(.5 )(weights)))
# (|1|+|2|+|-3|+|4|)*0.5=5,输出为5
weights = tf.constant([[1.0, 2.0],[-3.0, 4.0]])
with tf.Session() as sess:
print(sess.run(tf.contrib.layers.l2_regularizer(.5 )(weights)))
# 输出为7.5
在简单的神经网络中,这样的方式就可以很好的计算带正则化的损失函数了。但当神经网络的层数增多时,这样的方式可能导致损失函数的定义很长。更主要的是,当网络结构复杂后,定义网络结构的部分和计算损失函数的部分可能不在同一个函数内。
为了解决这个问题,可以使用TensorFlow中提供的集合(collection),它可以在一个计算图中保存一组实体。以下代码给出了通过集合计算一个5层神经网络带L2正则化的损失函数的计算方法。也顺便学习多层网络的构建方法
import tensorflow as tf
# 获取一层神经网络边上的权重,并将这个L2正则化损失加入名称为‘losses’的集合中
def get_weight(shape, Lambda):
# 生成一个变量,也就是生成的一层权重
var = tf.Variable(tf.random_normal(shape=shape), dtype=tf.float32)
# add_to_collection函数将新生成变量的L2正则化损失项加入集合
# 这个函数的第一个参数‘losses’是集合的名字,第二个参数是要加入集合内容。
tf.add_to_collection('losses', tf.contrib.layers.l2_regularizer(Lambda)(var))
return var
x = tf.placeholder(tf.float32, shape=(None, 2))
y_ = tf.placeholder(tf.float32, shape=(None, 1))
batch_size = 8
# 定义每一层网络中节点的个数 //dimension有维,规格的意思
layer_dimension = [2, 10, 10, 10, 1]
# 神经网络的层数
n_layers = len(layer_dimension)
# 这个变量维护前向传播最深处的节点,开始的时候就是输入层
cur_layer = x
# 这个变量维护当前层数节点的个数
# in_dimension和out_dimension都是为了确定创建的网络结构的维度,应该是[in_dimension,out_dimension]
in_dimension = layer_dimension[0]
# 通过一个循环生成5层全连接的神经网络结构,同时进行前向传播
for i in range(1, n_layers):
# 输出维度为这个循环的维度
out_dimension = layer_dimension[i]
# 产生一层网络结构,并把这个变量的L2正则化损失加入到计算图中的集合
weight = get_weight([in_dimension, out_dimension], 0.001)
# 偏置项,维度应该是下一层的水平维度
bias = tf.Variable(tf.constant(0.1, shape=[out_dimension]))
# 使用relu激活函数
cur_layer = tf.nn.relu(tf.matmul(cur_layer, weight) + bias)
# 在进入下次循环之前更新in_dimension
in_dimension = out_dimension
# 在定义神经网络前向传播的同时已经将所有层的L2正则化损失加入了图上的集合
# 只需要计算模型在训练数据上表现的损失函数
mse_loss = tf.reduce_mean(tf.square(y_, cur_layer))
# 将均方误差损失函数加入损失集合
tf.add_to_collection('losses', mse_loss)
# tf.get_collection返回一个列表,列表是所有这个集合中的元素。
# 此样例中,这些元素就是L2正则化的损失,还有均方误差损失。
# 将他们加起来可以得到最终的损失函数
loss = tf.add_n(tf.get_collection('losses'))
更多推荐
所有评论(0)