Tensorflow学习(5)-神经网络进一步优化(学习率、过拟合问题)

学习率的设置tf.train.exponential_decay（）函数会指数级的减小学习率，使得模型在训练后期更加稳定。它实现了以下代码的功能decayed_learning_rate = learning_rate * decay_rate**(global_step_/decay_steps)该函数的使用global_steps = tf.Variable(0)...

dreamer777777

1324人浏览 · 2019-11-17 15:30:36

dreamer777777 · 2019-11-17 15:30:36 发布

学习率的设置

tf.train.exponential_decay（）函数会指数级的减小学习率，使得模型在训练后期更加稳定。

它实现了以下代码的功能

decayed_learning_rate = learning_rate * decay_rate**(global_step_/decay_steps)

该函数的使用

global_steps = tf.Variable(0)
# 通过exponential_decay来生成学习率
# 将staircase设置为True这使得学习率成为一个阶梯函数。具体见86页
learning_rate = tf.train.exponential_decay(0.1, global_steps, 100, 0.96, staircase=True)

# 在minimize函数中写入global_step = global_steps,完成global_steps每次训练都加一
# 比较奇怪的是global_step = global_steps似乎是左边给右边赋了值，但查了查发现实际上
# 这里是将global_steps的地址赋值给了global_step（好像是因为python函数参数赋值是引用的方式）
# 训练神经网络时，左边global_step会自动加一，他的地址就是global_steps的地址
# 于是global_steps完成加一。
learning_step = tf.train.GradientDescentOptimizer(learning_rate) \
    .minimize(my_loss, global_step=global_steps)

以上代码完成了初始学习率为0.1，每训练100轮后学习率乘以0.96。

过拟合问题

为了避免过拟合问题，一个非常常用的方法是正则化

就是在损失函数中加入刻画模型复杂程度的指标，在优化时不是直接优化J( $\Theta$ )而是优化J( $\Theta$ )+nR(w)，其中 $\Theta$ 代表神经网络中所有参数，而w值代表权重，n代表模型复杂损失在损失函数中的比例。常用的有两种，L1是对权重的绝对值加和，L2是对权重的平方加和。

无论哪种，基本思想都是希望限制权重的大小，使得模型不能任意拟合训练数据中的随机噪音。

简单的带L2正则化的损失函数定义

w = tf.Variable(tf.random_normal([2, 1], stddev=1, seed=1))
y = tf.matmul(x, w)

loss = tf.reduce_mean(tf.square(y_ - y) + tf.contrib.layers.l2_regularizer(lambda )(w))

tf.contrib.layers.l2_regularizer(n)，可以返回一个函数，这个函数可以计算一个给定参数(n)的L2正则化的值,以下代码给出使用这两个函数的样例。

weights = tf.constant([[1.0, 2.0],[-3.0, 4.0]])
with tf.Session() as sess:
    print(sess.run(tf.contrib.layers.l1_regularizer(.5 )(weights)))
# (|1|+|2|+|-3|+|4|)*0.5=5,输出为5


weights = tf.constant([[1.0, 2.0],[-3.0, 4.0]])
with tf.Session() as sess:
    print(sess.run(tf.contrib.layers.l2_regularizer(.5 )(weights)))
# 输出为7.5

在简单的神经网络中，这样的方式就可以很好的计算带正则化的损失函数了。但当神经网络的层数增多时，这样的方式可能导致损失函数的定义很长。更主要的是，当网络结构复杂后，定义网络结构的部分和计算损失函数的部分可能不在同一个函数内。

为了解决这个问题，可以使用TensorFlow中提供的集合(collection)，它可以在一个计算图中保存一组实体。以下代码给出了通过集合计算一个5层神经网络带L2正则化的损失函数的计算方法。也顺便学习多层网络的构建方法

import tensorflow as tf
# 获取一层神经网络边上的权重，并将这个L2正则化损失加入名称为‘losses’的集合中
def get_weight(shape, Lambda):
    # 生成一个变量，也就是生成的一层权重
    var = tf.Variable(tf.random_normal(shape=shape), dtype=tf.float32)
    # add_to_collection函数将新生成变量的L2正则化损失项加入集合
    # 这个函数的第一个参数‘losses’是集合的名字，第二个参数是要加入集合内容。
    tf.add_to_collection('losses', tf.contrib.layers.l2_regularizer(Lambda)(var))
    return var


x = tf.placeholder(tf.float32, shape=(None, 2))
y_ = tf.placeholder(tf.float32, shape=(None, 1))
batch_size = 8

# 定义每一层网络中节点的个数   //dimension有维，规格的意思
layer_dimension = [2, 10, 10, 10, 1]
# 神经网络的层数
n_layers = len(layer_dimension)

# 这个变量维护前向传播最深处的节点，开始的时候就是输入层
cur_layer = x
# 这个变量维护当前层数节点的个数
# in_dimension和out_dimension都是为了确定创建的网络结构的维度，应该是[in_dimension,out_dimension]
in_dimension = layer_dimension[0]

# 通过一个循环生成5层全连接的神经网络结构，同时进行前向传播
for i in range(1, n_layers):
    # 输出维度为这个循环的维度
    out_dimension = layer_dimension[i]
    # 产生一层网络结构，并把这个变量的L2正则化损失加入到计算图中的集合
    weight = get_weight([in_dimension, out_dimension], 0.001)
    # 偏置项,维度应该是下一层的水平维度
    bias = tf.Variable(tf.constant(0.1, shape=[out_dimension]))
    # 使用relu激活函数
    cur_layer = tf.nn.relu(tf.matmul(cur_layer, weight) + bias)
    # 在进入下次循环之前更新in_dimension
    in_dimension = out_dimension

# 在定义神经网络前向传播的同时已经将所有层的L2正则化损失加入了图上的集合
# 只需要计算模型在训练数据上表现的损失函数
mse_loss = tf.reduce_mean(tf.square(y_, cur_layer))

# 将均方误差损失函数加入损失集合
tf.add_to_collection('losses', mse_loss)

# tf.get_collection返回一个列表，列表是所有这个集合中的元素。
# 此样例中，这些元素就是L2正则化的损失，还有均方误差损失。
# 将他们加起来可以得到最终的损失函数
loss = tf.add_n(tf.get_collection('losses'))