1. 偏导数概念

对于式 4-6 而言
两变量函数
式(4.6)有两个变量,求导数时有必要区分对哪个变量求导数,即对 x0x1 两个变量中的哪一个求导数。另外,我们把这里讨论的有多个变量的函数的导数称为偏导数。用数学式表示的话,可以写成
偏导数

2. 梯度概念

当一起计算 x0x1 的偏导数。比如,我们来考虑求 x0 = 3, x1 = 4 时 (x0, x1) 的偏导数
同时求偏导数
像这样的由全部变量的偏导数汇总而成的向量称为梯度(gradient)。对 式(4.6) 求导的的代码如下所示

import numpy as np


def numerical_gradient(f, x):
    h = 1e-4    # 0.0001
    grad = np.zeros_like(x)

    for idx in range(x.size):
        tmp_val = x[idx]
        x[idx] = float(tmp_val) + h
        fxh1 = f(x)     # f(x+h)

        x[idx] = tmp_val - h
        fxh2 = f(x)     # f(x-h)
        grad[idx] = (fxh1 - fxh2) / (2*h)

        x[idx] = tmp_val    # 还原值

    return grad


def function(x):
    return np.sum(x ** 2)

if __name__ == "__main__":
    numerical_gradient(function, np.array([3.0, 4.0]))  # [6. 8.]
    numerical_gradient(function, np.array([0.0, 2.0]))  # [0. 4.]

np.zeros_like(x) 会生成一个形状和 x 相同、所有元素都为 0 的数组。

梯度图形化显示代码:

import numpy as np
import matplotlib.pylab as plt
from mpl_toolkits.mplot3d import Axes3D


def _numerical_gradient_no_batch(f, x):
    h = 1e-4 # 0.0001
    grad = np.zeros_like(x)
    
    for idx in range(x.size):
        tmp_val = x[idx]
        x[idx] = float(tmp_val) + h
        fxh1 = f(x) # f(x+h)
        
        x[idx] = tmp_val - h 
        fxh2 = f(x) # f(x-h)
        grad[idx] = (fxh1 - fxh2) / (2*h)
        
        x[idx] = tmp_val # 还原值
        
    return grad


def numerical_gradient(f, X):
    if X.ndim == 1:
        return _numerical_gradient_no_batch(f, X)
    else:
        grad = np.zeros_like(X)
        
        for idx, x in enumerate(X):
            grad[idx] = _numerical_gradient_no_batch(f, x)
        
        return grad


def function_2(x):
    if x.ndim == 1:
        return np.sum(x**2)
    else:
        return np.sum(x**2, axis=1)


def tangent_line(f, x):
    d = numerical_gradient(f, x)
    print(d)
    y = f(x) - d*x
    return lambda t: d*t + y
     
if __name__ == '__main__':
    x0 = np.arange(-2, 2.5, 0.25)
    x1 = np.arange(-2, 2.5, 0.25)
    X, Y = np.meshgrid(x0, x1)
    
    X = X.flatten()
    Y = Y.flatten()
    
    grad = numerical_gradient(function_2, np.array([X, Y]) )
    
    plt.figure()
    # plt.quiver(X, Y, -grad[0], -grad[1],  angles="xy",color="#666666")#,headwidth=10,scale=40,color="#444444")
    plt.quiver(X, Y, -grad[0], -grad[1], angles="xy",headwidth=5,scale=30,color="#666666")
    plt.xlim([-2, 2])
    plt.ylim([-2, 2])
    plt.xlabel('x0')
    plt.ylabel('x1')
    plt.grid()
    plt.legend()
    plt.draw()
    plt.show()

显示结果:
梯度图形化显示
梯度图像指向函数 f(x0,x1) 的“最低处”(最小值),就像指南针一样,所有的箭头都指向同一点。其次,我们发现离“最低处”越远,箭头越大。

梯度会指向各点处的函数值降低的方向。更严格地讲,梯度指示的方向是各点处的函数值减小最多的方向。因此,无法保证梯度所指的方向就是函数的最小值或者真正应该前进的方向。实际上,在复杂的函数中,梯度指示的方向基本上都不是函数值最小处。

3. 梯度法

虽然梯度的方向并不一定指向最小值,但沿着它的方向能够最大限度地减小函数的值。因此,在寻找函数的最小值(或者尽可能小的值)的位置的任务中,要以梯度的信息为线索,决定前进的方向。

函数的取值从当前位置沿着梯度方向前进一定距离,然后在新的地方重新求梯度,再沿着新梯度方向前进,如此反复,不断地沿梯度方向前进。像这样,通过不断地沿梯度方向前进,逐渐减小函数值的过程就是梯度法(gradient method)。

梯度法是解决机器学习中最优化问题的常用方法,特别是在神经网络的学习中经常被使用。

根据目的是寻找最小值还是最大值,梯度法的叫法有所不同。严格地讲,寻找最小值的梯度法称为梯度下降法(gradient descent method),寻找最大值的梯度法称为梯度上升法(gradient ascent method)。但是通过反转损失函数的符号,求最小值的问题和求最大值的问题会变成相同的问题,因此“下降”还是“上升”的差异本质上并不重要。

一般来说,神经网络(深度学习)中,梯度法主要是指梯度下降法。

用数学式来表示梯度法,如式(4.7)所示。
梯度法公式
式(4.7)的 η 表示更新量,在神经网络的学习中,称为学习率(learningrate)。学习率决定在一次学习中,应该学习多少,以及在多大程度上更新参数。

式(4.7)是表示更新一次的式子,这个步骤会反复执行。也就是说,每一步都按式(4.7)更新变量的值,通过反复执行此步骤,逐渐减小函数值。

学习率需要事先确定为某个值,比如0.01 或0.001。一般而言,这个值过大或过小,都无法抵达一个“好的位置”。在神经网络的学习中,一般会一边改变学习率的值,一边确认学习是否正确进行了。

用代码实现梯度下降法:

import numpy as np


def numerical_gradient(f, x):
    h = 1e-4    # 0.0001
    grad = np.zeros_like(x)
    for idx in range(x.size):
        tmp_val = x[idx]
        x[idx] = float(tmp_val) + h
        fxh1 = f(x)     # f(x+h)

        x[idx] = tmp_val - h
        fxh2 = f(x)     # f(x-h)
        grad[idx] = (fxh1 - fxh2) / (2*h)

        x[idx] = tmp_val    # 还原值
    return grad


def function(x):
    return np.sum(x ** 2)


def gradient_descent(f, init_x, lr=0.01, step_num=100):
    x = init_x
    for i in range(step_num):
        grad = numerical_gradient(f, x)
        x -= lr * grad
    return x

if __name__ == "__main__":
    init_x = np.array([-3.0, 4.0])
    print(gradient_descent(function, init_x=init_x, lr=0.1, step_num=100))

输出结果:

[-6.11110793e-10  8.14814391e-10]

这里,设初始值为(-3.0, 4.0),开始使用梯度法寻找最小值。最终的结果是(-6.1e-10, 8.1e-10),非常接近(0,0)。实际上,真的最小值就是(0,0),所以说通过梯度法我们基本得到了正确结果。

对于梯度下降函数

def gradient_descent(f, init_x, lr=0.01, step_num=100):
  • f 是要进行最优化的函数;
  • init_x 是初始值,lr 是学习率 learningrate
  • step_num 是梯度法的重复次数;
  • numerical_gradient(f,x) 会求函数的梯度,用该梯度乘以学习率得到的值进行更新操作,由 step_num 指定重复的次数。

下图表示梯度更新的过程
梯度更新过程
下面再来看看学习率过大或者过小的例子

  1. 学习率过大 lr=10.0
init_x = np.array([-3.0, 4.0])
print(gradient_descent(function, init_x=init_x, lr=10.0, step_num=100))

输出结果是

[-2.58983747e+13 -1.29524862e+12]
  1. 学习率过小 lr=10.0
init_x = np.array([-3.0, 4.0])
print(gradient_descent(function, init_x=init_x, lr=1e-10, step_num=100))

输出结果:

[-2.99999994  3.99999992]

实验结果表明,学习率过大的话,会发散成一个很大的值;反过来,学习率过小的话,基本上没怎么更新就结束了。

也就是说,设定合适的学习率是一个很重要的问题。

像学习率这样的参数称为超参数。这是一种和神经网络的参数(权重和偏置)性质不同的参数。相对于神经网络的权重参数是通过训练数据和学习算法自动获得的,学习率这样的超参数则是人工设定的。一般来说,超参数需要尝试多个值,以便找到一种可以使学习顺利进行的设定。

参考:《深度学习入门:基于Python的理论与实现》

更多推荐