机器学习入门（08）— 损失函数作用和分类（均方误差、交叉熵误差）

神经网络的学习中的“学习”是指从训练数据中自动获取最优权重参数的过程。为了使神经网络能进行学习，将导入损失函数这一指标。而学习的目的就是以该损失函数为基准，找出能使它的值达到最小的权重参数。为了找出尽可能小的损失函数的值，我们将介绍利用函数斜率的梯度法。神经网络的学习通过某个指标表示现在的状态。然后，以这个指标为基准，寻找最优权重参数。神经网络的学习中所用的指标称为损失函数（loss functi

wohu1104

2738人浏览 · 2020-06-22 23:05:49

wohu1104 · 2020-06-22 23:05:49 发布

神经网络的学习中的“学习”是指从训练数据中自动获取最优权重参数的过程。

为了使神经网络能进行学习，将导入损失函数这一指标。而学习的目的就是以该损失函数为基准，找出能使它的值达到最小的权重参数。为了找出尽可能小的损失函数的值，我们将介绍利用函数斜率的梯度法。

神经网络的学习通过某个指标表示现在的状态。然后，以这个指标为基准，寻找最优权重参数。

神经网络的学习中所用的指标称为损失函数（loss function）。这个损失函数可以使用任意函数，但一般用均方误差和交叉熵误差等。

损失函数是表示神经网络性能的“恶劣程度”的指标，即当前的神经网络对监督数据在多大程度上不拟合，在多大程度上不一致。

1. 为什么要设定损失函数

在神经网络的学习中，寻找最优参数（权重和偏置）时，要寻找使损失函数的值尽可能小的参数。为了找到使损失函数的值尽可能小的地方，需要计算参数的导数（确切地讲是梯度），然后以这个导数为指引，逐步更新参数的值。

假设有一个神经网络，现在我们来关注这个神经网络中的某一个权重参数。此时，对该权重参数的损失函数求导，表示的是“如果稍微改变这个权重参数的值，损失函数的值会如何变化”。

如果导数的值为负，通过使该权重参数向正方向改变，可以减小损失函数的值；
如果导数的值为正，则通过使该权重参数向负方向改变，可以减小损失函数的值；
当导数的值为 0 时，无论权重参数向哪个方向变化，损失函数的值都不会改变，此时该权重参数的更新会停在此处。

2. 损失函数分类

2.1 均方误差

可以用作损失函数的函数有很多，其中最有名的是均方误差（mean squared error ）。均方误差如下式所示。

这里，y_k 是表示神经网络的输出，t_k 表示监督数据，k 表示数据的维数。

举例如下：手写数字识别的例子中，y_k、t_k 是由如下10 个元素构成的数据。

In [1]: y = [0.1, 0.05, 0.6, 0.0, 0.05, 0.1, 0.0, 0.1, 0.0, 0.0]

In [2]: t = [0, 0, 1, 0, 0, 0, 0, 0, 0, 0]

In [3]:

数组元素的索引从第一个开始依次对应数字 0, 1, 2 …… 这里，神经网络的输出 y 是 softmax 函数的输出。

由于 softmax 函数的输出可以理解为概率，因此上例表示 0 的概率是0.1，1 的概率是 0.05，2 的概率是 0.6 等。

t 是监督数据，将正确解标签设为 1，其他均设为 0。这里，标签 2 为 1，表示正确解是 2 。

将正确解标签表示为 1，其他标签表示为 0 的表示方法称为 one-hot 表示。

代码实现如下：

In [3]: import numpy as np

In [4]: def mean_square(y, t):
   ...:     return 0.5 * np.sum((y - t)**2)
  
In [5]:

实际使用示例：

# 假设 2 为正确的预测值
In [5]: t = [0, 0, 1, 0, 0, 0, 0, 0, 0, 0]	

# 2 的概率最高为 0.6
In [6]: y = [0.1, 0.05, 0.6, 0.0, 0.05, 0.1, 0.0, 0.1, 0.0, 0.0]

In [7]: mean_square(np.array(y), np.array(t))
Out[7]: 0.09750000000000003

# 7 的概率最高为 0.6
In [8]: y = [0.1, 0.05, 0.1, 0.0, 0.05, 0.1, 0.0, 0.6, 0.0, 0.0]

In [9]: mean_square(np.array(y), np.array(t))
Out[9]: 0.5975

In [10]:

第一个例子中，正确解是 2 ，神经网络的输出的最大值是概率值为 2；
第二个例子中，正确解是 2，神经网络的输出的最大值是概率值为 7；

如实验结果所示，我们发现第一个例子的损失函数的值更小，和监督数据之间的误差较小。也就是说，均方误差显示第一个例子的输出结果与监督数据更加吻合。

2.2 交叉熵误差

交叉熵误差（cross entropy error）也经常被用作损失函数。交叉熵误差如下式所示。

这里，log 表示以 e 为底数的自然对数（log e）。y_k 是神经网络的输出，t_k是正确解标签。并且，t_k 中只有正确解标签的索引为1，其他均为 0（one-hot 表示）。因此，式（4.2）实际上只计算对应正确解标签的输出的自然对数。

In [10]: np.log(np.e)
Out[10]: 1.0

In [11]: np.log(np.e **2)
Out[11]: 2.0

In [12]:

比如，假设正确解标签的索引是 2 ，

与之对应的神经网络的输出是0.6，则交叉熵误差是−log 0.6 = 0.51；
若 2 对应的输出是 0.1，则交叉熵误差为−log 0.1 = 2.30；

也就是说，交叉熵误差的值是由正确解标签所对应的输出结果决定的。

自然对数的代码和图像如下所示：

import numpy as np
import matplotlib.pylab as plt

def log_e(x):
    return np.log(x)

x = np.arange(-5.0, np.e, 0.1)
y = log_e(x)
plt.plot(x, y)
plt.xlabel("x") # x轴标签
plt.ylabel("y") # y轴标签
plt.ylim(-2, 1.2)     # 指定y轴的范围
plt.title('log_e') # 标题
plt.legend()
plt.show()

自然对数图像
如上图所示，x 等于1 时，y 为0；随着 x 向 0 靠近，y 逐渐变小。因此，正确解标签对应的输出越大，式（4.2）的值越接近 0；当输出为 1 时，交叉熵误差为 0。此外，如果正确解标签对应的输出较小，则式（4.2）的值较大。

用代码实现如下：

In [1]: import numpy as np

In [2]: def cross_entropy(y, t):
   ...:     delta = 1e-7
   ...:     return -np.sum(t*np.log(y+delta))
   ...:     

In [3]: 1e-7
Out[3]: 1e-07

In [4]:

参数 y 和 t 是 NumPy 数组。函数内部在计算 np.log 时，加上了一个微小值 delta 。这是因为，当出现np.log(0) 时，np.log(0) 会变为负无限大的 -inf ，这样一来就会导致后续计算无法进行。作为保护性对策，添加一个微小值可以防止负无限大的发生。

In [4]: t = [0, 0, 1, 0, 0, 0, 0, 0, 0, 0]

In [5]: y = [0.1, 0.05, 0.6, 0.0, 0.05, 0.1, 0.0, 0.1, 0.0, 0.0]

In [6]: cross_entropy(np.array(y), np.array(t))
Out[6]: 0.510825457099338

In [7]: y = [0.1, 0.05, 0.1, 0.0, 0.05, 0.1, 0.0, 0.6, 0.0, 0.0]

In [8]: cross_entropy(np.array(y), np.array(t))
Out[8]: 2.302584092994546

In [9]:

第一个例子中，正确解标签对应的输出为 0.6，此时的交叉熵误差大约为 0.51。
第二个例子中，正确解标签对应的输出为0.1 的低值，此时的交叉熵误差大约为 2.3。

由此可以看出，与前面的理论描述是一致的。

2.3 mini-batch学习

2.4 mini-batch版交叉熵误差的实现

参考：《深度学习入门：基于Python的理论与实现》

亚马逊云科技技术品牌专区

更多推荐

STM32节点移植lorawan协议连接腾讯云物联网开发平台（IoT Explorer）

STM32移植lorawan协议连接腾讯云物联网开发平台（IoT Explorer）前言前言在移植协议之前，先给大家科普一下Lora 和 lorawan 的区别。LoRa 是LPWAN通信技术中的一种，是美国Semtech公司采用和推广的一种基于扩频技术的超远距离无线传输方案。这一方案改变了以往关于传输距离与功耗的折衷考虑方式为用户提供一种简单的能实现远距离、长电池寿命、大容量的系统，进而扩...

亚马逊云科技技术品牌专区

物联网主机E6000引领工业自动化的新篇章

亚马逊云科技技术品牌专区

搞 IoT 物联网，你居然要懂这么多种协议...

物联网协议是指在物联网环境中用于设备间通信和数据传输的协议。根据不同的作用，物联网协议可分为传输协议、通信协议和行业协议。传输协议：一般负责子网内设备间的组网及通信。例如 Wi-Fi、Ethernet、NFC、 Zigbee、Bluetooth、GPRS、3G/4G/5G等。这些协议能够确保在网络上传输的数据的安全性和可靠性。通讯协议：主要是运行在传统互联网TCP/IP协议之上的设备通讯协议，负责