机器学习——多层感知机MLP的相关公式

前馈神经网络：单向传播单层感知机是最简单的前馈神经网络，没有隐藏层，只能学习线性函数多层感知机，至少一个隐藏层，可以学习非线性函数反向传播 back propagation从错误中学习：输出会和我们已知的、期望的输出进行比较，误差会「传播」回上一层。该误差会被标注，权重也会被相应的「调整」...

雨降

12255人浏览 · 2019-10-31 02:31:02

雨降 · 2019-10-31 02:31:02 发布

$i$ 作为上一层神经元的下标，或者是输入层节点
$j$ 作为当前层神经元的下标，或者是隐藏层神经元
$k$ 作为下一层神经元的下标，或者是输出层神经元

$i, j, k$ 表示不同层的相对关系： $i\rightarrow j\rightarrow k$

$w_{ij}$ 表示上一层各神经元到当前神经元的权重，也就是神经元 $j$ 的权重
$w_{jk}$ 表示当前神经元与下一层各神经元的权重，也就是神经元 $k$ 的权重

前向传播

加权求和 $h$

$h_j=\sum_{i=0}^Mw_{ij}x_j$

$h_j$ 表示当前节点的所有输入加权之和

神经元输出值 $a$

$a_j=g(h_j)=g(\sum_{i=0}^Mw_{ij}x_{ij})$

$a_j$ 表示隐藏层神经元的输出值
$g ()$ 代表激活函数， $w$ 是权重， $x$ 是输入， $w_{0j}x_{0j}$ 表示偏移节点（bias node）
$a_j=x_{jk}$ ，即当前层神经元的输出值，等于下一层神经元的输入值

输出层的输出值 $y$

$y=a_k=g(h_k)=g(\sum_{i=0}^Mw_{jk}x_{jk})$

$y$ 表示输出层的值，也就是最终结果
$h_k$ 表示输出层神经元 $k$ 的输入加权之和

激活函数 $g (h)$

采用Sigmoid function：
$g(h)=\sigma(h)=\frac{1}{1+e^{-h}}$
sigmoid函数的导数：
$\sigma'(x)=\sigma(x)\left[1-\sigma(x)\right]$
将 $a_j=g(h_j)$ 代入可得
$g'(h)=a_j(1-a_j)$

损失函数 $E$

采用简单的误差平方和（sum-of-squares error function）
$E=\frac 1 2 \sum_{k=1}^N(y-t)^2$

平方是为了避免超平面两端的误差点相互抵消（ $y - t$ 存在正负）
前面系数取 $\frac1 2$ 是为了之后采用梯度下降时，求梯度（偏导数）时能抵消平方求导后的2

误差反向传播——更新权重

采用梯度下降求最优解，也就是求损失函数 $E$ 关于权重 $w$ 的偏导数
$\frac{\partial E}{\partial w_{ik}}=\frac{\partial E}{\partial h_k}\frac{\partial h_k}{\partial w_{ik}}$ 等式右边可以解释为：如果我们想知道当权重 $w$ 改变时，输出的误差 $E$ 是如何变化的，我们可以通过观察误差 $E$ 是如何随着激活函数的输入值 $h$ 变化，以及激活函数的输入值 $h$ 是如何随着权重 $w$ 变化

$h_k$ 表示输出层神经元 $k$ 的所有输入加权之和，也就是激活函数 $g (h)$ 的输入值

右边第二项最终可以推导出下面公式，也就是上一层神经元的输出值
$\frac{\partial h_k}{\partial w_{jk}}=a_j$

输出层增量项 $\delta_o$

右边第一项比较重要，这里称为增量项 $\delta$ （error or delta term），继续通过链式法则推导，最终得到输出层的增量项 $\delta_o(k)=\frac{\partial E}{\partial h_k}=\frac{\partial E}{\partial y}\frac{\partial y}{\partial h_k}=(y-t)g'(h_k)$