#《机器学习》_周志华(西瓜书)&南瓜书_第5章神经网络

待做：步骤1、先看习题有什么问题，带着问题2、整体过一遍，记录3、做习题，再次整理，补充。问题：1、神经元激活函数有哪些？2、学习率对训练的影响3、标准 BP 算法和累积 BP 算法第5章神经网络神经元模型感知机与多层网络误差逆传播算法全局最小与局部极小其他常见神经网络深度学习–习题5.15.1 试述将线性函数f(x)=wTxf(x)=w^Txf(x)=wTx用作神经元激活函数的缺陷。5.25.2

Gao&&Zeng

556人浏览 · 2022-05-31 22:49:44

Gao&&Zeng · 2022-05-31 22:49:44 发布

待做：

习题整理5.5-5.10

在这里插入图片描述
步骤

1、先看习题有什么问题，带着问题
2、整体过一遍，记录
3、做习题，再次整理，补充。

问题：

1、神经元激活函数有哪些？
2、学习率对训练的影响
3、标准 BP 算法和累积 BP 算法

第5章神经网络

人工神经网络
神经网络(neural networks)

神经网络是由具有适应性的简单单元组成的广泛并行互连的网络，它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应。
——— T.Kohonen 1988

神经网络学习：机器学习 && 神经网络

典型的神经元激活函数：

在这里插入图片描述
对数几率函数是Sigmoid函数的典型代表。

挤压函数：将可能在较大范围内变化的输入值挤压到(0, 1)输出范围内。

重要性质： $f^{'}(x)=f(x)(1-f(x))$

10个神经元两两连接，则有100个参数(90个连接权和10个阈值)

？怎么计算

5.1 感知机与多层网络

$f$ 为阶跃函数， $y=f(\sum_iw_ix_i-θ)$
1、与， $y=f(1·x_1+1·x_2-2),仅在x_1=x_2=1时，y=1$
2、或， $y=f(1·x_1+1·x_2-0.5),当x_1=1或x_2=1时，y=1$
3、非， $y=f(-0.6·x_1+0·x_2+0.5),当x_1=1时，y=0;当x_1=0时，y=1$

学习权重 $w_i(i=1,2,..,n)$ 以及阈值 $θ$

感知机学习规则：

对训练样例 $(x, y)$ ,若当前感知机的输出样例为 $\hat{y}$ ，权重调整：
$w_i\gets w_i+\eta(y-\hat{y})x_i$
$\eta\in(0,1)$ ，学习率

调整权重，使得预测值更接近真实值。

感知机只有输出神经元进行激活函数处理，即只拥有一层功能神经元。

学习能力有限

多层功能神经元：处理非线性问题。

隐含层和输出层都是具有激活函数的功能神经元。

多层前馈神经网络：
前馈是指网络拓扑结构上不存在环或回路。

神经网络"学"到的东西，蕴含在连接权重与阈值中。

5.3 反向传播算法(误差逆传播算法)(error BackPropagation,BP)

BP网络： BP算法训练的多层前馈神经网络。

@更新公式推导

BP算法流程：
1、将输入示例提供给输入层神经元，然后逐层将信号前传，知道产生输出层的结果。
2、计算输出层的误差(第4-5行)，将误差逆向传播至隐层神经元(第6行)，对连接权重和阈值进行调整。(第7行)

迭代过程循环进行，直到达到某些停止条件。

在这里插入图片描述

标准BP算法

每次更新只针对单个样例，参数更新频繁，对不同样例进行更新的效果可能出现"抵消"的效果。

累积BP算法

直接针对累积误差最小化，在读取整个训练集D一遍后才对参数进行更新，参数更新频率低

在很多任务中，累积误差下降到一定程度后，进一步下降会非常缓慢，这时标准BP会获得更好的解，训练集D非常大时更明显。

缓解BP神经网络的过拟合：
1、早停
2、正则化

误差目标函数： $E=λ\frac{1}{m}\sum_{k=1}^mE_k+(1-λ)\sum\limits_iw_i^2$

5.4 全局最小与局部极小

1、局部极小解(邻域点)
$对w^*和θ^*，若存在\epsilon>0使得$
$\forall(w;\theta)\in\left\{(w;\theta)|||(w;\theta)-(w^*；\theta^*)||\leqslant\epsilon\right\}$ ,
$都有E(w;\theta)\geqslant E(w^*；\theta^*)成立，则w^*；\theta^*)为局部极小解。$
2、全局最小解(参数空间所有点)
$对参数空间中的任意(w;\theta)都有E(w;\theta)\geqslant E(w^*；\theta^*)成立,则w^*；\theta^*)为全局最小解。$

基于梯度的搜索参数寻优方法。

负梯度方向

跳出局部极小的策略：
1、以多组不同参数值初始化多个神经网络，选择其中误差最小的解。
2、模拟退火：在每一步都以一定的概率接受比以前更差的结果。

在每步迭代中，接受次优解的概率随着时间的推移而逐渐降低，从而保证算法稳定。
也会造成跳出全局最小

3、使用随机梯度下降。
4、遗传算法逼近全局最小。

5.5 其他常见神经网络

5.5.1 RBF(Radial Basis Function,径向基函数)网络

单隐层前馈神经网络
1、使用径向基函数作为隐层神经元激活函数。
2、输出层则是对隐层神经元输出的线性组合。

在这里插入图片描述

$对d维向量\boldsymbol{x}$
$RBF表示：\varphi(\boldsymbol{x})=\sum\limits_{i=1}^qw_i\rho(\boldsymbol{x},\boldsymbol{c}_i)$
$其中 q 为隐层神经元个数$ ，
$\boldsymbol{c}_i和w_i分别是第i个隐层神经元所对应的中心和权重。$
$\rho(\boldsymbol{x},\boldsymbol{c}_i)是径向基函数，沿径向对称的标量函数，$ 通常定义为 $\boldsymbol{x}$ 到数据中心 $\boldsymbol{c}_i$ 之间欧式距离的单调函数。

$高斯径向基函数：\rho(\boldsymbol{x},\boldsymbol{c}_i)=e^{-β_i||\boldsymbol{x}-\boldsymbol{c}_i||^{2}}$

上面式子的2有点奇怪。

训练RBF网络的两步：
1、确定神经元中心 $\boldsymbol{c}_i$

随机采样，聚类等

2、利用BP算法确定参数 $w_i和β_i$

5.5.2 ART(Adaptive Resonance Theory, 自适应谐振理论)网络

竞争型学习：无监督，胜者通吃

ART网络：比较层、识别层、识别阈值和重置模块。

竞争的方式：计算输入向量与每个识别层神经元所对应的模式类的代表向量之间的距离，距离小者胜。

在线学习：每获得一个新样本就进行一次模型更新。

归置相同的地方，保留不同的地方，后续达到阈值再设为通用特点？？？

增量学习： “批模式”的在线学习。

ART优点

1、缓解了竞争型学习中的“可塑性-稳定性”窘境。

可塑性(学习新知识的能力)
稳定性（学习新知识时，保持对旧知识的记忆）

2、可进行增量学习或在线学习。

ART网络算法族：
1、能处理实值输入的ART2网络
2、结合模糊处理的FuzzyART网络
3、可进行监督学习的ARTMAP网络

5.5.3 SOM(self-Organizing Map,自组织映射)网络

竞争学习型，无监督

将高维输入数据映射到低维空间。同时保持输入数据在空维空间的拓扑结构。

将高维空间中相似的样本点映射到网络输出层中的邻近单元。

距离近：最佳匹配单元，
调整最佳匹配单元及其邻近神经元的权重。

应用：聚类、高维数据可视化、图像分割等。

5.5.4 级联相关网络(结构自适应网络之一)

结构自适应网络

学习目标 = 连接权重，阈值等参数+网络结构。

优缺点

1、无需设置网络层数、神经元数目
2、训练速度较快
3、在数据较少时易陷入过拟合。

5.5.5 Elman机(最常用的递归神经网络之一)

递归神经网络，可以出现环形结构。

能处理与时间有关的动态变化。

隐层神经元, Sigmoid激活函数
训练：BP算法

5.5.6 Boltzmann机

能量

显层：表示数据的输入与输出
隐层：数据的内在表达

受限Boltzmann机(Restricted Boltzmann Machine, RBM): 仅保留显层与隐层之间的连接。

5.6 深度学习

云计算，大数据

增加隐层的数目 比增加隐层神经元数目更有效。

增加隐层的数目 好处：
1、增加了拥有激活函数的神经元数目
2、增加了激活函数嵌套的层数。

预训练+ 微调

权共享 CNN

在这里插入图片描述

–

习题

5.1

5.1 试述将线性函数 $f(x)=w^Tx$ 用作神经元激活函数的缺陷。

以M-P神经元模型为例： $y=f(\sum\limits_{i=1}^nw_ix_i-\theta）$
$当f(x)=w^Tx$
$y=w^T· (\sum\limits_{i=1}^nw_ix_i-\theta）$ 这是一个线性函数，没有区分作用，没法实现激活的目的。

5.2

5.2 试述使用图 5.2(b) 激活函数的神经元与对率回归的联系.

1、图5.2(b)的激活函数为： $sigmoid(x)=\frac{1}{1+e^{-x}}$ ，使用该激活函数的神经元(假设为M-P神经元)的输出 $y=\frac{1}{1+e^{-(\sum\limits_{i=1}^nw_ix_i-\theta）}}$ ,目的在于将输入区分成1(神经元兴奋)和0(神经元抑制)两种状态。
2、 $对数几率函数为y=\frac{1}{1+e^{-(w^Tx+b)}}$ ，目的是用用线性回归模型的预测结果去逼近真实标记的对数几率。
Sigmoid函数使得线性回归模型可用于分类任务