机器学习笔记（四）：西瓜书第5章——神经网络

目录神经元模型感知机与多层网络误差逆传播算法/反向传播算法/BP算法全局最小与局部最小其他神经网络深度学习课后习题答案神经元模型神经网络中最基本的成分是神经元模型，把许多个神经元按一定的层次结构连接起来就成了神经网络。输入-权重-神经元-阈值-“激活函数”-输出典型的神经元激活函数：阶跃函数、Sigmoid函数感知机与多层网络感

唠叨小主

750人浏览 · 2021-07-25 17:39:00

唠叨小主 · 2021-07-25 17:39:00 发布

神经元模型
- 神经网络中最基本的成分是神经元模型，把许多个神经元按一定的层次结构连接起来就成了神经网络。
- 输入-权重-神经元-阈值-“激活函数”-输出
- 典型的神经元激活函数：阶跃函数、Sigmoid函数

感知机与多层网络
- 感知机(perceptron)是二类分类的线性分类模型，其输入为实例的特征向量，输出为实例的类别。感知机的取值为+1和-1。
- 感知机对应于输入空间中将实例划分为正负两类的分离超平面，属于判别模型。
- 感知机学习旨在求出将训练数据进行线性划分的分离超平面，为此，导入基于误分类的损失函数，利用梯度下降法对损失函数进行极小化，求得感知机模型。
- 感知机由两层神经元组成，输入层接受外界输入信号后传递给输出层，输出层是M-P神经元，亦称“阈值逻辑单元”。
- 特点：感知机学习算法具有简单，并且易于实现的特点，分为原始形式和对偶形式。
- 感知机能轻易地实现与、或、非运算，但是感知机不能异或这样简单的非线性可分问题。因为感知机只有输出层神经元可以进行激活函数处理，即只有一层功能层，但是若要处理非线性可分问题，需要多层功能神经元。例如，两层感知机就能解决异或问题。
- 多层前馈神经网络：每层神经元与下一层神经元全互连，神经元之间不存在同层连接，也不存在跨层连接。
- 神经网络的学习其实就是根据训练数据，然后学习调整神经元之间的“连接权”以及功能神经元的阈值。

误差逆传播算法/反向传播算法/BP算法
- BP算法的详细了解可以参看这篇文章： https://blog.csdn.net/qq_32241189/article/details/80305566
- 标准 BP 算法和累积 BP算法的区别类似于随机梯度下降(stochastic gradient descent ，简称 SGD) 与标准梯度下降之间的区别。
- 通常采用“试错法”来调整隐藏神经元的个数。
- BP网络由于其强大的表达能力，经常出现过拟合的现象，解决的办法：“早停”、“正则化”。“早停”就是在训练过程中，训练集的误差降低，验证集的误差升高，则停止，并且返回最小验证集误差所对应的连接权和阈值。“正则化”就是在误差目标函数中增加一个用于描述网络复杂度的部分，例如连接权和阈值的平方，增加连接权与闵值平方和这一项后，训练过程将会偏好比较小的连接权和阈值，使网络输出更加"光滑"从而对过拟合有所缓解。
全局最小与局部最小
- 解决陷入局部最小问题的方法：1）多组不同参数值初始化多个神经网络，按标准方法训练后，取其中误差最小的解作为最终参数。2）模拟退火算法，也就是，在每一步都以一定的概率接受比当前解更差的结果。3）使用随机梯度下降算法，随机梯度下降算法在计算梯度的时候加入了随机因素。
其他神经网络
- 径向基函数（RBF）网络
  - RBF网络是一种单隐层前馈神经网络，它使用径向基函数作为隐层神经元激活函数，而输出层则是对隐层神经元输出的线性组合。假定输入为d维向量，则输出为实值。
- 自适应谐振理论（ART）网络
  - 思想基础：竞争型学习 (competitive learning) 是神经网络中一种常用的无监督学习策略。在使用该策略时，网络的输出神经元相互竞争，每一时刻仅有一个竞争获胜的神经元被撤活，其他神经元的状态被抑制.这种机制亦称"胜者通吃" (winner-take-all) 原则。
  - 结构：该网络由比较层、识别层、识别阈值和重置模块构成.比较层负责接收输入样本，并将其传递给识别层神经元.识别层每个神经元对应一个模式类，神经元数目可在训练过程中动态增长以增加新的模式类。
  - 过程：竞争的最简单力方式是计算输入向量与每个识别层神经元所对应的模式类的代表向量之间的距离，距离最小者胜。获胜神经元将向其他识别层神经元发送信号，抑制其撤活。若输入向量与获胜神经元所对应的代表向量之间的相似度大于识别阈值，则当前输入样本将被归为该代表向量所属类别，同时，网络连接权将会更新，使得以后在接收到相似输入样本时该模式类会计算出更大的相似度从而使该获胜神经元有更大可能获胜；若相似度不大于识别阈值，则重置模块将在识别层增设一个新的神经元，其代表向量就设置为当前输入向量。
  - 优点：ART 比较好地缓解了竞争型学习中的"可塑性-稳定性窘境" (stability plasticity dilemma) ，可塑性是指神经网络要有学习新知识的能力而稳定性则是指神经网络在学习新知识时要保持对旧知识的记忆.这就使得ART 网络具有一个很重要的优点:可进行增量学习 (incremental learning) 或在线学习 (online learning) .
- 自组织映射（SOM）网络
  - SOM(Self-Organizing Map ，自组织映射)网络 [Kohonen 1982] 是一种竞争学习型的无监督神经网络，它能将高维输入数据映射到低维空间(通常为二维) ，同时保持输入数据在高维空间的拓扑结构，即将高维空间中相似的样本点映射到网络输出层中的邻近神经元。
  - SOM 的训练过程很简单：在接收到一个训练样本后.每个输出层神经元会计算该样本与自身携带的权向量之间的距离，距离最近的神经元成为竞争获胜者，称为最佳匹配单元 (best matching unit)。然后，最佳匹配单元及其邻近神经元的权向量将被调整，以使得这些权向量与当前输入样本的距离缩小。这个过程不断迭代，直至收敛。
  - SOM 网络在聚类、高维数据可视化、图像分割等方面有广泛应用。
- 级联相关网络
- 递归神经网络之一——Elman网络
- Boltzmann 机
深度学习
- 对神经网络模型，提高容量以及增加模型复杂度的一个简单办法是增加隐层的数目。从增加模型复杂度的角度来看，增加隐层的数目显然比增加隐层神经元的数目更有效。但是，多隐层神经网络难以直接用经典算法(例如标准 BP 算法)进行训练，因为误差在多隐层内逆传播时往往会"发散" (diverge) 而不能收敛到稳定状态。
- 节省训练开销：
  - “预训练+微调”：无监督逐层训练，在预训练完成后，再对整个网络进行“微调”训练。
  - 权共享：一组神经元使用相同的连接权。这个策略在卷积神经网络发挥了重要的作用。
- 典型的深度学习模型就是深层的神经网络。
- 深度学习的另一种理解：通过多层处理，逐渐将初始的“低层”特征表示转化为“高层”特征表示后，用“简单模型”即可完成复杂的分类等学习任务。由此，可将深度学习理解为“特征学习”或“表示学习”。

课后习题答案

5.5、5.6、5.7、5.8、5.10参考资料：https://codechina.csdn.net/mirrors/py131/machine-learning_zhouzhihua/-/tree/master/ch5_neural_networks

练习包括(exercises include)：

激活函数选择考虑（selection of activation function）；
Sigmoid激活函数与对率回归的联系（the relationships between Sigmoid() and Logistic Regression）；
BP算法推导（conduction of BP algorithm）；
学习率分析（analysis of learning rate in NN training）；
标准BP算法和累积BP算法对比实验（comparative experiment of BP）(code here)；
BP算法改进（improvement of BP algorithm）(code here)；
RBF神经网络实现（implementation of RBF network）(code here)；
SOM神经网络实验（experiment of SOM network）(code here)；
卷积神经网络实验 - 字符识别（experiment of CNN on MNIST）(code here)；