模式识别

记录一下模式识别的一些基础知识，大部分都是抄的，均已标明出处。来源：模式识别具体过程模式识别系统的构成(1) A sensor 感知器（信息获取）(2) A preprocessing mechanism 预处理机制(3) A feature extraction mechanism (manual or automated) 特征提取机制(4) A classif...

耳语吖

1046人浏览 · 2019-11-04 19:46:28

耳语吖 · 2019-11-04 19:46:28 发布

记录一下模式识别的一些基础知识，大部分都是抄的，均已标明出处。

来源：模式识别具体过程

模式识别系统的构成

(1) A sensor 感知器（信息获取）

(2) A preprocessing mechanism 预处理机制

(3) A feature extraction mechanism (manual or automated) 特征提取机制

(4) A classification algorithm 分类算法

(5) A set of examples (training set) already classification 训练集或称样本数据

来源：模式识别第一课（模式识别的过程）

偏差度量了学习算法的期望预测与真实结果的偏离程度，即刻画了学习算法本身的拟合能力。

方差度量了同样大小的训练集的变动所导致的学习性能的变化，即刻画了数据扰动所造成的影响。

噪声则表达了当前任务上学习任何算法所能达到的期望泛化误差的下界，即刻画了学习问题本身的难度。

准与确

准：bias描述的是根据样本拟合出模型的输出预测结果的期望与样本真实结果的差距，简单讲，就是在样本上拟合的好不好。要想在bias上表现好，low bias，就得复杂化模型，增加模型的参数，但这样容易过拟合 (overfitting)，过拟合对应上图是high variance，点很分散。low bias对应就是点都打在靶心附近，所以瞄的是准的，但手不一定稳。
确：varience描述的是样本上训练出来的模型在测试集上的表现，要想在variance上表现好，low varience，就要简化模型，减少模型的参数，但这样容易欠拟合(unfitting)，欠拟合对应上图是high bias，点偏离中心。low variance对应就是点都打的很集中，但不一定是靶心附近，手很稳，但是瞄的不准。
varience描述的是样本上训练出来的模型在测试集上的表现，要想在variance上表现好，low varience，就要简化模型，减少模型的参数，但这样容易欠拟合(unfitting)，欠拟合对应上图是high bias，点偏离中心。low variance对应就是点都打的很集中，但不一定是靶心附近，手很稳，但是瞄的不准。

来源人工智能算法学习笔记（四）——偏差、方差、误差

判断方法

过拟合（over-fitting），机器学习模型或者是深度学习模型在训练样本中表现得过于优越，导致在验证数据集以及测试数据集中表现不佳。出现这种现象的主要原因是训练数据中存在噪音或者训练数据太少。

过拟合问题，根本的原因则是特征维度(或参数)过多，导致拟合的函数完美的经过训练集，但是对新数据的预测结果则较差。

常见原因

1）建模样本选取有误，如样本数量太少，选样方法错误，样本标签错误等，导致选取的样本数据不足以代表预定的分类规则；

2）样本噪音干扰过大，使得机器将部分噪音认为是特征从而扰乱了预设的分类规则；

3）假设的模型无法合理存在，或者说是假设成立的条件实际并不成立；

4）参数太多，模型复杂度过高；

5）对于决策树模型，如果我们对于其生长没有合理的限制，其自由生长有可能使节点只包含单纯的事件数据(event)或非事件数据(no event)，使其虽然可以完美匹配（拟合）训练数据，但是无法适应其他数据集。

6）对于神经网络模型：

a)对样本数据可能存在分类决策面不唯一，随着学习的进行,，BP算法使权值可能收敛过于复杂的决策面；

b)权值学习迭代次数足够多(Overtraining)，拟合了训练数据中的噪声和训练样例中没有代表性的特征。

解决方法

1）在神经网络模型中，可使用权值衰减的方法，即每次迭代过程中以某个小因子降低每个权值。

2）选取合适的停止训练标准，使对机器的训练在合适的程度；

3）保留验证数据集，对训练成果进行验证；

4）获取额外数据进行交叉验证；

5）正则化，即在进行目标函数或代价函数优化时，在目标函数或代价函数。

来源：过拟合及常见处理办法整理

惩罚函数参考 regularization 规范化（L1，L2等等）：加惩罚函数降低过拟合

改进神经网络的学习方法（3）：过拟合及改进方法（正则化、Dropout）

类间不平衡：不同类别之间的数据量相差较大。
类内不平衡：某一个类分布成多个小聚类，每个小聚类数据量相差较大。

来源：不均衡样本的处理方式

从给定的训练数据集中学习出一个函数（模型参数），当新的数据到来时，可以根据这个函数预测结果。监督学习的训练集要求包括输入输出，也可以说是特征和目标。训练集中的目标是由人标注的。监督学习就是最常见的分类（注意和聚类区分）问题，通过已有的训练样本（即已知数据及其对应的输出）去训练得到一个最优模型（这个模型属于某个函数的集合，最优表示某个评价准则下是最佳的），再利用这个模型将所有的输入映射为相应的输出，对输出进行简单的判断从而实现分类的目的。也就具有了对未知数据分类的能力。监督学习的目标往往是让计算机去学习我们已经创建好的分类系统（模型）。

输入数据没有被标记，也没有确定的结果。样本数据类别未知，需要根据样本间的相似性对样本集进行分类（聚类，clustering）试图使类内差距最小化，类间差距最大化。通俗点将就是实际应用中，不少情况下无法预先知道样本的标签，也就是说没有训练样本对应的类别，因而只能从原先没有样本标签的样本集开始学习分类器设计。

来源：监督学习和无监督学习区别