模式识别预习

模式识别期末预习

学数学的懒哥

1757人浏览 · 2023-12-24 11:04:04

学数学的懒哥 · 2023-12-24 11:04:04 发布

题型：
1、选择题（20分）
2、判断题（20分）
3、简答题（24分）
4、综合分析题（16分）
5、计算题。（20分）
注：原本是5个简答题，每个8分，先变成3个简答，2个分析。题目未变，其中4个简答题和模式识别相关，很常识化，还一道在某一章中，计算题两题，一个是计算题，一个是证明题

一、绪论

注意：（详细读常识性很多*4）（感觉是基于数据基于知识、监督与非监督、模式识别概念、监督非监督一般处理过程）

1.1模式与模式识别的一些概念

1、类别：我们对外界对象的几乎所有认知都是对类别的认识（了解）

2、模式（了解）

模式指需要识别且可测量的对象的描述
模式可以看作是对象的组成成分或影响因素之间存在的规律性关系，或者是因素间存在的确定性或随机性规律的对象、过程或事件的集合。
模式也称为模式类，模式识别也称为模式分类

3.模式识别（背诵）

模式识别就是对模式的区分和认识，把对象根据其特归到若干类别中适当的一类。所谓模式识别的问题就是用计算的方法根据样本的特征将样本划分到一定的类别中去。

4.一些其他概念（了解）

样本：所研究的一个个体，相当于统计学中的实例
样本集：若干样本的集合，统计学中的样本通常指样本集
类或类别：在所有样本上定义的一个子集，处于同一类的样本在我们所关心的某种性质上是不可区分的，即具有相同的模式类。
特征：指用于表征样本的观测，通常是数值表示的某些量化的特征，有时被称为属性。如果存在多个特征，则它们就组成了特征向量。样本的特征构成了样本的特征空间，空间的维数就是特征的个数，每一个样本就是特征空间中的一个点。
已知样本：指事先知道类别标号的样本
未知样本：指类别标号未知但特征已知的样本

1.2模式识别的主要方法

基于知识的方法
- 典型应用 :AI、专家系统（Expert Systems）句法（结构）模式识别（Syntax PR or Structural PR）
- 基本思想:根据人们已知的（从专家那里收集整理的）关于研究对象的知识，整理出若干描述特征与类别间关系的准则，建立一定的计算机推理系统，对未知样本通过这些知识推理决策其类别。（背诵）
- 句法模式识别：可以看成一种特殊的基于知识的模式识别方法，它的基本思想是：把对象分解成一系列基本单元，每一个基本单元表达成一定的符号，而构成对象的单元之间的关系描述成单元符号之间的句法关系，利用形式语言、句法分析的原理来实现对样本的分类。
基于数据的方法
- 典型应用：统计模式识别（Statistical PR）、人工神经网络（ANN）、支持向量机（SVM）
- 基本思想：收集一定数量的已知样本，用这些样本作为训练集来训练一定的模式识别机器，使之在训练后能够对未知样本进行分类。（背诵）
- 任务描述：在类别标号y与特征向量x存在一定的未知依赖关系、但已知的信息只有一组训练数据对{(x,y)}的情况下，求解定义在x上的某一函数y’=f(x)，对未知样本的类别进行预测。这一函数叫做分类器，根据样本建立分类器的过程称为学习的过程。
- 适用情况：基于数据的模式识别方法，适用于我们对已知对象的某些特征与我们所感兴趣的类别性质有关系，但无法确切的描述这种关系的情况。如果分类和特征之间的关系可以完全确切的描述出来，那么采用基于知识的方法可能会更有效如果二者的关系完全随机，即不存在规律性的联系，那么应用模式识别也无法得到有意义的结果

1.3监督与非监督模式识别

监督模式识别：已知要划分的类别，并且能够获得一定数量的类别已知的训练样本，这种情况下建立分类器的问题称为监督学习问题（监督模式识别）（背诵）
非监督模式识别：事先并不知道要划分的是什么类别，更没有类别已知的样本用作训练，需要根据样本特征将样本聚成几个类，使属于同一类的样本在一定意义上是相似的，而不同类之间的样本则具有较大差异。这种学习过程称作非监督模式识别，在统计中常称为聚类，所得到的类别也称为聚类（背诵）
非监督模式识别特点：由于没有类被已知的训练样本，在没有其他额外信息的情况下，采用不同的方法和不同的假设可能会导致不同的结果，要评价哪种结果更可取或更符合实际情况，除了一些衡量聚类性质的一般指标外，往往还需要对照该项研究的意图和在聚类结果的基础上后续的研究来确定。另一方面，用一种方法在一个样本集上完成了聚类分析，得到了若干个聚类，这种聚类结果只是数学上的一种划分，对应用的实际问题是否有意义、有什么意义，需要结合更多的专业知识进行解释。（熟悉）

1.4模式识别系统举例（了解）

1.语音识别：
- 步骤：1.语音通过信号采集系统进入计算机，成为数字化的时间序列。2.经过一系列预处理，按照一定的时窗分割成一些小的片段（帧）。3.每一帧语音信号经过一定的信号处理后被取成一个特征向量
- 其他内容：语音识别最常用的分类器是建立在语音的一种概率模型–隐马尔可夫模型。语音识别系统不是单独对每一个音素样本进行分类，而是用一个更高一层的隐马尔可夫模型把相邻的音素联合起来考虑
2.说话人识别：
3.字符和文字识别：
4.复杂图像中特定目标识别
5.根据地震勘探数据读地下储层性质的识别
6.利用基于表达数据进行癌症的分类

1.5模式识别系统的典型构成（背诵）

典型模式识别新系统构成：1.原始数据的获取和预处理。2.特征提取与选择。3.分类或聚类。4.后处理。这四个主要部分
处理监督模式识别问题一般步骤：（背诵）
- 1.分析问题：深入研究应用领域的问题，分析是否属于模式识别问题，把研究的目标表示为一定的类别，分析给定数据或者可以观测的数据中哪些因素可能与分类有关。
- 2.原始特征提取：设计实验，得到已知样本，对样本实施观测和预处理，获取可能与样本分类有关的观测向量（原始特征）
- 3.特征提取与选择：为了更好的进行分类，可能需要采用一定的算法对特征进行再次提起和选择。
- 4.分类器设计：选择一定的分类器方法，用已知样本进行分类器训练。
- 5.分类决策：利用一定的算法对分类器性能进行评价；对未知样本实施同样的观测、预处理和特征提取与选择，用所设计的分类器进行分类，必要时根据领域知识进行进一步的后处理
处理非监督模式识别的一般步骤：（背诵）
- 1.分析问题：深入研究应用领域的问题，分析研究目标能否通过寻找适当的聚类来达到；如果可能，猜测额可能的或希望的类别数目；分析给定数据或者观测的数据中哪些因素可能与聚类有关。
- 2.原始特征提取：设计实验，得到待分析的样本，对样本实施观测和预处理，获取可能与样本聚类有关的观测向量（原始特征）
- 3.特征提取与选择：为了更好地进行聚类，可能需要采用一定的算法对特征进行再次提取和选择
- 4.聚类分析：选择一定的非监督模式识别，用样本进行聚类分析
- 5.结果解释：考察聚类结果的性能，分析所得聚类与研究目标之间的关系，根据领域知识分析结果的合理性，对聚类的含义给出解释；如果有新的样本，把聚类结果用于新样本分类。

二、统计决策方法

注意：（计算题、多）（感觉计算是最小错误率贝叶斯估计或者最小风险贝叶斯决策）

在这里插入图片描述

三、概率密度函数的估计

注意：（好像没出题）

四、隐马尔可夫模型与贝叶斯网络

注意：（详细读、证明题在这里）（之前感觉是HMM前向递推公式的证明，书上没有，貌似不考这个，那大概率应该是贝叶斯网络山的条件独立性证明）

在这里插入图片描述

五、线性学习方法

注意：（常识）

线性回归：通过数据发现或估计两个或多个变量之间可能存在的线性依赖关系的基本统计学方法
用训练样本集估计模型中的参数，使模型在最小平方误差意义下能够最好地拟合训练样本
“最小二乘法” 求解线性回归问题
线性回归给出了在最小平方误差意义下对解释变量与响应变量间线性关系的最好估计
$w^* = (X^T X)^{-1} X^T y$
利用线性判别函数进行决策，就是用一个超平面把特征空间分割成两个区域，超平面的方向由权向量w确定，它的位置由阈值权W0确定。
Fisher线性判别分析：把所有样本都投影到一个方向上，在一维空间中确定一个分类的阈值。
Fisher准则函数：使投影后两类尽可能分开，而各类内部尽可能聚集。
Fisher判别函数最优的解本身只是给出一个投影方向，并没有给出我们所需的分类面。需要得到分类面，需要在投影后的方向上确定一个分类阈值w0
把待决策的样本投影到Fisher判别的方向上，通过与两类均值投影的平分点相比较做出分类决策。在先验概率相同的情况下，以该平分点为两类的分界点；在先验概率不同时，分界点向先验概率小的一侧偏移。
通常N>d ，为矛盾方程组，无法求得精确解；
MSE准则函数的最小化主要有：伪逆法求解、梯度下降法求解。
罗杰斯特回归（logistic regression）学习算法：最大似然法
终止条件可以是似然函数的梯度小于某个预设值，训练过程不再有显著更新，或迭代达到预设的上限等。
最优分类超平面：一个分类超平面，如果它能将训练样本没有错误地分开，且两类训练样本中离超平面最近的样本与超平面之间的距离是最大的，则这个超平面称作最优分类超平面，简称最优超平面。
两类样本中离分类面最近的样本到分类面的距离称作分类间隔（margin），最优超平面也称作最大间隔超平面。
最优解在L(w,b,α)的鞍点上取得，即L(w,b,α) 对w 和b 的偏导数均为0
模式识别是一种基于数据的机器学习，学习的目的不仅是要对训练样本能够正确分类，而是要能够对所以可能的样本正确分类这种能力叫推广
解决多类分类问题两个基本思路：一种方法是把多类分类问题分解成多个两类问题，通过多个两类分类器实现多类分类。另一种方法是直接设计多类分类器。
第一种方法多个两类分类器：
- 做法一：“一对多”：c类转化为c−1个两类问题。问题：训练样本不均衡；歧义区
- 做法二：“逐对”（pairwise）分类，每两类构造一个分类器，则c类需要c(c−1)/2个两类分类器。问题：分类器多
第二种方法直接设计多类分类器：
- 多类线性机器可以保证不会出现决策歧义区

六、典型的非线性分类器

注意：（常识）

线性判别函数：简单、实用、经济，但线性不可分时错误率可能较大
非线性判别函数：各种函数的集合，分段线性分类器、二次判别函数、多层感知器、支持向量机等。
两类情况下，最小距离分类器就是两类的垂直平分面（超平面）
子类划分的三种设计方法：
- （1）人工确定子类的划分方案：多类分类器投票，聚类分析
- （2）已知或可假定子类数目，但不知道子类的划分：边划分边分类（下页）可以用误差修正法
- （3）子类数目无法事先确定：树状分段线性分类器
多层感知器（multi-layer perceptron — MLP）具有学习任意复杂的非线性映射的能力。多层感知器可看作一种通用的非线性分类器设计方法。
单个感知器神经元无法解决非线性问题（异或问题）。多个神经元分层组合实现复杂的空间形状分割。
多层感知器（multi layer perceptron，MLP）网络：是一种可普遍适用的非线性学习机器，能够实现任意复杂的函数映射采用反向传播(Back Propagation)算法训练权值
BP算法基本原理：训练开始之前，随机地赋予各权值一定的初值。训练过程中， 轮流对网络施加各个训练样本。当某个训练样本作用于神经网络输入端后，利用当前权值计算神经网络的输出。考查所得到的输出与训练样本的已知正确输出之间的误差，根据误差对输出层权值的偏导数修正输出层的权值；把误差反向传递到倒数第二层的各节点上，根据误差对这些节点权值的偏导数修正这些权值，依此类推，直到把各层的权值都修正一次。如此不断进行下去，直到在一轮训练中总的误差水平达到预先设定的阈值，或者训练时间达到了预定的上限。
BP算法：目标函数是均方误差，采用梯度下降法通过调整各层的权值求目标函数最小化。
BP算法可能收敛于局部极小点（梯度算法）与初值、步长等的选择有关更与**网络结构（结点数目）**有关
优化方式：多凭经验或试验选择如η时变，加记忆项，网络结点可剪裁，等等。在权值更新过程中引入**“记忆项”或“惯性项”**，使本次权值修改的方向不是完全由当前样本下的误差梯度方向决定，而是采用上一次权值修改方向与本次负梯度方向的组合，在某些情况下这样可以避免过早地收敛到局部极小点。
人工神经网络的三个要素：神经元的传递函数 — 比如选Sigmoid函数。网络结构 — 通常三层（1个隐层）即可满足常见任务需求。连接权值学习 — 通常采用 BP算法学习
隐层节点数目：根据具体问题进行试探选择据对问题的先验知识去精心地设计隐层节点的层数和节点数目用算法来确定隐层节点数目没有一种方法能够完全自动地确定出神经网络的结构，带有强“技巧性” 。
过学习（over-fitting）与欠学习（under-fitting）问题：
结论：当训练样本无穷多时，BP 算法的目标函数等价于神经网络输出与样本后验概率的均方误差，最小化这样的目标函数得到的网络输出就是对样本后验概率的最小均方误差估计。
隐层节点数目：根据具体问题进行试探选择据对问题的先验知识去精心地设计隐层节点的层数和节点数目用算法来确定隐层节点数目没有一种方法能够完全自动地确定出神经网络的结构，带有强“技巧性” 。
等价关系：单层的感知器模型是采用感知准则函数的线性判别函数。多层则可看作它的非线性推广。和发展很多情况下，多层感知器输出可看作是对贝叶斯后验概率的估计。
结论：当训练样本无穷多时，BP 算法的目标函数等价于神经网络输出与样本后验概率的均方误差，最小化这样的目标函数得到的网络输出就是对样本后验概率的最小均方误差估计。
人工神经网络可以看作是由大量简单计算单元(神经元节点)经过相互连接而构成的学习机器，网络中的某些因素，如连接强度(权值)、节点计算特性、网络结构等，可以按照一定的规则或算法根据样本数据进行调整(即训练或学习)，最终使网络实现一定的功能。
根据神经网络的结构特点，人们通常把神经网络模型分成三种类型：前馈型神经网络、反馈型神经网络 和 竞争学习神经网络。
前馈型网络：多层感知器MLP，径向基函数（RBF）网络，用一组径向函数的加权和来实现某种函数逼近，最常用的RBF函数是高斯函数。
前馈型网络基本特点节点按照一定的层次排列，信号按照单一的方向从一层节点传递到下一层节点，网络连接是单向的。多层感知器就是最典型的前馈型神经网络。在这种分层的神经网络中，也可以把每一层看作是对特征进行一次加工或变换。如果节点传递函数是线性函数则这种变换就是线性变换，如果是非线性函数则是非线性变换。经过一系列变换后，由网络的最后一层节点来进行判别决策。特别地，如果一个多层感知器的最后一层的节点采用阈值逻辑函数，那么多层感知器实际上就是通过隐层节点对样本特征进行非线性变换，然后在变换空间中采用感知准则函数构建线性分类器。
反馈型网络：如：Hopfield网络特点：输入信号作用于神经元节点上后，各个节点的输出又作为输入反馈到各节点，形成一个动态系统，当系统稳定后读取其输出。 Hopfield 网络在函数优化等领域有较多应用，在模式识别领域中可以用于模板匹配、优化特征和参数等。
竞争学习网络：如：自组织映射网络（SOM）神经元节点通常排列在同一个层次上，没有反馈连接，但是神经网络之间有横向的连接或相互影响，在学习时通过神经元之间的竞争实现特定的映射。
经过变换，维数大大增加，会陷入所谓“维数灾难”，一方面使这种计算变得非常复杂而不可行。另一方面，将样本变换到很高维空间中以后，由于样本数目并未增加，在很高维空间中就变得很稀疏，很多算法会因为病态矩阵等问题而无法实现。如果有办法处理维数灾难问题，对特征进行变换，通过在新特征空间里求线性分类器来实现原空间里的非线性分类器的思路仍然是十分有效的。
支持向量机引入特征变换将原空间中的非线性问题转化成新空间中的线性问题。并不直接计算复杂的非线性变换。
在采用径向基核函数时，支持向量机能够实现一个径向基函数神经网络的功能，但是二者有很大不同。径向基函数神经网络通常需要靠启发式的经验或规则来选择径向基的个数、每个径向基的中心位置、径向基函数的宽度等，只有权系数是通过学习算法得到的；而在支持向量机中，每一个支持向量构成一个径向基函数的中心，其位置、宽度、个数以及连接权值都是可以通过训练过程确定的。支持向量机等价地实现了对神经网络隐层节点数目的自动选择。
核函数及其参数的选择具体问题具体分析：采用启发式方法或者累试的方法参数先尝试简单的选择，再考虑非线性核。
对于很多应用来说，核函数参数的选择并不是十分困难，人们往往手工尝试几种选择便会找出比较合适的参数。一条基本的经验是，应该首先尝试简单的选择，例如首先尝试线性核，当结果不满意时才考虑非线性核；如果选择 RBF 核函数，则首先应该选用宽度比较大的核，即σ比较大，宽度越大越接近线性，然后再尝试减小宽度，增加非线性程度。
支持向量机的基本思想首先通过非线性变换将输入空间变换到一个高维空间，然后在这个新空间中求最优分类面即最大间隔分类面，而这种非线性变换是通过定义适当的内积核函数实现的。支持向量机求得的分类函数，形式上类似于一个神经网络，其输出是若干中间层节点的线性组合，而每一个中间层节点对应于输入样本与一个支持向量的内积，因此早期也被叫做支持向量网络。支持向量机的决策过程也可以看作是一种相似性比较的过程。首先，输入样本与一系列模板样本进行相似性比较，模板样本就是训练过程中决定的支持向量，而采用的相似性度量就是核函数。样本与各支持向量比较后的得分进行加权后求和，权值就是训练时得到的各支持向量的系数α与类别标号的乘积。最后根据加权求和值的大小来进行决策。
维数和推广能力：采用核函数作为内积，避免了高维空间的计算但核函数的作用仍然是将特征（样本）映射到高维空间。利用有限的样本在很高维甚至无穷维的空间里构造分类器，其推广能力仍然是一个很大的问题。通过最大化分类间隔控制函数集的VC维。使得在高维空间里的函数集的VC 维可以大大低于空间的维数，从而保证好的推广能力。支持向量机在采用核函数内积后仍然有好的推广能力。
非线性变换存在的问题：计算层面：维数过高，概念层面：面对新样本推广能力差
支持向量机核心思想：最大化分类间隔保证推广能力、核函数实现特征的非线性变换
支持向量机通过其“大间隔”和“核函数”的思想有效地解决两个问题：通过采用核函数，运算不需要在高维空间里进行，避免了计算上的困难；通过控制最大化分类间隔，使它即使在很高维的空间里仍能保持最好的推广能力。
通过非线性变换来设计非线性的Fisher判别，基本思想就是采用广义线性判别函数的思想，首先将样本映射到高维空间，然后在新空间里求解Fisher线性判别。
支持向量机：对样本噪声和偏离数据分布的野值非常敏感。样本数非常少时，不确定性很大。
中心支持向量机：用中心间隔代替边界间隔、综合基于均值和基于边界样本方法的优势、极少或含野值样本下能够得到更可靠的分类器

七、统计学习理论概要

注意：（不考）

八、非参学习机器与集成学习

注意：（题目少，判断选择）

参数学习机器：先确定学习机器实现的函数集，然后选择函数集中的函数。非参数学习机器：通过对训练样本的学习直接构建分类机器无法用一个包含若干待定参数的函数来表示
最简单的分段线性分类器：把各类划分为若干子类，以子类中心作为代表点，考查新样本到各代表点的距离并将它分到最近的代表点所代表的类
最近邻法：以距离新样本最近的已知样本的类别作为新样本类别
最近邻法的渐近错误率最坏不会超出两倍的贝叶斯错误率，而最好则有可能接近或达到贝叶斯错误率
k-近邻法：最近邻法（一近邻法）的推广，找出x的k个近邻，看其中多数属于哪一类，则把x分到哪一类。样本无穷多时：随着k增加，上界逐渐降低，极限情况下上下界碰到一起，达到贝叶斯错误率
近邻法在计算上的问题：需存储所有训练样本新样本需与每个样本作比较。
快速算法（分支界定法）基本思想：把样本集分级分成多个子集（树状结构），每个子集（结点）可用较少几个量代表，通过将新样本与各结点比较排除大量候选样本，只有最后的结点（子集）中逐个样本比较，找出近邻。
剪辑近邻法：处在两类交界处或分布重合区的样本可能误导近邻法决策，应将它们从样本集中去掉。基本思路：考查样本是否为可能误导样本，若是则从样本集中去掉——剪辑，考查方法是通过试分类，认为错分样本为误导样本
剪辑近邻法的基本做法：将已知样本集划分为考试集和训练集，剪辑：用训练集中的样本对考试集中的样本进行近邻法分类。剪掉考试集中被错分的样本，考试集中剩余样本构成剪辑样本集（XNET），分类：利用这个新样本集对未知样本分类。
剪辑近邻法可以比较好地去除边界附近容易引起混乱的训练样本，使得分类边界清晰可见。
为了消除考试集、训练集划分中的偶然性造成的影响，当样本数较多时，人们设计了一种多重剪辑方法MULTIEDIT。
考查近邻法的分类原理，可以发现，那些远离分类边界的样本对于最后的分类决策没有贡献。只要能够设法找出各类样本中最有利于用来与其他类区分的代表性样本，就可以把很多训练样本都去掉，简化决策过程中的计算。**压缩近邻法（CONDE）**采用了以上思想。
压缩近邻法的思想与后来的支持向量机方法有一定的相似之处。支持向量机求解最大化分类间隔的最优分类面，得到一组能够代表样本集中全部分类信息的支持向量。压缩近邻法是通过启发式的方法寻求用较少的样本来代表样本集中的分类信息。
名义特征：正交编码例如颜色、形状、性别、职业、字符串中的字符等
序数特征：等同于名义特征处理或转化为数值特征例如序号、分级，不能看作是欧氏空间中的数值
区间特征：通过设定阈值变成二值特征或序数特征与研究目标之间的关系呈现出明显的非线性。取值是实数，可以比较大小，但是没有一个“自然的”零，比值没有意义例如年龄、温度、考试成绩等
最早比较著名的决策树构建方法是 ID3(交互式二分法)，其名字虽然是二分法，但它也适用于每个节点下划分多个子节点的情况。方法的原型是 Hunt 等提出的概念学习系统(concept learning system)，通过选择有辨别力的特征对数据进行划分，直到每个叶节点上只包含单一类型的数据为止。
ID3 算法的基础是香农(Shannon) 信息论中定义的熵(entropy) 。
$\left( P_1 \log_2 P_1 + P_2 \log_2 P_2 + \ldots + P_k \log_2 P_k \right) = - \sum_{i=1}^{k} P_i \log_2 P_i$
ID3算法流程：首先计算当前节点包含的所有样本的熵不纯度，比较采用不同特征进行分枝将会得到的信息增益即不确定性减少量，选取具有最大信息增益的特征赋予当前节点，该特征的取值个数决定了该节点下的分枝数目；如果后继节点只包含一类样本，则停止该枝的生长，该节点成为叶节点；如果后继节点仍包含不同类样本，则再次进行以上步骤，直至每一枝都到达叶节点为止。
其他不纯度度量：Gini不纯度（方差不纯度）：
$\sum_{m \neq n} P(\omega_m) P(\omega_n) = 1 - \sum_{j=1}^{k} P^2(\omega_j)$
误差不纯度：
$\max_{j} P(\omega_j)$
C4.5算法：以信息增益率代替信息增益，CART算法：Gini不纯度，每个节点上都采用二分法，最后构成二叉树。
过学习问题：算法在训练数据上表现好，在测试数据或新样本上表现较差
在决策树算法中，控制算法推广能力、防止出现过学习的主要手段，是控制决策树生成算法的终止条件和对决策树进行剪枝。
在有限的样本下，如果决策树生长得很大(树枝很多或很深)，则可能会抓住有限样本中由于采样的偶然性或者噪声带来的假象，导致过学习。
先剪枝：数据划分法（将数据分成训练样本和测试样本，首先基于训练样本对决策树进行生长，直到在测试样本上的分类错误率达到最小时停止生长。此方法只利用了一部分样本进行决策树的生长，没有充分利用数据信息，因此通常采用多次的交叉验证方法）、阈值法（预先设定一个信息增益阈值，当从某节点往下生长时得到的信息增益小于设定阈值时停止树的生长。但是，实际应用中此阈值往往不容易设定。）、信息增益的统计显著性分析（对已有节点获得的所有信息增益统计其分布，如果继续生长得到的信息增益与该分布相比不显著，则停止树的生长，通常可以用卡方检验来考查这个显著性。）。后剪枝：减少分类错误修剪法（该方法试图通过独立的剪枝集估计剪枝前后分类错误率的改变，并基于此对是否合并分支进行判断。）、最小代价与复杂性的折衷（该方法对合并分枝后产生的错误率增加与复杂性减少进行折中考虑，最后得到一个综合指标较优的决策树。）、最小描述长度（MDL）准则（该方法的核心思想是，最简单的树就是最好的树。该方法首先对决策树进行编码，再通过剪枝得到编码最短的决策树。）。
先剪枝的策略更直接，它的困难在于估计何时停止树的生长。由于决策树的生长过程采用的是贪婪算法，即每一步都只以当前的准则最优为依据，没有全局的观念，且不会进行回溯，因此该策略缺乏对于后效性的考虑，可能导致树生长的提前中止。
后剪枝的方法在实践中更为成功，它通常利用所有的样本信息构建决策树，信息利用充分；但如果数据量较大时计算代价比较大。在实际应用中，也可以将先剪枝和后剪枝结合使用以获得更为满意的决策树。
基于数据的模式识别方法都面临一个共同的问题，就是数据的随机性问题。方法的任何一次实现都是基于一个特定的数据集的，这个数据集只是所有可能的数据中的一次随机抽样。很多方法的结果受到这种随机性的影响，训练得到的分类器也具有一定的偶然性，在样本量比较少时尤其如此。
随机森林三个步骤：
- 随机森林方法对样本数据进行自举重采样，得到多个样本集。所谓自举重采样，就是每次从原来的 N 个训练样本中有放回地随机抽取N个样本(包括可能的重复样本)。
- 用每个重采样样本集作为训练样本构造一个决策树。在构造决策树的过程中，每次从所有候选特征中随机地抽取m个特征，作为当前节点下决策的备选特征，从这些特征中选择最好地划分训练样本的特征。
- 得到所需数目的决策树后，随机森林方法对这些树的输出进行投票，以得票最多的类作为随机森林的决策。
随机森林实现了通过对多个决策树分类器的集成达到更理想的分类性能。体现了集成学习的思想。Boosting方法通过融合多个分类器，大大提高了分类性能。
“没有免费午餐”的定理，大致是说各种算如果对所有可能遇到的问题进行平均，它们的表现是不会有巨大差别的，优秀的算法只是在特定的问题域中表现胜出。

九、特征选择

注意：（题目少，判断选择）

要进行特征选择，首先要确定选择的准则，也就是如何评价选出的一组特征。利用分类器的错误率作为准则是最直接的想法。但是，这种准则在很多实际问题中并不一定可行。
基于概率分布的可分性判据：常用的概率距离度量：Bhattacharyya距离、Chernoff界、散度。
基于熵的可分性判据：特征对分类的有效性也可以从后验概率角度来考虑。在特征的某个取值下，如果样本属于各类的后验概率越平均，则该特征越不利于分类；如果后验概率越集中于某一类，则特征越有利于分类。
熵：事件的不确定性度量 A事件的不确定性越大（熵大），则对A的事件的观察所提供的信息量大。熵为0（特征x有利于分类），熵大（特征x无助于分类），常用的熵度量有：Shannon熵（香农熵）、平方熵。
统计检验的基本思想：从样本计算某一能反映待检验假设的统计量，用以衡量两组样本(两类样本)之间的差别。
把所研究的问题定义为待检验的假设，如两类样本在所研究特征上有显著差异。首先假定不存在这样的差异：空假设。根据对数据分布的一定的理论模型，计算在这种空假设下统计量取值的分布：统计量的空分布。待检验的假设称作备择假设，即两类样本存在显著的差异。考查在实际观察到的样本数据上该统计量的取值，根据空分布计算在空假设下有多大的概率会得到这样的取值，如果这个概率很小，则可以推断空假设不成立，拒绝空假设，接受备择假设；反之则接受空假设，认为在这些样本上没有表现出两类间有显著差别。
t-检验（t-test）：基本假设：两类样本均服从正态分布，参数化检验方法，对数据分布有一定的假设
非参数检验：不对数据分布作特殊假设如：Wilcoxon秩和检验（rank-sum test）, 亦称Mann-Whitney U 检验，基本做法：把两类样本混合在一起，按照所考察的特征从小到大排序如果一类样本的排序序号之和（秩和）显著的比另一类样本小（或大），则两类样本在所考察的特征上有显著差异。
一个理想的特征选择方法，应该能够从给定的D个特征中根据某种判据准则选择出 d<D个特征，使在这d个特征上该准则最优。
特征选择的最优算法：穷举算法计算每一可能的组合，逐一比较准则函数。适用于：d或D−d很小（组合数较少）的情况。分支界定法从顶向下，有回溯应用条件：准则函数有单调性
特征选择的分支定界法：基本思想按照一定顺序将所有可能的组合排列成一棵树，沿途搜索，避免一些不必要的计算，使找到最优解的机会更早。特点：最优搜索算法，所有可能的组合都被考虑到前提：准则函数单调性（注：实际中可能不满足，因 J 是估计值。）
分支定界法算法要点：根节点为第0级，包含全体特征；每个节点舍弃一个特征，各叶结点代表选择的各种组合；避免在整个树中出现相同组合的树枝和叶结点记录当前搜索到的叶结点的最大准则函数（界限B），初值置零；每级中将最不可能被舍弃（即舍弃后 J 最小）的特征放在最左侧；从右侧开始搜索；从左侧同级中将舍弃的特征不在本结点以下各级中舍弃；搜索到叶结点后，更新B值，然后回溯到上一分支处；如果结点上 J<B，则不向下搜索，向上回溯；每次回溯将已舍弃的特征放回（放回待舍弃之列）；如已回溯到顶（根）而不能再向下搜索，则J=B的叶结点即为解
特征选择的次优算法：
- 单独最优特征的组合：根据单个特征的判据值排队，选前d个单独最佳的特征
- 顺序前进法（SFS）：从底向上的方法。第一个特征选择单独最优的特征，第二个特征从其余所有特征中选择与第一个特征组合在一起后准则最优的特征，后面每一个特征都选择与已经入选的特征组合起来最优的特征。特点：考虑了特征间的组合因素，但某一特征一经入选，则无法淘汰。广义SFS法：每次选择增加l个新特征，可以考虑更多特征间的相关性。
- 顺序后退法（SBS）：从顶向下，从所有特征开始逐一剔除不被选中的特征。每次剔除的特征都是使得剩余的特征的准则函数值最优的特征。特点：顺序后退法也考虑了特征间的组合，但是由于是从顶向下的方法，很多计算在高维空间进行，计算量比顺序前进法大些。特点：考虑了特征间的组合，但某一特征一经剔除，则无法入选。广义SBS法：每次删减r个特征
顺序前进法的缺点是，某个特征一旦选中则不能再被剔除；顺序后退法的缺点是，某个特征一旦被剔除则不能再重新被选；两种方法都是根据局部最优的准则挑选或者剔除特征，这样的缺陷就可能导致选择不到最优的特征组合；改善的方法是将两种做法结合起来，在选择或剔除过程中引入一个回溯的步骤，使得依据局部准则选择或剔除的某个特征有机会被因为与其他特征间的组合作用而重新被考虑；若采用从底向上的策略，则使l>r，此时算法首先逐步增选l个特征，然后再逐步剔除 r 个与其他特征配合起来准则最差的特征，以此类推，直到选择到所需要数目的特征若采用从顶向下的策略，则 l<r，每次首先逐步剔除r个特征，然后再从已经被剔除的特征中逐步选择l个与其他特征组合起来准则最优的特征，直到剩余的特征数目达到所需的数目。
穷举法和分枝定界法的出发点是比较所有可能的组合，从中选择出一组使准则最优的特征；次优搜索方法都属于确定性的启发式方法，根据对特征直观的假设设计一定的搜索策略，使其在该假设下可以取得接近最优的结果。随机搜索方法。这类方法既不采用穷举的策略，也不采用确定的启发式搜索策略，而是对可能的解进行多次随机抽样，通过巧妙地设计随机采样的策略，使算法能够较快地搜索到最优或次优的解
遗传算法基本思想：随机搜索算法；模拟生物进化的现象；把优化问题比喻成在无数可能的重组和突变组合中发现适应性最强的组合的问题；开创新的领域：进化计算。
优化问题比喻为在无数可能的重组和突变组合中发现适应性最强的组合的问题，设计特殊的搜索算法，模拟自然界中通过有性繁殖迅速增加群体多样性以更快地出现适应性强的组合的过程。
遗传算法把候选的对象编码为一条染色体在特征选择中，如果目标是从 D 个特征中选择d 个，则把所有特征描述为一条由 D 个0/1字符组成的字符串，0 代表该特征没有被选中，1代表该特征被选中，这个字符串就叫做染色体，记作m目标是得到一条有且仅有d 个1的染色体优化的目标被描述成适应度(fitness)函数，每一条染色体对应一个适应度值f(m)。可以用前面定义的类别可分性判据作为适应度。针对不同的适应度有不同的选择概率 p(f(m))
遗传算法基本步骤初始化，1.t=0，随机产生一个包含L个染色体的种群M(0)；2.计算当前种群M(t)中每一条染色体的适应度f(m)；3.按照选择概率p(f(m))对种群中的染色体进行采样，由采样出的染色体经过一定的操作繁殖出下一代染色体，组成下一代种群M(t+1)；4.回到 2，直到到达终止条件，输出适应度最大的染色体作为找到的最优解。终止条件是某条染色体的适应度达到设定的阈值。产生后代有两个最基本的操作重组(recombination)，也称交叉(crossover)，两条染色体配对，并在某个随机的位置上以一定的重组概率进行交叉，互换部分染色体。遗传算法模拟有性繁殖的过程；突变(mutation)，每条染色体的每一个位置都有一定的概率发生突变(从0变成1或从1变成0)
遗传算法有很多可以调节的因素，如种群大小L、选择概率、重组概率、突变概率等。
遗传算法虽然不能保证收敛到全局最优解，但是在多数情况下可以至少得到很好的次优解。当选择的空间很大(特征维数很高)且对特征间的关系缺乏认识时，尝试使用遗传算法往往会得到不错的效果。
包裹法（wrapper法）：把分类器与特征选择集成来一起、利用分类器进行特征选择的方法。并不是所有的分类器都能够采用这种策略。要采用这种方法，对分类器有两个基本要求： 一是分类器应该能够处理高维的特征向量；二是分类器能够在特征维数很高但样本数有限时仍能得到较好的效果。
特征选择的方法要回答两个层面的问题， 一是对特征的评价：怎样衡量一组特征对分类的有效性；二是寻优的算法：怎样更快地找到性能最优或比较好的特征组合。
特征选择的三大类方法：过滤法、包裹法、嵌入法。过滤法是在分类器前端“外接”一个特征选择的方法模块，用一定的可分性判据和寻优算法来选择最优或次优的特征。包裹法是把特征选择模块与分类器包裹在一起，用分类器性能作为特征选择的判据，进行迭代的特征选择和分类。嵌入法把特征选择融合到分类器之中，基本原理是，修改分类器(或其他类型的学习机器) 的目标函数和优化算法，使机器学习的目标中不但包括分类或预测的正确率，而且包括对特征选择的目标项。

十、特征提取与降维表示

注意：（计算题一个，计算特点需要记住的公式简单计算量有点大，计算会用到之前学的）（感觉是KL变换）

在这里插入图片描述

特征选择：从D个特征中选出d个；特征提取：通过适当的变换把D个特征转换成d(<D) 个新特征，最常采用线性变换。一般情况下特征变换都是降维变换；非线性变换则是把特征升维；
主成分分析法：从一组特征中计算一组重要性从大到小排列的新特征，他们是原特征的线性组合，并且相互之间不相关。
在模式识别问题中应用主成分分析方法，通常的做法是首先用样本估算协方差矩阵或自相关矩阵，求解其特征方程，得到各个主成分方向，选择适当数目的主成分作为样本的新特征，将样本投影到这些主成分方向上进行分类或聚类。
选择较少的主成分来表示数据，不但可以用作特征的降维，还可以用来消除数据中的噪声。
在模式识别中，使用主成分分析可以实现对特征的变换和降维。这种特征变换是非监督的，没有考虑样本类别的信息。在监督模式识别情况下，以方差最大为目标进行的主成分分析并不一定总有利于后续的分类。
K-L变换，是一种常用的特征提取方法最基本的形式原理与主成分分析相同；K-L变换可以实现有监督的特征提取。
K-L展开式的性质：信号的最佳（压缩）表达：均方误差最小；新空间中的特征是互不相关；用K-L变换坐标系表示原数据，表示熵最小；即这种坐标系统下，样本的方差信息最大程度地集中在较少的维数上；用本征值最小的K-L变换坐标来表示数据，总体熵最小；本征值大的本征向量代表的是样本集中变化大的方向，即方差大的方向；本征值小的本征向量对应样本分布集中的地方，这项方向方差小，均值可以更好的代表样本
高维数据的低维可视化：将高维空间的数据映射到二维平面来，而这种映射尽可能要反映原空间中样本的分布情况，或者使各样本间的距离关系保持不变。举例：主成分分析。
多维尺度法（MDS）：基本出发点：把样本之间距离关系或不相似度关系在低维空间里生成对样本的表示；把样本之间的距离关系或不相似关系在二维或三维空间里表示出来
多维尺度法（MDS）包括：度量型和非度量型。
度量型 MDS ：把样本间的距离或不相似度看作一种定量的度量，希望在低维空间里的表示能够尽可能保持这种度量关系。
非度量型 MDS：也称作顺序 MDS，它把样本间的距离或不相似度关系仅仅看作是一种定性的关系，在低维空间里的表示只需要保持这种关系的顺序。
古典尺度法：又称主坐标分析法。
进行特征提取和数据压缩，实际上是假定数据在高维空间中是沿着一定的方向分布的，这些方向能够用较小的维数来表示。
采用线性变换进行特征提取是假设这种方向是线性的。但在某些情况下，数据可能会按照非线性规律分布，要提前这种规律，就要采用非线性变换。
核主成分分析基本思想：对样本进行非线性主成分分析；根据可再生希尔伯特空间的性质，在变换空间中的协方差矩阵可以通过原空间中的核函数进行运算，从而绕过了复杂的非线性变换
核函数主成分分析能够实现非线性特征提取，但是需要事先选定核函数类型，不同的核函数类型反映了对数据分布的不同假设，也可以看作是对数据引入的一种非线性距离度量。
t-SNE本质：是基于流形学习的降维方法，即寻找高维数据中可能存在的低维流形。在SNE方法的基础上发展而来，利用概率分布来度量样本间的距离，将高维空间中的欧氏距离转化为条件概率密度函数来表示样本间的相似度，特点是能够保持样本间的局部结构，使得在高维数据中距离相近的点投影到低维中仍然相近。常用作样本可视化分析。
在最早提出的 t-SNE方法中，使用正态分布在低维空间中来重构样本间的相对关系，但研究发现使用正态分布重构的低维空间中往往样本过于集中在一起，不利于可视化。因此 t-SNE 方法中使用了t 分布来进行重构，该分布相比正态分布的**尾部更重(**图10-14)，也就是在距离均值较远的位置上的概率密度比正态分布要大。
t-SNE算法特点：敛和优化情况与初值有关，不能保证收敛到全局最优解；在目标维数较高时由于t分布的重尾特性，可能会使算法不能很好的保持样本间局部关系结构；t-SNE不能将训练集上学习得到的投影方式直接用于测试集上进行降维在最终可视化投影中相距较远的聚团之间的距离没有意义。
t-SNE应用：降维可视化和非监督学习，即在没有明确分类目标的样本数据中发现内在的分布规律并在低维空间中直观的展示出来。
特征选择与提取在模式识别、机器学习问题中的作用处理实际问题的基本步骤：1.问题的提出和定义。2.数据获取和预处理。3.特征提取和选择。4.分类器涉及和性能评估。5.分类及结果解释。
预处理一般有两种情况，一是使数据的质量更好，例如用一些数字信号处理的方法消除信号中的噪声，或者对一幅模糊的图像进行图像增强等。需要注意的是要确保这种预处理是有利于后期的模式识别工作的。另一种预处理相对没有得到足够的重视，这就是样本集的预处理，例如样本集中野值的剔除、类别的合并或分裂等。这一工作一般可以根据领域的专门知识进行，也可以采用模式识别中的一些技术，例如必要时在进行后续工作之前先对样本集进行一次聚类分析。
直接采用原始数据进行机器学习的方法，人们把传统的对样本设计原始特征再进行特征选择与提取的方法称作“特征工程”，而把从原始数据直接进行机器学习得到所需结果的方法称作“端到端”机器学习。

十一、非监督学习与聚类

注意：（非常识性简答题*1）（感觉是C均值部分？动态聚类的三个要点？不同聚类之间的差异性？）

监督模式识别：（已知）样本集 → 训练（学习，分类器设计）→ 识别（分类）非监督模式识别：（未知）样本集 → 非监督学习（聚类分析） → 后处理
非监督学习分为两大类：一类是基于样本的概率分布模型进行聚类划分，另一类是直接根据样本间的距离或相似性度量进行聚类。
单峰子集分离法：基本假设：每个聚类的样本分布是单峰的，根据总体分布中的单峰来划分子集。基本思路：把样本按照某种准则投影到某个一维坐标上，在这一维度上估计样本的概率密度，在其中寻找单峰并进行聚类划分(如果这一维上只有一个峰，则寻找下一个投影方向)，投影方向：使方差最大的方向，即协方差阵本征值最大的本征向量方向
非监督参数估计指样本类别未知，但各类条件概率密度函数的形式已知，根据所有样本估计各类密度函数中的参数。
动态聚类算法：多次迭代，逐步调整类别划分，最终使某准则达到最优。三个要点：①选某种距离作为样本相似性度量②定义某个准则函数，用于评价聚类质量③初始分类方法及迭代算法
C均值聚类方法（k均值）：初始划分：一般先选代表点，再进行初始分类。代表点选择方法：1. 经验选择。2. 随机分成c类，选各类重心作为代表点。3. **“密度”法：**计算每个样本的一定球形邻域内的样本数作为“密度”，选“密度”最大的样本点作为第一个代表点，在离它一定距离之外选最大“密度”点作为第二个代表点，…，依次类推。4. 用前c个样本点作为代表点。5. 用c-1聚类求c个代表点：各类中心外加离它们最远的样本点，从1类开始…（背诵）
C均值聚类方法（k均值）：初始分类方法：1. 最近距离法。离哪个代表点近就归入哪一类2. 最近距离法归类，但每次都重新计算该类代表点3. 直接划分初始分类：第一个样本自成一类，第二个样本若离它小于某距离阈值则归入此类，否则建新类，……4. 将特征归一化，用样本各特征之和作为初始分类依据（背诵）
C均值聚类方法（k均值）用于非监督模式识别的问题：1. 要求类别数已知2. 是最小方差划分，并不一定能反映内在分布3. 与初始划分有关，不保证全局最优（背诵）
ISODATA方法（迭代自组织数据分析技术）可以看成是一种改进的C均值算法：特点：成批样本修正，把所有样本调整完后才重新计算均值，提高计算效率；可进行类别合并与分裂。在聚类过程中引入对类别的评判准则，可以根据这些准则自动地将某些类别合并或分裂，从而使得聚类结果更合理，也在一定程度上突破了事先给定类别数目的限制。
C均值方法的缺点：用均值代表类，只适用于近似球状分布的类。改进：引入核函数。如：正太核函数、主轴核函数。
C均值方法：把n个样本划分到c个类中，使各样本与其所在类的均值的误差平方和。把硬分类变成模糊分类，即得模糊c均值方法
模糊C均值算法的一个缺点：对某些野值（本应属于各类程度都很小），隶属度可能较大。改进: 放松归一化条件，归成n。改进后的特点：改进的模糊C均值算法有更好的鲁棒，且对给定的聚类数目不十分敏感；但有时可能会出现一个类中只包含一个样本的情况，可通过在距离计算中引入非线性使之不会小于某值来改进；改进的模糊C均值和C均值一样，依赖于初值。
分级聚类算法：思想：从各类只有一个样本点开始，逐级合并，每级只合并两类，直到最后所有样本都归到一类。聚类过程中逐级考查类间相似度，依此决定类别数。树枝长度：反映结点/树枝之间的相似度或距离。树枝位置：在不改变树的结构的情况下可以任意调整，调整方法需研究距离/相似性度量：多种选择，如欧式距离、相关、City Block。常用的几种类间相似度量：最近距离、最远距离、均值距离。
分级聚类是一种局部搜索，对样本中的噪声敏感聚类数的画法不是唯一的。同一类中的两个分支可以左右互换而不改变聚类结果，但会改变树的外观和分析者的判断。
SOM网络结构（权值竞争学习）：神经元呈平面分布(或其它空间分布) ；输入向量的每一维连接到每个结点；结点间依分布位置关系而有相互作用。
神经元计算特性：向量匹配，与输入向量最佳匹配者称winner(计算距离或内积)(最大响应)。

十二、深度学习

注意：（卷积神经网络、生成模型）

卷积神经网络把输入层设计为一系列处理局部图像模式的感受器神经元，每个神经元只与图像中的局部像素进行连接，类似于视觉神经系统中的感受野。每个神经元只对一个小的感受野进行局部信息提取。单个卷积核：神经元对感受野内像素值进行加权求和，运算过程称作神经元的核函数与图像进行卷积，实现局部信息提取。
把神经元沿图像平移，对图像所有位置的感受野进行扫描，实现对图像不同位置上特征的提取。一个卷积核得到一个特征图（FeatureMap），是一个特征提取器多个卷积核称作多个通道（channel）：同时设计多个具有不同卷积核的卷积神经元，用于不同特征提取一维卷积：相应位置加权求和。
超参数：卷积核尺寸、步幅（stride）、边宽或边衬（pad）对训练过程与结果有重要影响。
权值共享：一轮扫描中卷积核参数不变，用同样的权值去对整个图像进行扫描
卷积核的权值（参数）需要学习，在初始时通常设为一定的随机数，在一轮前向传播计算之后，根据输出端的误差用反向传播算法把误差梯度传播到卷积核，沿误差梯度下降的方向对卷积核的权值进行更新。由于卷积核在不同位置的输入和输出不同，权值更新时实际上是用所有位置上得到的梯度下降更新值的求和或求平均作为该卷积核权值的更新。多个并行卷积核构成多个通道，提取不同特征
图像尺寸𝑛×𝑛，卷积核尺寸𝑘×𝑘，步幅为s ，边衬为p且对称，则特征图维数：
$\left\lfloor \frac{n + 2p - k}{s} + 1 \right\rfloor$
卷积就是对输入图像中的局部进行加权求和，得到的中间输出是所覆盖像素的线性组合，为了引入非线性以实现复杂的特征提取和分类，需要对中间值进行非线性运算。
挤压（squashing）：对卷积结果进行非线性运算，其作用看上去是把原来从负无穷大到正无穷大的线性输出挤压到一个限定的范围。这一步非线性运算称作非线性激活层，所采用的函数称作激活函数。
汇集（“池化”）：对卷积后特征图进行降采样。最大汇集（maxpooling）：把特征图中一个局部区域的最大值选出来作为该区域的代表，按照区域的位置重新汇集到一起，构成降采样后的新特征图；平均汇集（Averagepooling）：采用对区域内数值求平均来代替求最大。两个超参数：汇集区域大小和步幅。卷积层(含非线性运算)和后面接着的汇集层一起，构成卷积神经网络中一组完整的结构单元。需要注意的是，汇集层有时并非必需的。
一组卷积层-汇集层组成的运算单元把输入图像映射为维数低但多个通道的特征图，其作用是从输入图像中提取多种局部特征。为提取在这些特征图上展现出来的高级特征，可在后面再接一组或多组类似的卷积-汇集组件，实现多级特征提取。卷积神经网络在多个卷积-汇集组件后，接一个全连接的多层感知器或其他分类器。当识别目标是多类时，通常用一组软最大(softmax)节点作为最后全连接多层感知器的输出层。
卷积神经网络在输出层计算训练误差，然后用反向传播算法通过链式求导把误差梯度逐层传播到前面各层的参数上，各个参数根据分配到的梯度进行更新。对于共享参数的卷积层，通常是把扫描各个局部感受野的误差梯度求和或求平均后再对卷积核权值进行更新。当层数很多时，误差梯度向前逐级传播，可能会出现梯度越来越大或越来越小的情况，导致网络无法训练出好的结果。这被称作“梯度爆炸”或“梯度消失”。专门的方法和技巧来改进深层网络的训练过程，包括随机梯度下降、批次归一化、自适应舍弃等
生成式模型：估计或模拟样本的概率分布对于分类问题，计算样本x以及标签y联合概率分布p(x,y)；判别式模型：对后验概率P(y|x)直接建模。
判别模型的优势：比生成模型更简单直接；在训练样本数目不大和对样本的知识有限时可能更有效；Vapnik 曾经说过：分类问题是一个具体的问题，而概率模型估计是一个一般的问题，在有限信息下，应当直接解决具体问题而不是通过解决更一般的问题来解决具体问题；生成模型的建模任务通常比判别模型更困难，需要更多的信息。如，要学习从图片上区分香蕉和苹果，判别模型的思路是学习到足以区别香蕉和苹果的特征，如形状和颜色的不同，然后即可进行分类；而生成模型则需要学习如何绘制香蕉和苹果的图像，之后用结构分布推断出分类结果。
其中最有代表性生成模型有：深度信念网络、变分自编码器 VAE 和生成对抗网络 GAN。（考）
常见的判别模型有：感知器、罗杰斯特回归、支持向量机。
自编码器在一定意义上可以看作是一种生成式模型；在自编码器中，只记录训练样本对应的隐层节点输出(编码)，就可以用这些输出产生出对训练样本的近似。标准的自编码器和深度自编码器并不能直接作为生成式模型使用。
变分自编码器通过训练样本学习隐节点变量概率分布看似与自编码器有相同构造，数学模型完全不同，本质上是有向概率图模型，模型的参数推断采用变分推断
同一随机变量，还存在另一个概率分布函数Q(x)P(x)和Q(x)的差异定义为它们熵的差，即KL散度：不同于距离，没有对称性。
生成对抗网络（GAN）：通过两个神经网络的博弈学习样本生成，这两个网络分别是：生成器和判别器。