目录

模式识别是什么

模式识别做什么

基于知识的方法

基于数据的方法

模式识别的两种方式

监督模式识别

非监督模式识别

常见应用举例


模式识别是什么

人类智慧体现的一个重要方面就是能够认知世界中各个不同的事物,具体说就是能够认识一个事物,并且能将它与其他事物区分开。使用计算机来模拟这种行为就可以,把认识事物区别事物的整个过程称为模式识别

模式(pattern):《说文解字》中记有,模,法也;式,法也。“模”与“式”意思相近,都代表一种规律,即指事物的固有法则。pattern,在英文中一代表事物的模板和原型,二代表事物的特征或性状的组合。那么模式,可以理解为对象的组成成分或影响因素间存在的规律关系,或是因素见存在确定性或随机性规律的对象、过程或事件的集合。

识别(recognition):《说文解字》中记有,识,知也;别,分解也。“识别”就是将认识对象,然后能区分出来。在英文中,recognition也只对已经认识对象的再次认识。那么识别,可以解为对一个对象的再认识和辨别

模式识别:通过对模式的认识和区分来认识对象,并能够对对象进辨别和分类。

模式识别做什么

研究模式识别问题的方法可以归纳为两类:基于知识的方法基于数据的方法。无论采用哪种方法,其目的多是对对象进行分类。

基于知识的方法

主要是指以专家系统为代表的方法,一般归在人工智能的范畴,其基本思想是:根据人们已知的(从专家那里收集整理的)关于研究对象的知识,整理出若干描述特征与类别间关系的准则,建立一定的计算机推理系统,对未知样本通过这些知识推理决策其类别。

基于数据的方法

在确定了样本所用的特征之后,这些方法并不依靠人们对研究对象的认识来建立分类系统(通常情况下,人们也不具备这样的认识),而是收集一定数量的已知样本,用这些样本作为训练集(training set)来训练一定的模式识别机,使之在训练后可以对样本进行分类。这中方法就是基于数据机器学习中的一种特例,学习的目标是一种离散的分类。

                                                                           完全确定   [  模式识别研究的范畴  ]    完全随机

模式识别的研究范畴是间于“完全确定”“完全随机”,主要为一些情况复杂,但根据一定规则可以进行分类的情况。对“完全确定”的情况,不需要学习模式进行分类;对于“完全随机”的情况,无法通过学习模式进行分类。

模式识别的两种方式

监督模式识别

如果我们已知要划分的类别,并且能够获得一定数量类别已知的训练样本,这种情况下使用已知类别的训练集,则能够指导模式识别机进行针对性的训练。这种方式就称为监督模式识别。

有监督模式识别问题一般步骤:

  1. 分析问题:深入研究应用领域的问题,分析是否属于模式识别问题,把所研究的目标表示为一定的类别,分析给定数据或者可以观测的数据中哪些因素可能与分类有关。
  2. 原始特征获取:设计实验,得到已知样本,对样本实施观测和预处理,获取可能与样本分类有关的观测向量(原始特征)。
  3. 特征提取与选择:为了更好地进行分类,可能需要采用一定的算法对特征进行再次提取和选择。
  4. 分类器设计:选择一定的算法分类器方法,用已知样本进行分类器训练。
  5. 分类决策:利用一定的算法对分类器性能进行评价;对未知样本实施同样的观测、预处理和特征提取与选择,用所设计的分类器进行分类,必要时根据领域知识进行进一步的后处理。

非监督模式识别

如果我们事先不知道要划分的是什么类别,具体划分为几类,更没有类别已知的样本作为训练。那么我们需要根据样本的特征进行聚类,保证同一类别数据有一定相似性,不同类别有明显差异。这种方式就成为非监督模式识别。由于没有类别已知的训练样本,在没有其他额外信息的情况下,采用不同的方法和不同的假定可能会导致不同的结果,要评价哪种结果更好:①可以根据一些评价聚类效果的指标来判断,②可以根据该项研究的意图和知识来判断。

无监督模式识别问题一般步骤:

  1. 分析问题:深入研究应用领域的问题,分析研究目标能否通过寻找适当的聚类来达到;如果可能,猜测可能的或希望的类别数目;分析给定或者可以观测的数据中哪些因素可能与聚类有关。
  2. 原始特征获取:设计实验,得到待分析的样本,对样本实施观测和预处理,获取可能与样本聚类有关的观测向量(原始特征)。
  3. 特征提取与选择:为了更好地进行聚类,可能需要采用一定的算法对特征进行再次提取和选择。
  4. 聚类分析:选择一定的非监督模式识别方法,用样本进行聚类分析。
  5. 结果解释:考察聚类结果的性能,分析所得聚类与研究目标之间的关系,根据领域知识分析结果的合理性,对聚类的含义给出解释;如果有新样本,把聚类结果用于新样本分类。

常见应用举例

语音识别:把一段话分为若干小的音素,首先对独立的音素进行识别,基于音素识别的基础上,对音素间的关系进行识别,从而理解语音的内容。

说话人识别:对音素进行识别,并对比表示相同语义的音素之间的差异来辨别说话人的身份。

字符文字识别:对于打印文稿有传统的OCR光学字符识别的模式,根据对单个字符的像素在不同方向上的投影来判断具体是哪一个字。

基因序列识别:对癌细胞中所表达的基因序列进行聚类,用于探索人类基因中容易致病的原癌基因。

地震勘探识别: 通过人为制造震动波穿过地层,并根据透过地层后信号波所展现出的模式,即可分析地层中的成分结构。


欢迎关注我的公众号!

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐