模式识别的分析框架大概可以分成数据预处理,特征提取和分类。

(1)数据预处理:通常来说,采集到的数据都是最原始的数据,在数据的采集过程中,由于环境或者仪器本身的原因,数据并非真实的而是混合了一些干扰因素,比如噪声,工频干扰等。所以需要对原始数据进行处理降噪,也就是数据的预处理。从而把数据整理成更标准的形式为后续的分析提供方便。

(2)特征提取:特征提取主要是采用不同的方法对数据进行降维,从复杂的高维空间映射到低维空间,然后根据其结果对数据进行区分。对于不同领域的数据,其特征是不一样的,对于文本特征提取,可能是一些关键词,对于图像特征提取,例如人脸识别问题,会提取一些特征人脸(eigenface)等等。这种降维思想对于复杂对象来说是十分重要的,尤其对于图像来说,以像素为单元,图像的维数是相当高的,特征提取大大简化的问题的复杂度。
       常见的特征提取算法有主成分分析(PCA),独立成分分析(ICA),神经网络,支持向量机等等,其基本的思想就是对众多的特征进行线性或者非线性的变换从而进一步达到降维的目的,其中有的是通过显式的数学变换,有的则是通过隐式变换如通过多层感知器。
        对于一些更复杂的对象,如时间序列的特征提取,如生物DNA序列信息提取,生理信号,以及视频特征提取,这些都是目前研究的热点问题,对于这些问题,贝叶斯网络方法被证明是比较好的研究框架。当然还有许多其他方法如一些非线性方法,小波方法等,研究论文很多。

(3) 数据分类:如果分析最终对应的是一系列离散量,这个过程成为分类,如果是连续量,那么这个过程称为回归。分类是一个非常常见的问题,对于各个领域分类的目标不同,对于文本识别,可能是对文章的类型进行分类,识别正常邮件还是垃圾邮件等,对于图像识别来说,分类也是核心问题,对各个角度,各个神态的人脸进行识别的效率是考验各个算法能力的一个通常标准。此外对图像中文字,数字的识别也是机器视觉的重要研究领域。数据分类的基本方法包括Knn方法,贝叶斯,神经网络,支持向量机等,面临最主要的问题是对于高维问题的分类不准确,特征提取的质量直接关系到分类的结果。

       很遗憾,目前并没有发现一种高效通用的算法,因此,针对不同的数据来源,高效的分析方法各不相同,对于实际的问题,一些理论的方法也会受到计算复杂度的影响,导致其实用性下降,虽然,关于模式识别算法的论文很多,但是无论从理论的角度还是从实际的角度,仍有很多问题值得探索。

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐