模式识别之特征评估
模式识别之特征评估本文内容学习自《模式识别与智能计算——MATLAB技术实现》对原特征空间进行优化后,就要对优化的结果进行评价,通过反复选择不同的特征组合,采用定量分析比较的方法,判断所得到的特征维数,以及所使用的特征是否对分类最有利,这种以定量检验分类性能的准则称为类别可分离性判据,用来检验不同的特征祝贺对分类性能好会的影响。对待特征评估的方法dating分为两类:- 以计算样品在特
模式识别之特征评估
本文内容学习自《模式识别与智能计算——MATLAB技术实现》
对原特征空间进行优化后,就要对优化的结果进行评价,通过反复选择不同的特征组合,采用定量分析比较的方法,判断所得到的特征维数,以及所使用的特征是否对分类最有利,这种以定量检验分类性能的准则称为类别可分离性判据,用来检验不同的特征祝贺对分类性能好会的影响。
对待特征评估的方法dating分为两类:
- 以计算样品在特征空间的离散程度为基础的准则,称为基于距离的可分性判据
- 基于概率密度分布的判据
基于距离的可分性判据:
给定一组表示联合分布点的训练集,假定每一类的模式向量在观察空间中占据不同的区域是合理的,类别模式间距离或平均距离则是模式空间中类别可分离性度量。基于距离的可分性判据的出发点:各类样本间的距离越大,类内散度越小,则类别的可分性越好。
在一个特征候选集 X = [x1,x2,x3,...,xn] 所定义的n为特征空间中,用 d(Xik,Xjl) 表示第i类中第k个样品和第j类中第l个样品间距离的的度量值,距离度量 d(Xik,Xjl) 可采用欧几里得距离计算:
类间的平均距离可采用下式计算:
1/NiNj∑Nk=1i∑Nl=1jd(Xik,Xjl)
表示第i类到第j类之间的距离的度量值,
P(wi)P(wj)
表示第i类与第j类发生的先验概率。
虽然式子看起来复杂,但是理解起来还是比较简单的。
总体散布矩阵
第i类均值向量
X(wi)¯¯¯¯¯¯¯¯=1/Ni∑X∈wiX样本集总体均值向量
X¯¯¯=1/N∑i=1N=1/N∑i=1MP(wi)X(wi)¯¯¯¯¯¯¯¯第i类协方差
∑i=1/(Ni−1)∑X∈wi(X−X(wi)¯¯¯¯¯¯¯¯)(X−X(wi)¯¯¯¯¯¯¯¯)T样本总体协方差
∑=1/(N−1)∑(X−X¯¯¯)(X−X¯¯¯)T第i类类内散布矩阵
Si=E(X−X(wi)¯¯¯¯¯¯¯¯)(X−X(wi)¯¯¯¯¯¯¯¯)T=∑i总体类内散布矩阵
SW=∑i=1MP(wi)Si=∑i=1MP(wi)E(X−X(wi)¯¯¯¯¯¯¯¯)(X−X(wi)¯¯¯¯¯¯¯¯)T=∑i=∑i=1MP(wi)∑i总体类间散布矩阵
SB=∑i=1MP(wi)(X(wi)¯¯¯¯¯¯¯¯−X¯¯¯)(X(wi)¯¯¯¯¯¯¯¯−X¯¯¯)T
特别对于只有两个类的问题,有
SB2=(X(w1)¯¯¯¯¯¯¯¯−X(w2)¯¯¯¯¯¯¯¯)(X(w1)¯¯¯¯¯¯¯¯−X(w2)¯¯¯¯¯¯¯¯)T总体散布矩阵
ST=E(X−X¯¯¯)(X−X¯¯¯)T=∑
存在关系
ST=SW+SB
类内散布矩阵表征各样本点围绕它的均值的散步情况,类间散布均值表征类间各类间的距离分布情况,它们依赖于样本类别属性和划分;而总体散布矩阵与样本划分及类别属性无关。
构造准则
以类内散布矩阵 SW ,类间散布矩阵 SB 和总体散布矩阵 ST 为基础的一些准则:
均方误差最小准则,即迹准则:
J=trSw=∑i=1MP(wi)trSi
或
J=det(Sw)
det表示求其行列式类间距离最大准则
J=tr(SB)
或
J=det(SB)行列式准则
J=|SW|=∑i=1MP(wi)|Si|
基于距离的可分性判据的出发点为:各类样本之间的距离越大,类内散度越小,则类别的可分性越好。
更多推荐
所有评论(0)