模式识别中,分类识别的正确率取决于对象的表示、训练学习和分类识别算法,特征提取与选择问题是对象表示的一个关键问题。

基于可分享度量的特征提取与选择

通常在得到实际对象的若干具体特征之后,再由这些原始特征产生出对分类识别最有效、数目最少的特征,这就是特征提取与选择的任务。从本质上讲,我们的目的是使在最小维数特征空间中异类模式点相距较远(类间距离较大),而同类模式点相距较近(类内距离较小)。 实现特征提取与选择有两个基本途径:

(1)直接选择法:当实际用于分类识别的特征数目d 确定后,直接从已获得的 n 个原始特征中选出 d 个特征 x 1 , x 2 , ⋯   , x d x_1,x_2,\cdots,x_d x1,x2,,xd,使可分性判据 J 的值满足 J ( x 1 , x 2 , ⋯   , x d ) = m a x { J ( x i 1 , x i 2 , ⋯   , x i d ) } J(x_1,x_2,\cdots,x_d)=max\{J(x_{i1},x_{i2},\cdots,x_{id})\} J(x1,x2,,xd)=max{J(xi1,xi2,,xid)},其中 x i 1 , x i 2 , ⋯   , x i d x_{i1},x_{i2},\cdots,x_{id} xi1,xi2,,xid 是 n 个原始特征中的任意 d 个特征,其表明的意思是直接从 n 维特征空间中寻找作用于分类的 d 维特征子空间。
x ⃗ = ( x 1 , x 2 , ⋯   , x n ) T ⟶ ( J → m a x ) y ⃗ = ( y 1 , y 2 , ⋯   , y d ) T , d < n , 其 中   y i ∈ { x 1 , x 2 , ⋯   , x n } \vec x=(x_1,x_2,\cdots,x_n)^T \stackrel{(J\to max)}{\longrightarrow}\vec y=(y_1,y_2,\cdots,y_d)^T,d<n,其中\,y_i\in\{x_1,x_2,\cdots,x_n\} x =(x1,x2,,xn)T(Jmax)y =(y1,y2,,yd)T,d<n,yi{x1,x2,,xn}

主要方法有:分支定界法、回归建模确定相关特征等方法。

(2)变换法:在使判据 J 取最大的目标下,对 n 个原始特征进行变换降维,即对原 n 维特征空间进行坐标变换,然后再取子空间,即 x ⃗ = ( x 1 , x 2 , ⋯   , x n ) T ⟶ ( J → m a x ) y ⃗ = h ( x ⃗ ) = ( y 1 , y 2 , ⋯   , y d ) T , d < n \vec x=(x_1,x_2,\cdots,x_n)^T \stackrel{(J\to max)}{\longrightarrow}\vec y=h(\vec x)=(y_1,y_2,\cdots,y_d)^T,d<n x =(x1,x2,,xn)T(Jmax)y =h(x )=(y1,y2,,yd)T,d<n

主要方法有: 离散K-L变换法(DKLT) 等方法。

特征选择和特征选择

特征选择

一般根据 物理特征或结构特征 进行压缩;当”模式”在空间中发生移动、旋转、缩放时,特征值应保持不变,保证仍可得到同样的识别效果。

特征提取

一般用 数学方法 进行压缩。

特征选择和特征提取的区别

以对一个条形和圆形进行识别为例:
在这里插入图片描述

特征选择:测量这两个物体的结构特征(有a.周长;b.面积;c.两个互相垂直的内径比)。对着三个特征进行比较,发现只有 c 具有分类的能力,故选择特征 c,而弃掉 a,b;
在这里插入图片描述

特征提取:测量物体向两个坐标轴 x 1 , x 2 x_1,x_2 x1,x2 的投影值,则A、B各有2个值域区间。可以看出,两个物体的投影有重叠,直接使用投影值无法将两者区分开。

但将坐标系按逆时针方向做一旋转变化,或物体按顺时针方向变,并适当平移等。根据物体在 x 2 ′ x'_2 x2 轴上投影的坐标值的正负可区分两个物体。

可分性判据

为确立特征提取和选择的准则:引入类别可分性判据,来表征特征对分类的贡献。为此希望所构造的可分性判据 J 满足下列要求:
(1)可分性判据 J 与误判概率 P ( e ) P(e) P(e) 具有单调关系, J 最大时, P ( e ) P(e) P(e) 最小;
(2)当特征相互独立时,判据具有可加性 J i j ( x 1 , x 2 , ⋯   , x d ) = ∑ k = 1 d J i j ( x k ) \displaystyle J_{ij}(x_1,x_2,\cdots,x_d)=\sum^d_{k=1}J_{ij}(x_k) Jij(x1,x2,,xd)=k=1dJij(xk),式中 x 1 , x 2 , ⋯   , x d x_1,x_2,\cdots,x_d x1,x2,,xd 是对不同种类特征的测量值, J i j ( ⋅ ) J_{ij}(\cdot) Jij() 表示使用括号中的特征组合时的第 i 类与 第 j 类可分性判据函数;
(3)判据需具有某些 距离特性 { J i j > 0 , i f    i ≠ j J i j = 0 , i f    i = j \displaystyle \left\{ \begin{aligned} J_{ij}>0, & & {if\,\,i\not=j}\\ J_{ij}=0, & & {if\,\,i=j}\\ \end{aligned} \right. {Jij>0,Jij=0,ifi=jifi=j ,且有 J i j = J j i J_{ij}=J_{ji} Jij=Jji
(4)对特征数目是单调不减的,即加入新的特征后,判据值不减: J i j ( x 1 , x 2 , ⋯   , x d ) ≤ J i j ( x 1 , x 2 , ⋯   , x d , x d + 1 ) \displaystyle J_{ij}(x_1,x_2,\cdots,x_d)\le\displaystyle J_{ij}(x_1,x_2,\cdots,x_d,x_{d+1}) Jij(x1,x2,,xd)Jij(x1,x2,,xd,xd+1).

实际应用中 J 可能不一定能够同时具备单调性、叠加性、距离性和单调不减性,但在实际使用依然有效。

而可分性判据主要有:

基于距离的可分性判度量

基于类的概率密度函数的可分性判据

基于后验概率的可分性判据

统计检验的可分性判据

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐