【模式识别】Fisher线性判别详细推导

思想Fisher的思想是选出一个投影方向，将高维数据投影到低维，投影后的两类相隔尽可能远步骤1、假设有两个样本数据W1=x10,x11,x12,...x1nW_1={x_1^0,x_1^1,x_1^2,...x_1^n}W1=x10,x11,x12,...x1n和W2=x20,x21,x22,...x2mW_2={x_2^0,x_2^1,x_2^2,...x_2^m}W2=x20...

番茄发烧了

2936人浏览 · 2020-03-10 01:57:38

番茄发烧了 · 2020-03-10 01:57:38 发布

思想

Fisher的思想是选出一个投影方向，将高维数据投影到低维，投影后的两类相隔尽可能远

决策方向

1、假设有两个样本数据 $W_1={x_1^0,x_1^1,x_1^2,...x_1^n}$ 和 $W_2={x_2^0,x_2^1,x_2^2,...x_2^m}$
第一个样本的类内平均值为
$m_1=\frac{1}{n}\sum_{i=0}^n x_i$
第二个样本的类内平均值
$m_2=\frac{1}{m}\sum_{i=0}^m x_i$
样本总平均值
$m=\frac{1}{m+n}(\sum_{i=0}^n x_1^i+\sum_{j=0}^m x_2^j)$
第一个样本类内离散度矩阵为
$S_w^1=(x_1^i-m_1)(x_1^i-m_1)^T$
第二个样本类内离散度矩阵为
$S_w^2=(x_2^i-m_2)(x_2^i-m_1)^T$
样本总的类内离散度矩阵为
$S_w=S_w^1+S_w^2=\sum_{i=1}^{class} \sum_{j=0}^{m_i}(x_i^j-m_i)(x_i^j-m_i)^T$
类间离散度矩阵为
$S_b=(m_1-m_2)(m_1-m_2)^T$
投影到1维空间
$y=w^Tx$
线性变换矩阵为 $w$ ，则 $S_w$ 变为
$J=\frac{w^TS_bw}{w^TS_ww}$
这个 $J$ 是判别函数， $J$ 越大，两类分的概率越好。目的是为了求使 $J$ 变大的 $w$ 矩阵。由于现在分子分母都是变化的， $w$ 的幅值变换不影响 $J$ 的值，设 $w^TS_ww=c$ ， $c$ 为常数。则 $J$ 变成了如下形式
$max(J)=w^TS_bw$
$s.t :w^TS_ww=c$
用拉格朗日乘子法
$L(w,\lambda)=w^TS_bw-\lambda(w^TS_ww-c)$
$\frac{∂L(w,\lambda)}{∂w}=2w^TS_b-2\lambda w^TS_w=0$
即
$w^TS_b=\lambda w^TS_w$
若S_w是非奇异的，说明S_w可逆
$S_w^{-1}S_b w^T=\lambda w^T$
说明 $w^T$ 是矩阵 $S_w^{-1}S_b$ 属于特征值 $\lambda$ 的特征向量。由于
$S_b=(m_1-m_2)(m_1-m_2)^T$
则
$S_w^{-1}(m_1-m_2)(m_1-m_2)^T w^T=\lambda w^T$
式中
$m_1-m_2)^T w^T$
是个标量，不影响 $w$ 方向，所以最终取
$w^T=S_w^{-1}(m_1-m_2)$

决策面

$g(x)=w^Tx+w_0$
如果不考虑先验概率，可以取
$w_0=-\frac{1}{2}(m_1+m_2)=-m_0$
$m_0$ 是投影后所有样本均值。
若考虑先验概率，加入贝叶斯信息
$w_0=-\frac{1}{2}(m_1+m_2)^T\Sigma^{-1}(m_1-m_2)-\frac{P(w_2)}{P(w_1)}$
类内距离看做协方差的话，那么把 $\Sigma^{-1}$ 换成 $S_w$ 就变成
$w_0=-\frac{1}{2}(m_1+m_2)^TS_w^{-1}(m_1-m_2)-\frac{P(w_2)}{P(w_1)}$
决策面变为
$g(x)=w^Tx+w_0=w^Tx-\frac{1}{2}(m_1+m_2)^TS_w^{-1}(m_1-m_2)-\frac{P(w_2)}{P(w_1)}$
其中
$S_w^{-1}(m_1-m_2)=w^T$
带入
$g(x)=w^Tx+w_0=w^Tx-\frac{1}{2}(m_1+m_2)^Tw^T-\frac{P(w_2)}{P(w_1)}$
$g(x)=w^T(x-\frac{1}{2}(m_1+m_2)^T)-\frac{P(w_2)}{P(w_1)}$
令
$g(x)=w^T(x-\frac{1}{2}(m_1+m_2)^T)-\frac{P(w_2)}{P(w_1)}=0$
则最终要考虑的是
$w^T(x-\frac{1}{2}(m_1+m_2)^T)=\frac{P(w_2)}{P(w_1)}$
如果
$w^T(x-\frac{1}{2}(m_1+m_2)^T) > \frac{P(w_2)}{P(w_1)}$
则
$x\in w_1$
如果
$w^T(x-\frac{1}{2}(m_1+m_2)^T) < \frac{P(w_2)}{P(w_1)}$
则
$x\in w_2$