模式识别——EM算法

一、概率与似然考虑以θ\thetaθ为参数的分布x;θx;\thetax;θ，若x;θx;\thetax;θ的分布已知，则该分布的一个随机样本xi=E[x;θ]x_i = E[x;\theta]xi=E[x;θ]若x;θx;\thetax;θ的分布未知，对符合其分布的样本进行抽样，得到了{xn}\{x_n\}{xn}，则该分布的参数θ=argmaxθ lnL(θ∣xi)\the.

楠兮兮

692人浏览 · 2020-06-15 16:00:14

楠兮兮 · 2020-06-15 16:00:14 发布

一、密度估计
对于某些有一定意义的数据，其可能不服从于任何标准的概率分布，使用密度估计算法估计其概率密度。一般的，一个非标准的分布都可以使用多个高斯函数进行拟合，称为高斯混合模型【GMM】。
考虑未知的随机变量 $\bm{z}$ ，其可能是隐藏的，或者未知的。考虑 $\bm{x}^{(i)}, \bm{z}^{(i)}$ 的联合概率分布 $p(\bm{x}^{(i)}, \bm{z}^{(i)}) = p(\bm{x}^{(i)}|\bm{z}^{(i)})p(\bm{z}^{(i)})$ 且 $\bm{z}^{(i)}\sim B(k, \phi)$ 代表k个高斯分布的概率，以及 $\bm{x}^{(i)}|\bm{z}^{(i)} = j \sim N(\bm\mu_j, \bm\Sigma_j)$ 代表已知的第j个高斯分布的数据概率分布。
如果 $\bm{z}^{(i)}$ 是已知的，则可以使用极大似然估计，形如 $lnL(\phi, \bm\mu, \bm\Sigma) = \sum_{i =1}^m log\ p(\bm{x}^{(i)}, \bm{z}^{(i)};\phi, \bm\mu, \bm\Sigma)$ 可以得到 $\phi_j = \sum_{i=1}^m 1\{z^{(i)} = j\}/m \\ \bm\mu_j = \sum_{i = 1}^m 1\{c^{(i)} = j\}\bm{x}^{(i)}/ \sum_{i = 1}^m 1\{c^{(i)} = j\}$ 其称为高斯判别模型【GDA】。然而 $\bm{z}^{(i)}$ 是未知的，可以考虑尝试使用模型猜测 $\bm{z}^{(i)}$ 的值，使用极大似然拟合出更好的参数的值，再去猜测 $\bm{z}^{(i)}$ 的值，并进行迭代，该算法称为最大期望算法。

二、EM算法
EM算法的步骤如下：
（1）猜测未知的 $\bm{z}^{(i)}$ 的值，称为E步；
（2）最大似然估计参数的值，称为M步。
（3）迭代（1）-（2），直到收敛。

2.1 E步
E步用于猜测未知的 $\bm{z}^{(i)}$ 的值，形如 $w_j^{(i)} = p(\bm{z}^{(i)} = j|\bm{x}^{(i)}; \phi, \bm\mu, \bm\Sigma)$ 该步计算了 $\bm{z}^{(i)} = j$ 的概率，即 $w_j^{(i)}$ 表示了 $\bm{x}^{(i)}$ 由第j个高斯分布生成占所有高斯分布生成的概率，根据贝叶斯公式 $p(B_i|A) = P(B_i)P(A|B_i)/\sum_{j=1}^n P(B_j)P(A|B_j)$ 形如 $\hat\bm{z}^{(j)} = p(\bm{x}^{(i)}|\bm{z}^{(i)} = j)p(\bm{z}^{(i)} = j)/\sum_{l=1}^cp(\bm{x}^{(i)}|\bm{z}^{(i)} = l)p(\bm{z}^{(i)} = l)$
2.2 M步
M步用于更新对参数 $\phi$ 的更新，形如 $\phi_j = \sum_{i=1}^m w_j^{(i)} / m \\ \bm\mu_j = \sum_{i=1}^m w_j^{(i)}\bm{x}^{(i)}/\sum_{i=1}^m \bm{x}^{(i)} \\ \bm\Sigma_j = \sum_{i=1}^m w_j^{(i)}(\bm{x}^{(i)} - \bm\mu_j)(\bm{x}^{(i)} - \bm\mu_j)^T/\sum_{i=1}^m \bm{x}^{(i)}$ 其与 $\bm{z}^{(i)}$ 已知情况的区别仅仅是第i个点不是由第j个高斯分布生成的指示函数，而是概率，这对应了 $\bm{z}^{(i)}$ 已知与 $\bm{z}^{(i)}$ 未知的情况。

三、EM算法的一般形式
GMM只是EM算法的一个特例，接下来介绍EM算法的一般形式。

3.1 琴生不等式
首先介绍琴生【Jensen】不等式。考虑凸函数 $f$ ，取随机变量 $\bm{x}$ ，那么有 $f(E[\bm{x}]) \le E[f(\bm{x})]$ 其直观理解为凸函数的割线在函数曲线上方。若 $f$ 是严格凸的，即 $d^2f/dx^2 > 0$ ，那么上述等号当且仅当 $\bm{x} = E[\bm{x}]$ 时成立，即 $\bm{x}$ 以1的概率取得某常数值。

3.2 最大似然下界理论
考虑模型的概率分布 $p(\bm{x}, \bm{z};\bm\theta)$ ，其中，仅有 $\bm{x}$ 可以被观测，尝试最大似然 $\begin{aligned}lnL(\bm\theta) &= \sum_{i=1}^mlog\ p(\bm{x}^{(i)};\bm\theta)\\&= \sum_{i=1}^mlog \sum_{\bm{z}^{(i)}}p(\bm{x}^{(i)}, \bm{z}^{(i)};\bm\theta)\end{aligned}$ EM算法就是极大似然估计的过程，但其并非直接求解最大似然导数，其迭代的对似然函数创造了一个下界并寻找下界的最大值，从而靠近似然函数的最大值。由于 $\bm{z}$ 未被观测，因此似然函数的变量仅有 $\bm{x}$ ，因此，有 $\begin{aligned}max_\bm\theta\ lnL(\bm\theta) &= max_\bm\theta\ \sum_{i=1}^mlog\ p(\bm{x}^{(i)};\bm\theta) \\&=max_\bm\theta\ \sum_{i=1}^mlog \sum_{\bm{z}^{(i)}}p(\bm{x}^{(i)}, \bm{z}^{(i)};\bm\theta)\end{aligned}$ 引入辅助函数 $Q_i(\bm{z}^{(i)})$ ，其是未知随机变量 $\bm{z}^{(i)}$ 的概率分布，有 $Q_i(\bm{z}^{(i)}) \ge 0 \\ \sum_{\bm{z}^{(i)}}Q_i(\bm{z}^{(i)}) = 1$ 再考虑数学期望公式 $\sum_{k=1}^m X_kp_k$ 那么有 $\begin{aligned}\sum_{i=1}^mlog \sum_{\bm{z}^{(i)}}p(\bm{x}^{(i)}, \bm{z}^{(i)};\bm\theta)& = \sum_{i=1}^mlog \sum_{\bm{z}^{(i)}}Q_i(\bm{z}^{(i)})p(\bm{x}^{(i)}, \bm{z}^{(i)};\bm\theta)/Q_i(\bm{z}^{(i)}) \\&= \sum_{i=1}^mlog E[p(\bm{x}^{(i)}, \bm{z}^{(i)};\bm\theta)/Q_i(\bm{z}^{(i)})] \end{aligned}$ 这里是对所有的 $\bm{z}^{(i)}$ 对其概率分布乘以其函数进行求和，即该函数的期望。
对数函数 $l o g (x)$ 是一个凹函数，那么根据琴生不等式，有 $\ge E[log(X)]$ 故 $\begin{aligned}\sum_{i=1}^mlog E[p(\bm{x}^{(i)}, \bm{z}^{(i)};\bm\theta)/Q_i(\bm{z}^{(i)})]& \ge \sum_{i=1}^mE[log p(\bm{x}^{(i)}, \bm{z}^{(i)};\bm\theta)/Q_i(\bm{z}^{(i)})] \\&= \sum_{i=1}^m \sum_{\bm{z}^{(i)}}Q_i(\bm{z}^{(i)})log(p(\bm{x}^{(i)}, \bm{z}^{(i)};\bm\theta)/Q_i(\bm{z}^{(i)})) \end{aligned}$ 即 $lnL(\bm\theta) \ge \sum_{i=1}^m \sum_{\bm{z}^{(i)}}Q_i(\bm{z}^{(i)})log(p(\bm{x}^{(i)}, \bm{z}^{(i)};\bm\theta)/Q_i(\bm{z}^{(i)}))$ 为了取得下界的最优值，即等号成立，即需 $\sum_{i=1}^mlog E[p(\bm{x}^{(i)}, \bm{z}^{(i)};\bm\theta)/Q_i(\bm{z}^{(i)})] = \sum_{i=1}^mE[log p(\bm{x}^{(i)}, \bm{z}^{(i)};\bm\theta)/Q_i(\bm{z}^{(i)})]$ 又需要对任何数据均有等式成立，因此需要选择可能的分配 $Q$ 来保证。根据等号成立的条件，需要 $p(\bm{x}^{(i)}, \bm{z}^{(i)};\bm\theta)/Q_i(\bm{z}^{(i)}) = Const$ 即对任何 $\bm{z}^{(i)}$ 都取得相同的值，即 $Q_i(\bm{z}^{(i)}) = \Theta(p(\bm{x}^{(i)}, \bm{z}^{(i)};\bm\theta))$ 又 $\sum_{\bm{z}^{(i)}}Q_i(\bm{z}^{(i)}) = 1$ 因此 $\begin{aligned}Q_i(\bm{z}^{(i)})& = p(\bm{x}^{(i)}, \bm{z}^{(i)};\bm\theta)/\sum_{\bm{z}^{(i)}}p(\bm{x}^{(i)}, \bm{z}^{(i)};\bm\theta) \\&= p(\bm{x}^{(i)}, \bm{z}^{(i)};\bm\theta)/p(\bm{x}^{(i)};\bm\theta) \\&= p(\bm{z}^{(i)}|\bm{x}^{(i)};\bm\theta) \end{aligned}$

3.3 EM算法理论
在E步中猜测 $\bm{z}^{(i)}$ 的值，即是 $Q_i(\bm{z}^{(i)}) = p(\bm{z}^{(i)}|\bm{x}^{(i)};\bm\theta)$ 这为当前的参数 $\phi$ 的似然函数确定了紧下界。
在M步中更新 $\phi$ 的值，即是 $\phi = argmax_{\phi}\ \sum_{i=1}^m \sum_{\bm{z}^{(i)}}Q_i(\bm{z}^{(i)})log(p(\bm{x}^{(i)}, \bm{z}^{(i)};\bm\theta)/Q_i(\bm{z}^{(i)}))$ 这在当前的紧下界中找到似然函数下界中的最大值，从而更新参数 $\phi$ 。
从凸优化的角度考虑，可以考虑 $J(\phi, Q) = \sum_{i=1}^m \sum_{\bm{z}^{(i)}}Q_i(\bm{z}^{(i)})log(p(\bm{x}^{(i)}, \bm{z}^{(i)};\bm\theta)/Q_i(\bm{z}^{(i)}))$ 其中，E步选择 $Q$ 最优化 $J$ ，M步选择 $\phi$ 最优化 $J$ ，这是一种坐标上升法。