正态随机过程和多变量正态分布

正态随机过程和多变量正态分布高斯分布高斯分布又称正态分布，被广泛用于连续变量分布的模型。对于单变量x，高斯分布的形式2.3高斯分布" name="image_operate_32041331183295048" alt="模式识别和机器学习--- 2.3高斯分布" src="http://s5.sinaimg.cn/middle/

维博

10726人浏览 · 2012-12-04 15:49:21

维博 · 2012-12-04 15:49:21 发布

正态随机过程和多变量正态分布

高斯分布

高斯分布又称正态分布，被广泛用于连续变量分布的模型。对于单变量x，高斯分布的形式

这里表示期望，表示方差。对于一个D维向量X，其多元高斯分布形式为：
这里是一个D维均值向量，是的协方差矩阵，表示的行列式。

高斯分布出现在很多应用中并可以从很多角度来阐释。比如，我们已经见过的实单变量使熵最大的分布就是高斯分布。该性质同样适用于多元高斯分布中。

当考虑多个随机变量和的分布是另一个应用高斯分布的情境。中心极限定理（central limit theorem，Laplace 提出）告诉我们：在一定的简单条件下，一系列随机变量的和（其自身当然也是随机变量）的分布随着项的增加其越接近高斯分布。可以通过N个服从[0 1]间分布的变量的均值
的分布来阐述。当N很大时，该分布趋向于高斯分布。事实上，随着N的增大它会很快收敛于高斯分布。该结果的一个推论是：当N趋于∞时，二元分布即二元变量的N次观察中出现m次的分布，趋于高斯分布。

高斯分布具有很多重要的性质，我们将会具体讨论其中的几个。因此，相对于以前的章节，这节将会牵涉更多的技术性，而且需要熟悉各种矩阵特性。但是，我们强烈建议读者用此处介绍的技术熟练掌握高斯分布，因为这对以后章节出现的更为复杂的模型的理解将是非常重要的。

我们首先考虑高斯分布的几何形式。X上的高斯分布的功能函数是出现在指数上的二次形式

称为从到的马氏距离（Mahalanobis distance），当是单位矩阵时变为欧氏距离（Euclidean distance）。因为该二次项为常数，所以在X-空间表面高斯分布也是常量。
首先，我们注意到是一个对称矩阵，不失一般性，任何非对称部分将从指数中消失。现在来考虑协方差矩阵的特征向量等式

这里。因为是实对称矩阵，所以它的特征向量都是实向量，并且可以构成正交向量集，即

这里是单位矩阵的第i行的第j个元素，满足

协方差矩阵

可以用特征向量展开成如下形式：

类似，协方差举证的逆

可表示为

将（2.49）代入（2.44），则二次式变为

这里我们定义

我们可以将理解为由正交向量定义的新的坐标系，该坐标系是对初始坐标的平移和旋转。用向量的形式，我们有

这里是一个行向量为的矩阵。从（2.46）了解到是正交矩阵，比如它满足也满足（是单位矩阵）。

因为（2.51）是一个常量，所以二次式，因而高斯密度，在表面也是常量。如果所有的特征值

都是正的，那么这些平面表现为椭圆，而且

是其中心，轴朝向

，而且在轴向的尺度系数为

。

为了高斯分布意义明确，必须使协方差举证的所有特征值都严格为正，否则，该分布不能正确规范。矩阵的特征值严格为正又称为矩阵正定。在第12章，我们将遇到1个或多个特征值为0的高斯分布，在这种情况下，该分布是异常的或者是定义于低维子空间。如果所有特征值非负，那么，协方差矩阵称为半正定矩阵。
现在考虑由定义的新坐标系下的高斯分布形式。从X到Y坐标系，我们有一雅克比矩阵（Jacobian matrix），它的元素定义为

是的元素。用地正交性质，可见雅克比矩阵（Jacobian matrix）行列式的平方是

因此。同时，协方差矩阵的行列式可以记为它的特征值的乘积

因此，在坐标系下，高斯分布的形式为

即是D个独立单变量高斯分布的乘积。因此，特征向量定义新的旋转和平移坐标系时考虑到了将联合概率分布分解成独立分布的乘积。在坐标系下，分布的积分为

这里我们使用了（2.48）的结果来标准化单变量高斯分布。该式证实了多变量高斯（2.43）确实是正态的。

现在考察高斯分布的矩，从而理解参数

和

。高斯分布下X地期望是

这里我们使用了变量替换。注意到指数是因子Z的偶函数，并且积分区域是（- ∞，+ ∞），因此，中的将会对称抵消。因此，

所以，我们把认为是高斯分布的均值。

现在考虑高斯二阶矩。在单变量情况下，我们认为是高斯二阶矩。而对于多变量高斯，存在个二阶矩由表示，可以组合形成矩阵。该矩阵可记为

这里我们仍然采用了变量替换。注意到交叉项和会再次被对称抵消。项是常量（是一个单元（unity），因为高斯分布的标准化），可提到积分号外边。考虑项，我们可以再次使用（2.45）给出的协方差矩阵的特征向量展开，并结合特征向量集的完备性，记

这里，得到

这里我们使用了特征向量等式（2.45），并结合了中间行的右边积分除非i=j将会消失，在最后一行，我们使用了（1.50）、（2.55）和（2.48）的结果。因此，我们有

对于单个随机变量，在计算二阶矩前减去均值是为了定义方差。类似地，在多变量情形下，减去均值会使得计算如下定义的协方差非常方便，

对于特定的高斯分布，我们可以使用

并结合（2.62）的结果，给出

因为系数矩阵

控制了高斯分布X的协方差，所以它被称为协方差矩阵。

尽管，高斯分布（2.43）被广泛用作密度模型，但它存在一些明显的缺陷。考虑分布中的自由参数的个数，一个普通的对称协方差矩阵将会有D（D+1）/2个自由参数，加上均值向量中的D个自由参数，总共有D（D+3）/2个参数。参数个数随着D的二次方增长，当D非常大时，操作和逆置大矩阵将会受到限制。一种解决该问题的办法是使用限定形式的协方差矩阵。如果协方差矩阵时对角阵，即

，那么在密度模型中只有2D个自由参数。恒定密度的响应边缘将是坐标对齐的椭圆。我们可以更进一步限定协方差矩阵是和单位矩阵成比例即

，由称为各向同性协方差，则在模型中只有D+1个独立参数，并且恒定密度曲线是圆。不幸的是，尽管这种方法限制了分布中的自由度而且使得协方差矩阵的操作更加快速，但是它也极大地限制了概率密度的形式并且限制了分布表示数据间的相关性的能力。

对高斯分布一个更进一步的限制是：它是一个本质单峰（intrisically unimodal）。因此不能对多峰分布给出一个好的近似。因此，高斯分布既能很灵活并对很对参数敏感，也能有很多限制使其仅仅足够表示的分布区域。后面我们将介绍潜在变量，又称隐含变量，或未观测变量，能够同时解决这些问题。特别地，一个丰富的通过介绍潜在离散变量倒出混合高斯而获得的多元分布将会在2.3.9节介绍。类似地，在第12章介绍的潜在连续变量模型其自由参数的个数将能够被数据空间的维数D独立控制并且该模型能够很好地获得数据集的主要相关性关系。事实上，这两种方法可以联合使用并且进行进一步扩展到丰富的能够适用于更加广泛的实际应用领域中的层次模型。比如，广泛应用于图象概率模型的高斯模型的马尔科夫随机场（Markov random field），就是在像素强度的联合空间的高斯分布，该空间通过采用合理的反映像素空间组织关系的结构而很容易处理。类似地，应用在跟踪等时序数据模型的动态线性系统（linear dynamical system），同样是一个在可能含有大量观测和潜在观测的数据上的联合高斯分布，由于利用了分布中的结构同样很容易处理。图象概率模型就是对这种复杂分布的形式和性质的一个很好阐释，它将组成第8章。

原文出处： http://tonyshen.blog.51cto.com/4569905/ 800273

条件高斯分布

多元高斯分布的一个重要性质是如果两个变量集是联合高斯分布，那么其中一个基于另一个变量集上的条件分布仍然是高斯分布。边缘高斯分布也有类似结论。

考虑第一种情形的条件高斯分布。假设X是一个满足高斯分布的D维向量，我们把X分作两个子集X_a和X_b。不失一般性，我们记X_a为X的前M个元素，X_b为剩下D-M个元素，即

我们还定义期望向量

的分块

及协方差矩阵

的分块

注意到协方差的对称性

隐含着

和

也是对称的，以及

。

在许多情形下，使用协方差矩阵的逆会更加方便

它被称为精度矩阵（precision matrix，图模型中的称谓）。事实上，我们将看到高斯分布的一些性质大部分都会很自然地用协方差的形式表示，然而当精度矩阵（precision matrix，图模型中的称谓）表示时另外一些性质的形式将会变得更加简单。因此，我们也引入了精度矩阵（precision matrix，图模型中的称谓）的分块形式

与向量X的分块（2.65）一致。因为对称矩阵的逆仍然是对称的，所以和都是对称矩阵，以及

。在此需要强调的是，

不是简单的给

取逆。事实上，我们将会考察分块矩阵的逆和其分块的逆之间的关系。
首先，我们来寻求条件概率

的表示。根据概率的乘法性质，得到该条件概率可以简单地通过用X _b的观测值来修正联合概率

并归一化其结果表示从而得到合理的X _a上的合理概率分布。我们不是具体地实行归一化，而是采用高效地方法，即考虑（2.44）给出的高斯分布中指数的二次形然后在计算的最后恢复归一化系数。使用划分（2.65），（2.66）和（2.69）得到

可见这是一个关于Xa的函数，而且是二次形式，因此，对应的条件分布

将是高斯分布。因为，这种分布（高斯分布）完全由期望和方差表征，所以，我们的目标是检查（2.70）的期望和方差的等价表示。
它是一个与高斯分布相联系的极普通的例子，有时称为“完全平方”，其中给了我们高斯分布中指数项中的二次形式，以及我们需要确定对应的期望和方差。该问题可以直接通过标记普通高斯分布

的指数可以记为

这里的“const”表示独立于X的项，而且我们利用了

的对称性。因此，如果将普通的二项形式并且将它表示为（2.71）右边的形式，那么我们可以立即将X的二次项的系数等同于协方差矩阵的逆

而且X的线性项系数等同于

，由此我们可以获得

。

现在将该步骤应用于条件高斯分布

它的指数项的二次形式由（2.70）给出。我们分别用

和

表示该分布的期望和方差。考虑该函数依赖于X _a，对于X _b则视为常数。如果我们将X _a所有二次项提出，则得到

据此可以立即总结出

的协方差矩阵（精度矩阵的逆）为

现在考虑（2.70）中X_a所有的线性项

这里我们利用了。从我们讨论普通形式（2.71）中可知，表达式中X_a的系数一定等于，因此，

这里我们利用了（2.73）。

（2.73）和（2.75）的结果是由初始联合分布

的精度矩阵中的分块项表示的。我们同样可以用协方差矩阵的对应分块项来表示这些结果。为了实现这个，我们利用了以下分块矩阵的逆的恒等式

这里我们定义

的大小称作（2.76）左边矩阵相对于子矩阵D的舒尔补（Schur complement）。采用定义

并利用（2.76），可得到

通过这些我们可以获得条件分布

的期望和方差的等式如下

比较（2.73）和（2.82），可以当采用精度矩阵的分块项来表示条件概率

相对于采用协方差矩阵的分块项更加简单。注意，条件概率

的期望（由（2.81给出）），是X _b的线性函数，而协方差（由（2.82给出））独立于X _a。这代表了一种线性高斯模型的例子。

2.3.2边缘高斯分布

我们已经见到如果联合分布

是高斯分布，那么条件高斯分布

也是高斯分布。现在我们回到如下的边缘分布的讨论，

我们将看到，它同样是高斯分布。同样，我们的策略关注与联合分布的二次形式指数项从而确定边缘分布

的期望和方差。

在（2.70）中，联合分布的二次形式可以用精度矩阵的分块形式表示。因为我们的目标是对X_b积分，这可以很容易地通过首先考虑包含X_b的项然后配方来简化积分达到。提出哪些仅包含X_b的项，得到

这里我们定义了

可见依赖于X_b的项能够转化到和（2.84）中右端项的第一项对应的高斯分布的标准二次形式，加上一个并不依赖于X_b（但是依赖于X_a）的项。因此，使用二次形式的指数形式，我们可以发现（2.83）在X_b上的积分是如下形式

该积分是在非归一化的高斯分布上的积分，所以结果将会和其系数有关。通过（2.43）给出的归一化高斯形式我们可以知道系数和均值独立，并且只依赖于协方差矩阵的行列式。因此，对X _b配方，我们可以积出X _b而分布（2.84）左边的依赖于X _a剩余项是（2.84）右边的最后一项其中 m由（2.85）给出。结合该项以及（2.70）的依赖于X _a的剩余项，得到

这里“const”表示数值独立于X _a。再次，通过同（2.71）比较，可以发现边缘分布

的协方差矩阵是

类似地，期望是

这里利用了（2.88）。在（2.88）中协方差是由（2.69）给出的精度矩阵的分块项表示。就像我们之前所做的那样，可以用（2.67）给出的协方差矩阵的对应分块项来重新表示它们。这些分块矩阵的关系是

利用（2.76），有

因此我们获得了满意的直观结果，即边缘分布的期望和方差为

可以看到对于边缘分布，使用协方差矩阵的分块矩阵项表示均值和方差时最简单的，然而，在条件分布中使用精度矩阵表示均值和协方差更简便。

原始出处： http://tonyshen.blog.51cto.com/4569905/ 801260

多元正态分布二维高斯型函数

http://comic.sjtu.edu.cn/thucs/GD_jsj_016b/text/chapter02/2_3_1t2.htm

1.多元正态分布的概率密度函数
　　多元是指样本以多个变量来描述，或具有多个属性，在此一般用d维特征向量表示，X＝[x1，…，xd]T。d维特征向量的正态分布用下式表示
　　(2-32)
　　其中μ是X的均值向量，也是d维，
　　μ＝E{X}＝[μ1，μ2，…，μd]T (2-33)
　　Σ是d×d维协方差矩阵，而Σ－1是Σ的逆矩阵，|Σ|是Σ的行列式
　　Σ＝E{(X－μ)(X－μ)T} (2-34)
　　Σ是非负矩阵，在此我们只考虑正定阵，即|Σ|＞0。
　　多元正态分布与单态量正态分布在形式上尽管不同，但有很多相似之处，实际上单变量正态分布只是维数为1的多元分布。当d=1时，Σ只是一个1×1的矩阵，也就是只有1个元素的矩阵，退化成一个数，|Σ|1/2也就是标准差σ，Σ－1也就是σ-2，而(X－μ)T(X－μ)也变成(X-μ)2，因此(2-32)也就演变成(2-29)

但是多元正态分布要比单变量时复杂得多，具有许多重要的特性，下面只就有关的特性加以简单叙述。
　　多元正态分布的概率密度函数中的元就是我们前面说得特征向量的分量数，也就是维数。为了方便我们着重讨论二维向量，是一个随机向量，其中每一个分量都是随机变量，服从正态分布。但是一个二维随机向量不仅要求考虑每个分量单独的分布，还要考虑两个随机变量之间的关系。下图的例子中的两个二元正态分布的各个分量是相同的，即它们的期望(μ1和μ2)方差σ1和σ2都相同，但这两个特征向量在空间的分布却不相同。从下图：

对右图来说，x1和x2有很大的相关性，而对左图来说，随机变量x1与x2之间的相关性很小。这可以从两者的区别看出来。对于右图可以看出一个随机变量的x1分量较小时，另一分量x2也必然较小。而当随机变量的x1较大时，则其相应的x2分量也较大。换句话说，如果x1分量小于其均值μ1,则其相应的分量x2也很可能小于它的均值μ2。因此当x1-μ1<0时，也常伴有x2-μ2<0 ，这说明它们之间有联系，或称相关性，用这两项相乘来看就有倾向化。对整个随机变量样本集取期望值，就会使有非零值。反过来看左图中的随机变量分布，就没有这种规律，一个随机变量x1分量小于其均值 ,并不对其相应分量x2与之间的关系有什么限制。在此时一个随机变量(x1-μ1)与(x2-μ2)的乘积的符号就可正可负，则就可能接近于零，或等于零。因此我们可以用来衡量这种相关性，称为协方差。则后者的协方差是个正数，而后者很可能为零，协方差越大，说明两个变量的相关度越高。为了将各个分量的方差、协方差都用一个统一的方式表示，则可使用式(2-34)，用符号Σ表示。你如果将(2-42)表示一个二维向量，你就会发现该矩阵的非对角元素正表示了两个分量之间的相关性，而主对角元素则是各分量本身的方差。
　　
　　Σ称为协方差矩阵。
　　那么以下是上两图特征向量分布的协方差矩阵：
　　和，请问哪个是左图，哪个是右图？(前一个是左图)
　　如果是一个三维向量，它的协方差矩阵是几乘几的矩阵？每个元素又对应什么含义？
　　(是个3×3矩阵， )
　　还需要指出的是，协方差矩阵并不只对正态分布有用，它是多元随机变量中一个重要的数学统计表示方法，它描述了一个随机变量样本集中各个分量之间的相关性。
协方差矩阵还有一些很重要的属性，是经常用到的。其中一个特性是：它是一个对称矩阵，如果它的第i行第j列元素表示成

，则应有。这就是说与第j行第i列的元素是相同的，这就是对称性。另一个特性是：由于它的主对角元素都是各分量的方差，因此一般情况下都是大于零的值。因此协方差矩是正定的，这一点也是十分有用的。

一般式：

术语	中文含义	备注
central limit theorem	中心极限理论	p78
Mahalanobis distance	马氏距离	#, p80
orthonormal	正交	p80
eigenvalue	特征值	p81
positive definite	正定的	p81
singular	非平凡的	p81
positive semidefinite	半正定的	p81
Jacobian matrix	雅克比矩阵	p81
moment	原点矩	p82
covariance	协方差	p83
diagonal	对角	p84
isotropic covariance	#, p84
unimodal	单峰	p84
latent(hidden,unobserved) varialbes	#, p84
hierarchical models	#, p84
Markov random field	#, p84
linear dynamical system	#, p84
precision matrix	p85
Schur complement	p87
sufficient statistic	充分统计量	p93
error signal	p95
Robbins-Monro algorithm	p95, 顺序模型中的参数估计算法
regression	p95
stationary point	驻点	p96
point estimate	p97
gamma distribution	p100
inverse gamma distribution	p101
normal-gamma (Gaussian-gamma)	p101
Student’s t-distribution	p103
degrees of freedom	p103
Cauchy distribution	p103
squared Mahalanobis distance	p105
Cartesian coordinates	p106
von Mises distribution (circular normal)	p108
concentration parameter	p108
zeroth-order Bessel function of the first kind	p108
responsibilities	p112
closed-form analytical solution	p113
expectation maximization	p113

注：#(不确定含义)，*(重点)

2.3 The Gaussian Distribution

p79, We strongly encourage the reader to become proficient in manipulating Gaussian distributions using the techniques presented here as this will prove invaluable in understanding the more complex models presented in later chapters.

作者一再强调高斯分布的重要性，并指出搞懂高斯分布对后续内容的理解有不可估量的价值，所以作者用9个小节仔细讲解了高斯分布的方方面面。

p78, 多维高斯分布的密度函数（公式2.43）的归一化证明在公式2.57中

p78, The Gaussian distribution arises in many different contexts and can be motivated from a variety of different perspectives. Such as “maximizes the entropy” or “the sum of multiple random variables”.

高斯分布在很多不同的环境中都曾出现，而且从各种不同的角度看，它都有明确的含义。

p80 – p82, 作者先高斯分布的几何形状作为切入点来讲解高斯分布，即等密度椭圆曲线。

p82 – p83, 多维高斯分布均值和协方差矩阵的数学推导。

p83 - p84, 高斯分布的局限性和解决办法（*）

#, 其中有关Markov random field模型的说明尚未了解其含义。

2.2.1 Conditional Gaussian distributions

本小节主要讲解了条件高斯分布均值和协方差矩阵的数学推导过程。

p85, An important property of the multivariate Gaussian distributions is that if two sets of variables are jointly Gaussian, then the conditional distribution of one set conditioned on the other is again Gaussian. Similarly, the marginal distribution of either set is also Gaussian.

多维高斯分布的一个重要性质：如果两组变量的联合分布是高斯分布，则它们的条件分布和边际分布也都是高斯分布。（注：反之不行）

p87, The mean of the conditional distribution, given by (2.81), is a linear function of xb and that the covariance , given by (2.82), is independent of xa. This represents an example of a linear-Gaussian model.

条件高斯分布的均值是xb的线性函数，而且协方差独立于xa，这是一个线性高斯模型的例子。

#：协方差似乎也独立于xb，在p90页最后一段的中提到了这个性质，进一步验证需查看资料 (p91, Roweis and Ghahramani, 1999)

2.3.2 Marginal Gaussian distributions

本小节主要讲解了边际高斯分布均值和协方差矩阵的数学推导过程，结构类似于上一节，最后总结了条件分布和边际分布的相关公式。

勘误：公式 (2.87) 的最后一行（第四行）中不应有 –1 这个求逆符号。

2.3.3 Bayes’ theorem for Gaussian variables

本小节主要讲解了由p(x)和p(y|x)推导p(x|y) 的过程。

p92, We can interpret the distribution p(x) as a prior distribution over x. If the variable y is observed, then the conditional distribution p(x|y) represents the corresponding posterior distribution over x.

将条件分布、边际分布同贝叶斯理论联系起来。

2.3.4 Maximum likelihood for the Gaussian

本小节讲解了如何用最大似然法求解高斯分布的参数。

p94, The maximization of (2.118) with respect to Σ is rather more involved. The simplest approach ……

求协方差矩阵的方法相对复杂，详情请看 Magnus and Neudecker (1999).

2.3.5 Sequential estimation

本小节主要讲解了顺序模型中参数估计的方法，先介绍了上节中均值的最大似然解在顺序估计中的应用，然后介绍了更一般化的方法，不过只讨论了单变量的情况，多变量的需查阅 (Blum, 1965).

p96, 需要理解并掌握约束条件的作用和含义。

2.3.6 Bayesian inference for the Gaussian

本小节使用贝叶斯推理方式进行参数估计，即加入了先验分布。先讨论了一维高斯分布中的参数估计情况，最后推广到多维。

p97 – p99, 方差已知，求均值

p99 – p101, 均值已知，求方差

p101, 均值，方差都未知

2.3.7 Student’s t-distribution

*：p103, From (2.158), we see that Student’s t-distribution is obtained by adding up an infinite number of Gaussian distributions having the same mean but different precisions. This can be interpreted as an infinite mixture of Gaussians.

t-分布是通过有限个均值相同，方差不同的高斯分布相加得来的。可以认为其是一个有限的混合高斯模型。

p103, t-分布与高斯分布的区别，及各自的优缺点：t-分布的鲁棒性更好。

p103, t-分布的最大似然解可以用EM算法。

p104, 孤立点（或噪声点）产生的两个原因。

*：p104, Robustness is also an important property for regression problems. Unsurprisingly, the least squares approach to regression does not exhibit roubustness, because it corresponds to maximum likelihood under a (conditional) Gaussion distribution.

鲁棒性对回归问题很重要，最小二乘法的的鲁棒性不高是由于其相当于（条件）高斯分布下的最大似然解。（参见章节1.1和1.2.5）

#: p105, mode[x] = μ