正态随机过程和多变量正态分布


高斯分布

高斯分布又称正态分布,被广泛用于连续变量分布的模型。对于单变量x,高斯分布的形式

模式识别和机器学习--- <wbr>2.3高斯分布

这里模式识别和机器学习--- <wbr>2.3高斯分布表示期望,模式识别和机器学习--- <wbr>2.3高斯分布表示方差。对于一个D维向量X,其多元高斯分布形式为:
模式识别和机器学习--- <wbr>2.3高斯分布 这里模式识别和机器学习--- <wbr>2.3高斯分布是一个D维均值向量,模式识别和机器学习--- <wbr>2.3高斯分布模式识别和机器学习--- <wbr>2.3高斯分布的协方差矩阵,模式识别和机器学习--- <wbr>2.3高斯分布表示模式识别和机器学习--- <wbr>2.3高斯分布的行列式。

高斯分布出现在很多应用中并可以从很多角度来阐释。比如,我们已经见过的实单变量使熵最大的分布就是高斯分布。该性质同样适用于多元高斯分布中。

当考虑多个随机变量和的分布是另一个应用高斯分布的情境。中心极限定理central limit theorem,Laplace 提出)告诉我们:在一定的简单条件下,一系列随机变量的和(其自身当然也是随机变量)的分布随着项的增加其越接近高斯分布。可以通过N个服从[0 1]间分布的变量模式识别和机器学习--- <wbr>2.3高斯分布的均值
模式识别和机器学习--- <wbr>2.3高斯分布 的分布来阐述。当N很大时,该分布趋向于高斯分布。事实上,随着N的增大它会很快收敛于高斯分布。该结果的一个推论是:当N趋于∞时,二元分布即二元变量的N次观察中出现m次的分布,趋于高斯分布。

高斯分布具有很多重要的性质,我们将会具体讨论其中的几个。因此,相对于以前的章节,这节将会牵涉更多的技术性,而且需要熟悉各种矩阵特性。但是,我们强烈建议读者用此处介绍的技术熟练掌握高斯分布,因为这对以后章节出现的更为复杂的模型的理解将是非常重要的。

我们首先考虑高斯分布的几何形式。X上的高斯分布的功能函数是出现在指数上的二次形式


模式识别和机器学习--- <wbr>2.3高斯分布

模式识别和机器学习--- <wbr>2.3高斯分布称为从模式识别和机器学习--- <wbr>2.3高斯分布模式识别和机器学习--- <wbr>2.3高斯分布的马氏距离(Mahalanobis distance),当模式识别和机器学习--- <wbr>2.3高斯分布是单位矩阵时变为欧氏距离(Euclidean distance)。因为该二次项为常数,所以在X-空间表面高斯分布也是常量。
首先,我们注意到模式识别和机器学习--- <wbr>2.3高斯分布是一个对称矩阵,不失一般性,任何非对称部分将从指数中消失。现在来考虑协方差矩阵的特征向量等式模式识别和机器学习--- <wbr>2.3高斯分布

这里模式识别和机器学习--- <wbr>2.3高斯分布。因为模式识别和机器学习--- <wbr>2.3高斯分布是实对称矩阵,所以它的特征向量都是实向量,并且可以构成正交向量集,即模式识别和机器学习--- <wbr>2.3高斯分布

这里模式识别和机器学习--- <wbr>2.3高斯分布是单位矩阵的第i行的第j个元素,满足

模式识别和机器学习--- <wbr>2.3高斯分布
协方差矩阵 模式识别和机器学习--- <wbr>2.3高斯分布可以用特征向量展开成如下形式:
模式识别和机器学习--- <wbr>2.3高斯分布
类似,协方差举证的逆 模式识别和机器学习--- <wbr>2.3高斯分布可表示为

模式识别和机器学习--- <wbr>2.3高斯分布

将(2.49)代入(2.44),则二次式变为模式识别和机器学习--- <wbr>2.3高斯分布

这里我们定义

模式识别和机器学习--- <wbr>2.3高斯分布

我们可以将模式识别和机器学习--- <wbr>2.3高斯分布理解为由正交向量模式识别和机器学习--- <wbr>2.3高斯分布定义的新的坐标系,该坐标系是对初始模式识别和机器学习--- <wbr>2.3高斯分布坐标的平移和旋转。用向量模式识别和机器学习--- <wbr>2.3高斯分布的形式,我们有模式识别和机器学习--- <wbr>2.3高斯分布

这里模式识别和机器学习--- <wbr>2.3高斯分布是一个行向量为模式识别和机器学习--- <wbr>2.3高斯分布的矩阵。从(2.46)了解到模式识别和机器学习--- <wbr>2.3高斯分布是正交矩阵,比如它满足模式识别和机器学习--- <wbr>2.3高斯分布也满足模式识别和机器学习--- <wbr>2.3高斯分布模式识别和机器学习--- <wbr>2.3高斯分布是单位矩阵)。

因为(2.51)是一个常量,所以二次式,因而高斯密度,在表面也是常量。如果所有的特征值 模式识别和机器学习--- <wbr>2.3高斯分布都是正的,那么这些平面表现为椭圆,而且 模式识别和机器学习--- <wbr>2.3高斯分布是其中心,轴朝向 模式识别和机器学习--- <wbr>2.3高斯分布,而且在轴向的尺度系数为 模式识别和机器学习--- <wbr>2.3高斯分布

为了高斯分布意义明确,必须使协方差举证的所有特征值都严格为正,否则,该分布不能正确规范。矩阵的特征值严格为正又称为矩阵正定。在第12章,我们将遇到1个或多个特征值为0的高斯分布,在这种情况下,该分布是异常的或者是定义于低维子空间。如果所有特征值非负,那么,协方差矩阵称为半正定矩阵。
现在考虑由模式识别和机器学习--- <wbr>2.3高斯分布定义的新坐标系下的高斯分布形式。从X到Y坐标系,我们有一雅克比矩阵模式识别和机器学习--- <wbr>2.3高斯分布(Jacobian matrix),它的元素定义为
模式识别和机器学习--- <wbr>2.3高斯分布

模式识别和机器学习--- <wbr>2.3高斯分布模式识别和机器学习--- <wbr>2.3高斯分布的元素。用模式识别和机器学习--- <wbr>2.3高斯分布地正交性质,可见雅克比矩阵(Jacobian matrix)行列式的平方是
模式识别和机器学习--- <wbr>2.3高斯分布

因此模式识别和机器学习--- <wbr>2.3高斯分布。同时,协方差矩阵的行列式模式识别和机器学习--- <wbr>2.3高斯分布可以记为它的特征值的乘积

模式识别和机器学习--- <wbr>2.3高斯分布

因此,在模式识别和机器学习--- <wbr>2.3高斯分布坐标系下,高斯分布的形式为

模式识别和机器学习--- <wbr>2.3高斯分布

即是D个独立单变量高斯分布的乘积。因此,特征向量定义新的旋转和平移坐标系时考虑到了将联合概率分布分解成独立分布的乘积。在模式识别和机器学习--- <wbr>2.3高斯分布坐标系下,分布的积分为
模式识别和机器学习--- <wbr>2.3高斯分布

这里我们使用了(2.48)的结果来标准化单变量高斯分布。该式证实了多变量高斯(2.43)确实是正态的。

现在考察高斯分布的矩,从而理解参数 模式识别和机器学习--- <wbr>2.3高斯分布模式识别和机器学习--- <wbr>2.3高斯分布。高斯分布下X地期望是
模式识别和机器学习--- <wbr>2.3高斯分布

这里我们使用了变量替换模式识别和机器学习--- <wbr>2.3高斯分布。注意到指数是因子Z的偶函数,并且积分区域是(- ∞,+ ∞),因此,模式识别和机器学习--- <wbr>2.3高斯分布中的模式识别和机器学习--- <wbr>2.3高斯分布将会对称抵消。因此,
模式识别和机器学习--- <wbr>2.3高斯分布

所以,我们把模式识别和机器学习--- <wbr>2.3高斯分布 认为是高斯分布的均值。

现在考虑高斯二阶矩。在单变量情况下,我们认为模式识别和机器学习--- <wbr>2.3高斯分布是高斯二阶矩。而对于多变量高斯,存在模式识别和机器学习--- <wbr>2.3高斯分布个二阶矩由模式识别和机器学习--- <wbr>2.3高斯分布表示,可以组合形成矩阵模式识别和机器学习--- <wbr>2.3高斯分布。该矩阵可记为

模式识别和机器学习--- <wbr>2.3高斯分布

这里我们仍然采用了变量替换模式识别和机器学习--- <wbr>2.3高斯分布。注意到交叉项模式识别和机器学习--- <wbr>2.3高斯分布模式识别和机器学习--- <wbr>2.3高斯分布会再次被对称抵消。模式识别和机器学习--- <wbr>2.3高斯分布项是常量(是一个单元(unity),因为高斯分布的标准化),可提到积分号外边。考虑模式识别和机器学习--- <wbr>2.3高斯分布项,我们可以再次使用(2.45)给出的协方差矩阵的特征向量展开,并结合特征向量集的完备性,记模式识别和机器学习--- <wbr>2.3高斯分布

这里模式识别和机器学习--- <wbr>2.3高斯分布,得到

模式识别和机器学习--- <wbr>2.3高斯分布

这里我们使用了特征向量等式(2.45),并结合了中间行的右边积分除非i=j将会消失,在最后一行,我们使用了(1.50)、(2.55)和(2.48)的结果。因此,我们有模式识别和机器学习--- <wbr>2.3高斯分布

对于单个随机变量,在计算二阶矩前减去均值是为了定义方差。类似地,在多变量情形下,减去均值会使得计算如下定义的协方差非常方便,
模式识别和机器学习--- <wbr>2.3高斯分布
对于特定的高斯分布,我们可以使用 模式识别和机器学习--- <wbr>2.3高斯分布并结合(2.62)的结果,给出
模式识别和机器学习--- <wbr>2.3高斯分布
因为系数矩阵 模式识别和机器学习--- <wbr>2.3高斯分布控制了高斯分布X的协方差,所以它被称为协方差矩阵。

尽管,高斯分布(2.43)被广泛用作密度模型,但它存在一些明显的缺陷。考虑分布中的自由参数的个数,一个普通的对称协方差矩阵将会有D(D+1)/2个自由参数,加上均值向量中的D个自由参数,总共有D(D+3)/2个参数。参数个数随着D的二次方增长,当D非常大时,操作和逆置大矩阵将会受到限制。一种解决该问题的办法是使用限定形式的协方差矩阵。如果协方差矩阵时对角阵,即
模式识别和机器学习--- <wbr>2.3高斯分布 ,那么在密度模型中只有2D个自由参数。恒定密度的响应边缘将是坐标对齐的椭圆。我们可以更进一步限定协方差矩阵是和单位矩阵成比例即 模式识别和机器学习--- <wbr>2.3高斯分布,由称为各向同性协方差,则在模型中只有D+1个独立参数,并且恒定密度曲线是圆。不幸的是,尽管这种方法限制了分布中的自由度而且使得协方差矩阵的操作更加快速,但是它也极大地限制了概率密度的形式并且限制了分布表示数据间的相关性的能力。

对高斯分布一个更进一步的限制是:它是一个本质单峰(intrisically unimodal)。因此不能对多峰分布给出一个好的近似。因此,高斯分布既能很灵活并对很对参数敏感,也能有很多限制使其仅仅足够表示的分布区域。后面我们将介绍潜在变量,又称隐含变量,或未观测变量,能够同时解决这些问题。特别地,一个丰富的通过介绍潜在离散变量倒出混合高斯而获得的多元分布将会在2.3.9节介绍。类似地,在第12章介绍的潜在连续变量模型其自由参数的个数将能够被数据空间的维数D独立控制并且该模型能够很好地获得数据集的主要相关性关系。事实上,这两种方法可以联合使用并且进行进一步扩展到丰富的能够适用于更加广泛的实际应用领域中的层次模型。比如,广泛应用于图象概率模型的高斯模型的马尔科夫随机场(Markov random field),就是在像素强度的联合空间的高斯分布,该空间通过采用合理的反映像素空间组织关系的结构而很容易处理。类似地,应用在跟踪等时序数据模型的动态线性系统(linear dynamical system),同样是一个在可能含有大量观测和潜在观测的数据上的联合高斯分布,由于利用了分布中的结构同样很容易处理。图象概率模型就是对这种复杂分布的形式和性质的一个很好阐释,它将组成第8章。


原文出处: http://tonyshen.blog.51cto.com/4569905/ 800273

条件高斯分布

多元高斯分布的一个重要性质是如果两个变量集是联合高斯分布,那么其中一个基于另一个变量集上的条件分布仍然是高斯分布。边缘高斯分布也有类似结论。

考虑第一种情形的条件高斯分布。假设X是一个满足高斯分布模式识别和机器学习--- <wbr>2.3.1条件高斯分布的D维向量,我们把X分作两个子集Xa和Xb。不失一般性,我们记Xa为X的前M个元素,Xb为剩下D-M个元素,即
模式识别和机器学习--- <wbr>2.3.1条件高斯分布

我们还定义期望向量 模式识别和机器学习--- <wbr>2.3.1条件高斯分布的分块
模式识别和机器学习--- <wbr>2.3.1条件高斯分布
及协方差矩阵 模式识别和机器学习--- <wbr>2.3.1条件高斯分布的分块

模式识别和机器学习--- <wbr>2.3.1条件高斯分布

注意到协方差的对称性 模式识别和机器学习--- <wbr>2.3.1条件高斯分布隐含着 模式识别和机器学习--- <wbr>2.3.1条件高斯分布模式识别和机器学习--- <wbr>2.3.1条件高斯分布也是对称的,以及 模式识别和机器学习--- <wbr>2.3.1条件高斯分布

在许多情形下,使用协方差矩阵的逆会更加方便
模式识别和机器学习--- <wbr>2.3.1条件高斯分布

它被称为精度矩阵(precision matrix,图模型中的称谓)。事实上,我们将看到高斯分布的一些性质大部分都会很自然地用协方差的形式表示,然而当精度矩阵(precision matrix,图模型中的称谓)表示时另外一些性质的形式将会变得更加简单。因此,我们也引入了精度矩阵(precision matrix,图模型中的称谓)的分块形式模式识别和机器学习--- <wbr>2.3.1条件高斯分布

与向量X的分块(2.65)一致。因为对称矩阵的逆仍然是对称的,所以模式识别和机器学习--- <wbr>2.3.1条件高斯分布模式识别和机器学习--- <wbr>2.3.1条件高斯分布都是对称矩阵,以及

模式识别和机器学习--- <wbr>2.3.1条件高斯分布。在此需要强调的是, 模式识别和机器学习--- <wbr>2.3.1条件高斯分布不是简单的给 模式识别和机器学习--- <wbr>2.3.1条件高斯分布取逆。事实上,我们将会考察分块矩阵的逆和其分块的逆之间的关系。
首先,我们来寻求条件概率 模式识别和机器学习--- <wbr>2.3.1条件高斯分布的表示。根据概率的乘法性质,得到该条件概率可以简单地通过用X b的观测值来修正联合概率 模式识别和机器学习--- <wbr>2.3.1条件高斯分布并归一化其结果表示从而得到合理的X a上的合理概率分布。我们不是具体地实行归一化,而是采用高效地方法,即考虑(2.44)给出的高斯分布中指数的二次形然后在计算的最后恢复归一化系数。使用划分(2.65),(2.66)和(2.69)得到


模式识别和机器学习--- <wbr>2.3.1条件高斯分布
可见这是一个关于Xa的函数,而且是二次形式,因此,对应的条件分布 模式识别和机器学习--- <wbr>2.3.1条件高斯分布将是高斯分布。因为,这种分布(高斯分布)完全由期望和方差表征,所以,我们的目标是检查(2.70)的期望和方差的等价表示。
它是一个与高斯分布相联系的极普通的例子,有时称为“完全平方”,其中给了我们高斯分布中指数项中的二次形式,以及我们需要确定对应的期望和方差。该问题可以直接通过标记普通高斯分布 模式识别和机器学习--- <wbr>2.3.1条件高斯分布的指数可以记为
模式识别和机器学习--- <wbr>2.3.1条件高斯分布
这里的“const”表示独立于X的项,而且我们利用了 模式识别和机器学习--- <wbr>2.3.1条件高斯分布的对称性。因此,如果将普通的二项形式并且将它表示为(2.71)右边的形式,那么我们可以立即将X的二次项的系数等同于协方差矩阵的逆 模式识别和机器学习--- <wbr>2.3.1条件高斯分布而且X的线性项系数等同于 模式识别和机器学习--- <wbr>2.3.1条件高斯分布,由此我们可以获得 模式识别和机器学习--- <wbr>2.3.1条件高斯分布
现在将该步骤应用于条件高斯分布 模式识别和机器学习--- <wbr>2.3.1条件高斯分布它的指数项的二次形式由(2.70)给出。我们分别用
模式识别和机器学习--- <wbr>2.3.1条件高斯分布模式识别和机器学习--- <wbr>2.3.1条件高斯分布表示该分布的期望和方差。考虑该函数依赖于X a,对于X b则视为常数。如果我们将X a所有二次项提出,则得到
模式识别和机器学习--- <wbr>2.3.1条件高斯分布
据此可以立即总结出 模式识别和机器学习--- <wbr>2.3.1条件高斯分布的协方差矩阵(精度矩阵的逆)为
模式识别和机器学习--- <wbr>2.3.1条件高斯分布

现在考虑(2.70)中Xa所有的线性项模式识别和机器学习--- <wbr>2.3.1条件高斯分布

这里我们利用了模式识别和机器学习--- <wbr>2.3.1条件高斯分布。从我们讨论普通形式(2.71)中可知,表达式中Xa的系数一定等于模式识别和机器学习--- <wbr>2.3.1条件高斯分布,因此,

模式识别和机器学习--- <wbr>2.3.1条件高斯分布

这里我们利用了(2.73)。

(2.73)和(2.75)的结果是由初始联合分布 模式识别和机器学习--- <wbr>2.3.1条件高斯分布的精度矩阵中的分块项表示的。我们同样可以用协方差矩阵的对应分块项来表示这些结果。为了实现这个,我们利用了以下分块矩阵的逆的恒等式
模式识别和机器学习--- <wbr>2.3.1条件高斯分布

这里我们定义

模式识别和机器学习--- <wbr>2.3.1条件高斯分布

模式识别和机器学习--- <wbr>2.3.1条件高斯分布 的大小称作(2.76)左边矩阵相对于子矩阵D的舒尔补(Schur complement)。采用定义
模式识别和机器学习--- <wbr>2.3.1条件高斯分布

并利用(2.76),可得到

模式识别和机器学习--- <wbr>2.3.1条件高斯分布
通过这些我们可以获得条件分布 模式识别和机器学习--- <wbr>2.3.1条件高斯分布的期望和方差的等式如下
模式识别和机器学习--- <wbr>2.3.1条件高斯分布
比较(2.73)和(2.82),可以当采用精度矩阵的分块项来表示条件概率 模式识别和机器学习--- <wbr>2.3.1条件高斯分布相对于采用协方差矩阵的分块项更加简单。注意,条件概率 模式识别和机器学习--- <wbr>2.3.1条件高斯分布的期望(由(2.81给出)),是X b的线性函数,而协方差(由(2.82给出))独立于X a。这代表了一种线性高斯模型的例子。

2.3.2边缘高斯分布

我们已经见到如果联合分布 模式识别和机器学习--- <wbr>2.3.1条件高斯分布是高斯分布,那么条件高斯分布 模式识别和机器学习--- <wbr>2.3.1条件高斯分布也是高斯分布。现在我们回到如下的边缘分布的讨论,
模式识别和机器学习--- <wbr>2.3.1条件高斯分布
我们将看到,它同样是高斯分布。同样,我们的策略关注与联合分布的二次形式指数项从而确定边缘分布 模式识别和机器学习--- <wbr>2.3.1条件高斯分布的期望和方差。

在(2.70)中,联合分布的二次形式可以用精度矩阵的分块形式表示。因为我们的目标是对Xb积分,这可以很容易地通过首先考虑包含Xb的项然后配方来简化积分达到。提出哪些仅包含Xb的项,得到模式识别和机器学习--- <wbr>2.3.1条件高斯分布

这里我们定义了

模式识别和机器学习--- <wbr>2.3.1条件高斯分布

可见依赖于Xb的项能够转化到和(2.84)中右端项的第一项对应的高斯分布的标准二次形式,加上一个并不依赖于Xb(但是依赖于Xa)的项。因此,使用二次形式的指数形式,我们可以发现(2.83)在Xb上的积分是如下形式

模式识别和机器学习--- <wbr>2.3.1条件高斯分布
该积分是在非归一化的高斯分布上的积分,所以结果将会和其系数有关。通过(2.43)给出的归一化高斯形式我们可以知道系数和均值独立,并且只依赖于协方差矩阵的行列式。因此,对X b配方,我们可以积出X b而分布(2.84)左边的依赖于X a剩余项是(2.84)右边的最后一项其中 m由(2.85)给出。结合该项以及(2.70)的依赖于X a的剩余项,得到
模式识别和机器学习--- <wbr>2.3.1条件高斯分布
这里“const”表示数值独立于X a。再次,通过同(2.71)比较,可以发现边缘分布 模式识别和机器学习--- <wbr>2.3.1条件高斯分布的协方差矩阵是
模式识别和机器学习--- <wbr>2.3.1条件高斯分布

类似地,期望是

模式识别和机器学习--- <wbr>2.3.1条件高斯分布

这里利用了(2.88)。在(2.88)中协方差是由(2.69)给出的精度矩阵的分块项表示。就像我们之前所做的那样,可以用(2.67)给出的协方差矩阵的对应分块项来重新表示它们。这些分块矩阵的关系是模式识别和机器学习--- <wbr>2.3.1条件高斯分布

利用(2.76),有

模式识别和机器学习--- <wbr>2.3.1条件高斯分布

因此我们获得了满意的直观结果,即边缘分布模式识别和机器学习--- <wbr>2.3.1条件高斯分布的期望和方差为模式识别和机器学习--- <wbr>2.3.1条件高斯分布

可以看到对于边缘分布,使用协方差矩阵的分块矩阵项表示均值和方差时最简单的,然而,在条件分布中使用精度矩阵表示均值和协方差更简便。


原始出处 http://tonyshen.blog.51cto.com/4569905/ 801260

多元正态分布 二维高斯型函数

http://comic.sjtu.edu.cn/thucs/GD_jsj_016b/text/chapter02/2_3_1t2.htm


1.多元正态分布的概率密度函数
  多元是指样本以多个变量来描述,或具有多个属性,在此一般用d维特征向量表示,X=[x1,…,xd]T。d维特征向量的正态分布用下式表示
  (2-32)
  其中μ是X的均值向量,也是d维,
  μ=E{X}=[μ1,μ2,…,μd]T (2-33)
  Σ是d×d维协方差矩阵,而Σ-1是Σ的逆矩阵,|Σ|是Σ的行列式
  Σ=E{(X-μ)(X-μ)T} (2-34)
  Σ是非负矩阵,在此我们只考虑正定阵,即|Σ|>0。
  多元正态分布与单态量正态分布在形式上尽管不同,但有很多相似之处,实际上单变量正态分布只是维数为1的多元分布。当d=1时,Σ只是一个1×1的矩阵,也就是只有1个元素的矩阵,退化成一个数,|Σ|1/2也就是标准差σ,Σ-1也就是σ-2,而(X-μ)T(X-μ)也变成(X-μ)2,因此(2-32)也就演变成(2-29)

但是多元正态分布要比单变量时复杂得多,具有许多重要的特性,下面只就有关的特性加以简单叙述。
  多元正态分布的概率密度函数中的元就是我们前面说得特征向量的分量数,也就是维数。为了方便我们着重讨论二维向量,是一个随机向量,其中每一个分量都是随机变量,服从正态分布。但是一个二维随机向量不仅要求考虑每个分量单独的分布,还要考虑两个随机变量之间的关系。下图的例子中的两个二元正态分布的各个分量是相同的,即它们的期望(μ1和μ2)方差σ1和σ2都相同,但这两个特征向量在空间的分布却不相同。从下图:

对右图来说,x1和x2有很大的相关性,而对左图来说,随机变量x1与x2之间的相关性很小。这可以从两者的区别看出来。对于右图可以看出一个随机变量的x1分量较小时,另一分量x2也必然较小。而当随机变量的x1较大时,则其相应的x2分量也较大。换句话说,如果x1分量小于其均值μ1,则其相应的分量x2也很可能小于它的均值μ2。因此当x1-μ1<0时,也常伴有x2-μ2<0 ,这说明它们之间有联系,或称相关性,用这两项相乘来看就有倾向化。对整个随机变量样本集取期望值,就会使有非零值。反过来看左图中的随机变量分布,就没有这种规律,一个随机变量x1分量小于其均值 ,并不对其相应分量x2与之间的关系有什么限制。在此时一个随机变量(x1-μ1)与(x2-μ2)的乘积的符号就可正可负,则就可能接近于零,或等于零。因此我们可以用来衡量这种相关性,称为协方差。则后者的协方差是个正数,而后者很可能为零,协方差越大,说明两个变量的相关度越高。为了将各个分量的方差、协方差都用一个统一的方式表示,则可使用式(2-34),用符号Σ表示。你如果将(2-42)表示一个二维向量,你就会发现该矩阵的非对角元素正表示了两个分量之间的相关性,而主对角元素则是各分量本身的方差。
  
  Σ称为协方差矩阵。
  那么以下是上两图特征向量分布的协方差矩阵:
  和,请问哪个是左图,哪个是右图?(前一个是左图)
  如果是一个三维向量,它的协方差矩阵是几乘几的矩阵?每个元素又对应什么含义?
  (是个3×3矩阵, )
  还需要指出的是,协方差矩阵并不只对正态分布有用,它是多元随机变量中一个重要的数学统计表示方法,它描述了一个随机变量样本集中各个分量之间的相关性。
协方差矩阵还有一些很重要的属性,是经常用到的。其中一个特性是:它是一个对称矩阵,如果它的第i行第j列元素表示成正态随机过程和多变量正态分布,则应有。这就是说与第j行第i列的元素是相同的,这就是对称性。另一个特性是:由于它的主对角元素都是各分量的方差,因此一般情况下都是大于零的值。因此协方差矩是正定的,这一点也是十分有用的。

一般式:


术语中文含义备注
central limit theorem中心极限理论p78
Mahalanobis distance马氏距离#, p80
orthonormal正交p80
eigenvalue特征值p81
positive definite正定的p81
singular非平凡的p81
positive semidefinite半正定的p81
Jacobian matrix雅克比矩阵p81
moment原点矩p82
covariance协方差p83
diagonal对角p84
isotropic covariance#, p84
unimodal单峰p84
latent(hidden,unobserved) varialbes#, p84
hierarchical models#, p84
Markov random field#, p84
linear dynamical system#, p84
precision matrixp85
Schur complementp87
sufficient statistic充分统计量p93
error signalp95
Robbins-Monro algorithmp95, 顺序模型中的参数估计算法
regressionp95
stationary point驻点p96
point estimatep97
gamma distributionp100
inverse gamma distributionp101
normal-gamma (Gaussian-gamma)p101
Student’s t-distributionp103
degrees of freedomp103
Cauchy distributionp103
squared Mahalanobis distancep105
Cartesian coordinatesp106
von Mises distribution (circular normal)p108
concentration parameterp108
zeroth-order Bessel function
of the first kind
p108
responsibilitiesp112
closed-form analytical solutionp113
expectation maximizationp113

注:#(不确定含义),*(重点)

2.3 The Gaussian Distribution

p79, We strongly encourage the reader to become proficient in manipulating Gaussian distributions using the techniques presented here as this will prove invaluable in understanding the more complex models presented in later chapters.

作者一再强调高斯分布的重要性,并指出搞懂高斯分布对后续内容的理解有不可估量的价值,所以作者用9个小节仔细讲解了高斯分布的方方面面。

p78, 多维高斯分布的密度函数(公式2.43)的归一化证明在公式2.57中

p78, The Gaussian distribution arises in many different contexts and can be motivated from a variety of different perspectives. Such as “maximizes the entropy” or “the sum of multiple random variables”.

高斯分布在很多不同的环境中都曾出现,而且从各种不同的角度看,它都有明确的含义。

p80 – p82, 作者先高斯分布的几何形状作为切入点来讲解高斯分布,即等密度椭圆曲线。

p82 – p83, 多维高斯分布均值和协方差矩阵的数学推导。

p83 - p84, 高斯分布的局限性和解决办法(*)

#, 其中有关Markov random field模型的说明尚未了解其含义。

2.2.1 Conditional Gaussian distributions

本小节主要讲解了条件高斯分布均值和协方差矩阵的数学推导过程。

p85, An important property of the multivariate Gaussian distributions is that if two sets of variables are jointly Gaussian, then the conditional distribution of one set conditioned on the other is again Gaussian. Similarly, the marginal distribution of either set is also Gaussian.

多维高斯分布的一个重要性质:如果两组变量的联合分布是高斯分布,则它们的条件分布和边际分布也都是高斯分布。(注:反之不行

p87, The mean of the conditional distribution, given by (2.81), is a linear function of xb and that the covariance , given by (2.82), is independent of xa. This represents an example of a linear-Gaussian model.

条件高斯分布的均值是xb的线性函数,而且协方差独立于xa,这是一个线性高斯模型的例子。

#:协方差似乎也独立于xb,在p90页最后一段的中提到了这个性质,进一步验证需查看资料 (p91, Roweis and Ghahramani, 1999)

2.3.2 Marginal Gaussian distributions

本小节主要讲解了边际高斯分布均值和协方差矩阵的数学推导过程,结构类似于上一节,最后总结了条件分布和边际分布的相关公式。

勘误:公式 (2.87) 的最后一行(第四行)中不应有 –1 这个求逆符号。

2.3.3 Bayes’ theorem for Gaussian variables

本小节主要讲解了由p(x)和p(y|x)推导p(x|y) 的过程。

p92, We can interpret the distribution p(x) as a prior distribution over x. If the variable y is observed, then the conditional distribution p(x|y) represents the corresponding posterior distribution over x.

将条件分布、边际分布同贝叶斯理论联系起来。

2.3.4 Maximum likelihood for the Gaussian

本小节讲解了如何用最大似然法求解高斯分布的参数。

p94, The maximization of (2.118) with respect to Σ is rather more involved. The simplest approach ……

求协方差矩阵的方法相对复杂,详情请看 Magnus and Neudecker (1999).

2.3.5 Sequential estimation

本小节主要讲解了顺序模型中参数估计的方法,先介绍了上节中均值的最大似然解在顺序估计中的应用,然后介绍了更一般化的方法,不过只讨论了单变量的情况,多变量的需查阅 (Blum, 1965).

p96, 需要理解并掌握约束条件的作用和含义。

2.3.6 Bayesian inference for the Gaussian

本小节使用贝叶斯推理方式进行参数估计,即加入了先验分布。先讨论了一维高斯分布中的参数估计情况,最后推广到多维。

p97 – p99, 方差已知,求均值

p99 – p101, 均值已知,求方差

p101, 均值,方差都未知

2.3.7 Student’s t-distribution

*:p103, From (2.158), we see that Student’s t-distribution is obtained by adding up an infinite number of Gaussian distributions having the same mean but different precisions. This can be interpreted as an infinite mixture of Gaussians.

t-分布是通过有限个均值相同,方差不同的高斯分布相加得来的。可以认为其是一个有限的混合高斯模型。

p103, t-分布与高斯分布的区别,及各自的优缺点:t-分布的鲁棒性更好。

p103, t-分布的最大似然解可以用EM算法。

p104, 孤立点(或噪声点)产生的两个原因。

*:p104, Robustness is also an important property for regression problems. Unsurprisingly, the least squares approach to regression does not exhibit roubustness, because it corresponds to maximum likelihood under a (conditional) Gaussion distribution.

鲁棒性对回归问题很重要,最小二乘法的的鲁棒性不高是由于其相当于(条件)高斯分布下的最大似然解。(参见章节1.1和1.2.5)

#: p105, mode[x] = μ

2.3.8 Periodic variables

本小节先举例说明高斯分布不适用于周期变量,再讲解如何将高斯分布周期化,最后介绍了其他的几类周期分布,并指出了周期分布的局限和改进方法。

2.3.9 Mixtures of Gaussians

大致介绍了混合高斯模型的概念、优点和解法。

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐