正态随机过程和多变量正态分布
正态随机过程和多变量正态分布高斯分布高斯分布又称正态分布,被广泛用于连续变量分布的模型。对于单变量x,高斯分布的形式2.3高斯分布" name="image_operate_32041331183295048" alt="模式识别和机器学习--- 2.3高斯分布" src="http://s5.sinaimg.cn/middle/
正态随机过程和多变量正态分布
高斯分布
高斯分布又称正态分布,被广泛用于连续变量分布的模型。对于单变量x,高斯分布的形式
称为从到的马氏距离(Mahalanobis distance),当是单位矩阵时变为欧氏距离(Euclidean distance)。因为该二次项为常数,所以在X-空间表面高斯分布也是常量。 |
对右图来说,x1和x2有很大的相关性,而对左图来说,随机变量x1与x2之间的相关性很小。这可以从两者的区别看出来。对于右图可以看出一个随机变量的x1分量较小时,另一分量x2也必然较小。而当随机变量的x1较大时,则其相应的x2分量也较大。换句话说,如果x1分量小于其均值μ1,则其相应的分量x2也很可能小于它的均值μ2。因此当x1-μ1<0时,也常伴有x2-μ2<0 ,这说明它们之间有联系,或称相关性,用这两项相乘来看就有倾向化。对整个随机变量样本集取期望值,就会使有非零值。反过来看左图中的随机变量分布,就没有这种规律,一个随机变量x1分量小于其均值 ,并不对其相应分量x2与之间的关系有什么限制。在此时一个随机变量(x1-μ1)与(x2-μ2)的乘积的符号就可正可负,则就可能接近于零,或等于零。因此我们可以用来衡量这种相关性,称为协方差。则后者的协方差是个正数,而后者很可能为零,协方差越大,说明两个变量的相关度越高。为了将各个分量的方差、协方差都用一个统一的方式表示,则可使用式(2-34),用符号Σ表示。你如果将(2-42)表示一个二维向量,你就会发现该矩阵的非对角元素正表示了两个分量之间的相关性,而主对角元素则是各分量本身的方差。 Σ称为协方差矩阵。 那么以下是上两图特征向量分布的协方差矩阵: 和,请问哪个是左图,哪个是右图?(前一个是左图) 如果是一个三维向量,它的协方差矩阵是几乘几的矩阵?每个元素又对应什么含义? (是个3×3矩阵, ) 还需要指出的是,协方差矩阵并不只对正态分布有用,它是多元随机变量中一个重要的数学统计表示方法,它描述了一个随机变量样本集中各个分量之间的相关性。 协方差矩阵还有一些很重要的属性,是经常用到的。其中一个特性是:它是一个对称矩阵,如果它的第i行第j列元素表示成,则应有。这就是说与第j行第i列的元素是相同的,这就是对称性。另一个特性是:由于它的主对角元素都是各分量的方差,因此一般情况下都是大于零的值。因此协方差矩是正定的,这一点也是十分有用的。 |
一般式:
|
术语 | 中文含义 | 备注 |
central limit theorem | 中心极限理论 | p78 |
Mahalanobis distance | 马氏距离 | #, p80 |
orthonormal | 正交 | p80 |
eigenvalue | 特征值 | p81 |
positive definite | 正定的 | p81 |
singular | 非平凡的 | p81 |
positive semidefinite | 半正定的 | p81 |
Jacobian matrix | 雅克比矩阵 | p81 |
moment | 原点矩 | p82 |
covariance | 协方差 | p83 |
diagonal | 对角 | p84 |
isotropic covariance | #, p84 | |
unimodal | 单峰 | p84 |
latent(hidden,unobserved) varialbes | #, p84 | |
hierarchical models | #, p84 | |
Markov random field | #, p84 | |
linear dynamical system | #, p84 | |
precision matrix | p85 | |
Schur complement | p87 | |
sufficient statistic | 充分统计量 | p93 |
error signal | p95 | |
Robbins-Monro algorithm | p95, 顺序模型中的参数估计算法 | |
regression | p95 | |
stationary point | 驻点 | p96 |
point estimate | p97 | |
gamma distribution | p100 | |
inverse gamma distribution | p101 | |
normal-gamma (Gaussian-gamma) | p101 | |
Student’s t-distribution | p103 | |
degrees of freedom | p103 | |
Cauchy distribution | p103 | |
squared Mahalanobis distance | p105 | |
Cartesian coordinates | p106 | |
von Mises distribution (circular normal) | p108 | |
concentration parameter | p108 | |
zeroth-order Bessel function of the first kind | p108 | |
responsibilities | p112 | |
closed-form analytical solution | p113 | |
expectation maximization | p113 |
注:#(不确定含义),*(重点)
2.3 The Gaussian Distribution
p79, We strongly encourage the reader to become proficient in manipulating Gaussian distributions using the techniques presented here as this will prove invaluable in understanding the more complex models presented in later chapters.
作者一再强调高斯分布的重要性,并指出搞懂高斯分布对后续内容的理解有不可估量的价值,所以作者用9个小节仔细讲解了高斯分布的方方面面。
p78, 多维高斯分布的密度函数(公式2.43)的归一化证明在公式2.57中
p78, The Gaussian distribution arises in many different contexts and can be motivated from a variety of different perspectives. Such as “maximizes the entropy” or “the sum of multiple random variables”.
高斯分布在很多不同的环境中都曾出现,而且从各种不同的角度看,它都有明确的含义。
p80 – p82, 作者先高斯分布的几何形状作为切入点来讲解高斯分布,即等密度椭圆曲线。
p82 – p83, 多维高斯分布均值和协方差矩阵的数学推导。
p83 - p84, 高斯分布的局限性和解决办法(*)
#, 其中有关Markov random field模型的说明尚未了解其含义。
2.2.1 Conditional Gaussian distributions
本小节主要讲解了条件高斯分布均值和协方差矩阵的数学推导过程。
p85, An important property of the multivariate Gaussian distributions is that if two sets of variables are jointly Gaussian, then the conditional distribution of one set conditioned on the other is again Gaussian. Similarly, the marginal distribution of either set is also Gaussian.
多维高斯分布的一个重要性质:如果两组变量的联合分布是高斯分布,则它们的条件分布和边际分布也都是高斯分布。(注:反之不行)
p87, The mean of the conditional distribution, given by (2.81), is a linear function of xb and that the covariance , given by (2.82), is independent of xa. This represents an example of a linear-Gaussian model.
条件高斯分布的均值是xb的线性函数,而且协方差独立于xa,这是一个线性高斯模型的例子。
#:协方差似乎也独立于xb,在p90页最后一段的中提到了这个性质,进一步验证需查看资料 (p91, Roweis and Ghahramani, 1999)
2.3.2 Marginal Gaussian distributions
本小节主要讲解了边际高斯分布均值和协方差矩阵的数学推导过程,结构类似于上一节,最后总结了条件分布和边际分布的相关公式。
勘误:公式 (2.87) 的最后一行(第四行)中不应有 –1 这个求逆符号。
2.3.3 Bayes’ theorem for Gaussian variables
本小节主要讲解了由p(x)和p(y|x)推导p(x|y) 的过程。
p92, We can interpret the distribution p(x) as a prior distribution over x. If the variable y is observed, then the conditional distribution p(x|y) represents the corresponding posterior distribution over x.
将条件分布、边际分布同贝叶斯理论联系起来。
2.3.4 Maximum likelihood for the Gaussian
本小节讲解了如何用最大似然法求解高斯分布的参数。
p94, The maximization of (2.118) with respect to Σ is rather more involved. The simplest approach ……
求协方差矩阵的方法相对复杂,详情请看 Magnus and Neudecker (1999).
2.3.5 Sequential estimation
本小节主要讲解了顺序模型中参数估计的方法,先介绍了上节中均值的最大似然解在顺序估计中的应用,然后介绍了更一般化的方法,不过只讨论了单变量的情况,多变量的需查阅 (Blum, 1965).
p96, 需要理解并掌握约束条件的作用和含义。
2.3.6 Bayesian inference for the Gaussian
本小节使用贝叶斯推理方式进行参数估计,即加入了先验分布。先讨论了一维高斯分布中的参数估计情况,最后推广到多维。
p97 – p99, 方差已知,求均值
p99 – p101, 均值已知,求方差
p101, 均值,方差都未知
2.3.7 Student’s t-distribution
*:p103, From (2.158), we see that Student’s t-distribution is obtained by adding up an infinite number of Gaussian distributions having the same mean but different precisions. This can be interpreted as an infinite mixture of Gaussians.
t-分布是通过有限个均值相同,方差不同的高斯分布相加得来的。可以认为其是一个有限的混合高斯模型。
p103, t-分布与高斯分布的区别,及各自的优缺点:t-分布的鲁棒性更好。
p103, t-分布的最大似然解可以用EM算法。
p104, 孤立点(或噪声点)产生的两个原因。
*:p104, Robustness is also an important property for regression problems. Unsurprisingly, the least squares approach to regression does not exhibit roubustness, because it corresponds to maximum likelihood under a (conditional) Gaussion distribution.
鲁棒性对回归问题很重要,最小二乘法的的鲁棒性不高是由于其相当于(条件)高斯分布下的最大似然解。(参见章节1.1和1.2.5)
#: p105, mode[x] = μ
2.3.8 Periodic variables
本小节先举例说明高斯分布不适用于周期变量,再讲解如何将高斯分布周期化,最后介绍了其他的几类周期分布,并指出了周期分布的局限和改进方法。
2.3.9 Mixtures of Gaussians
大致介绍了混合高斯模型的概念、优点和解法。
更多推荐
所有评论(0)