机器学习知识点(二十七)先验概率和后验概率理解

对于统计学只是皮毛认识，在学校时根本不重视，如今机器学习几乎以统计学为基础发展起来的，头疼的紧，如今还得琢磨基础概念。1、我自己的理解：1）先验：统计历史上的经验而知当下发生的概率；2）后验：当下由因及果的概率；2、网上有个例子说的透彻：1）先验——根据若干年的统计（经验）或者气候（常识），某地方下雨的概率；2）似然——下雨（果）的时候有乌云（因/证据/

fjssharpsword

19671人浏览 · 2017-05-17 08:50:37

fjssharpsword · 2017-05-17 08:50:37 发布

对于统计学只是皮毛认识，在学校时根本不重视，如今机器学习几乎以统计学为基础发展起来的，头疼的紧，如今还得琢磨基础概念。

1、我自己的理解：

1）先验：统计历史上的经验而知当下发生的概率；

2）后验：当下由因及果的概率；

2、网上有个例子说的透彻：

1）先验——根据若干年的统计（经验）或者气候（常识），某地方下雨的概率；

2）似然——下雨（果）的时候有乌云（因/证据/观察的数据）的概率，即已经有了果，对证据发生的可能性描述；

3）后验——根据天上有乌云（原因或者证据/观察数据），下雨（结果）的概率；

后验 ~ 先验*似然：存在下雨的可能（先验），下雨之前会有乌云（似然）~ 通过现在有乌云推断下雨概率（后验）；

3、再来一例：

先验概率可理解为统计概率，后验概率可理解为条件概率。

------------------------------------------------------------------
设定背景：酒至半酣,忽阴云漠漠,骤雨将至。

情景一：
“天不会下雨的，历史上这里下雨的概率是20%”----先验概率
“但阴云漠漠时，下雨的概率是80%”----后验概率

情景二：
“飞飞别急着走啊，历史上酒桌上死人的概率只有5%“----先验概率
”可他是曹操啊，梦里都杀人“----后验概率

4、吃瓜群众的例子

用“瓜熟蒂落”这个因果例子，从概率（probability）的角度说一下，

先验概率，就是常识、经验所透露出的“因”的概率，即瓜熟的概率。应该很清楚。

后验概率，就是在知道“果”之后，去推测“因”的概率，也就是说，如果已经知道瓜蒂脱落，那么瓜熟的概率是多少。后验和先验的关系可以通过贝叶斯公式来求。也就是：

P（瓜熟 | 已知蒂落）=P（瓜熟）×P（蒂落 | 瓜熟）/ P（蒂落）

似然函数，是根据已知结果去推测固有性质的可能性（likelihood），是对固有性质的拟合程度，所以不能称为概率。在这里就是说，不要管什么瓜熟的概率，只care瓜熟与蒂落的关系。如果蒂落了，那么对瓜熟这一属性的拟合程度有多大。似然函数，一般写成L（瓜熟 | 已知蒂落），和后验概率非常像，区别在于似然函数把瓜熟看成一个肯定存在的属性，而后验概率把瓜熟看成一个随机变量。

---

再扯一扯似然函数和条件概率的关系。似然函数就是条件概率的逆反。意为：

L（瓜熟 | 已知蒂落）= C × P（蒂落 | 瓜熟），C是常数。具体来说，现在有1000个瓜熟了，落了800个，那条件概率是0.8。那我也可以说，这1000个瓜都熟的可能性是0.8C。

注意，之所以加个常数项，是因为似然函数的具体值没有意义，只有看它的相对大小或者两个似然值的比率才有意义，后面还有例子。

----------------------------------------------------------------------------------------------------

同理，如果理解上面的意义，分布就是一“串”概率。

先验分布：现在常识不但告诉我们瓜熟的概率，也说明了瓜青、瓜烂的概率

后验分布：在知道蒂落之后，瓜青、瓜熟、瓜烂的概率都是多少

似然函数：在知道蒂落的情形下，如果以瓜青为必然属性，它的可能性是多少？如果以瓜熟为必然属性，它的可能性是多少？如果以瓜烂为必然属性，它的可能性是多少？似然函数不是分布，只是对上述三种情形下各自的可能性描述。

那么我们把这三者结合起来，就可以得到：后验分布正比于先验分布 × 似然函数。先验就是设定一种情形，似然就是看这种情形下发生的可能性，两者合起来就是后验的概率。

至于似然估计：

就是不管先验和后验那一套，只看似然函数，现在蒂落了，可能有瓜青、瓜熟、瓜烂，这三种情况都有个似然值（L（瓜青）：0.6、L（瓜熟）：0.8、L（瓜烂）：0.7），我们采用最大的那个，即瓜熟，这个时候假定瓜熟为必然属性是最有可能的。