前言


   常听人说,在学习一个东西时,如果能够深入浅出的讲给别人听,才算是真的懂了。最近正好在学模式识别,于是就用它来练笔了。贝叶斯决策(Bayes Decision) 是十大经典机器学习算法之一,是统计机器学习的典型,其实我们日常做判断时常常用到它,只是我们没有发现。

   现假设你面前有10张卷子,老师告诉你有5份是说没有复习实际也没有复习的学渣的,有5份是说没有复习却复习的很好的学霸的,你从里面任意抽了一份出来,得分90+,不看名字,你多半会说这是学霸的卷子,或许你没有发现,在你做判断的一瞬间已经无意中使用了贝叶斯。

excuse me
   贝叶斯决策实战:机器学习十大经典算法:朴素贝叶斯图像分割实战——Nemo鱼图像分割

   EM与贝叶斯:机器学习十大经典算法:另辟蹊径EM算法+高斯混合模型实战

防爬虫标识:CSDN意疏原创笔记 https://blog.csdn.net/sinat_35907936/article/details/108894542


贝叶斯逆概公式


  贝叶斯公式或者贝叶斯逆概公式,是贝老爷子在18世纪中叶发表的,刚发表时它并不是太受待见,但是现在它已经是一个人尽皆知的式子。该公式旨在通过一个已知的结果,并结合一些经验性统计性的信息来倒推出最可能产生该结果的原因,即所谓执果索因。我们获得的观测数据常常是多个来源的混合,而确定数据的真正来源——分类便是我们要做的工作。

  对应到上述引例,已知结果是该同学考了90+,经验性信息是学霸考90+的可能性比学渣考90+分的可能性高很多,统计性信息是10份卷子,两组各占一半。原本10份卷子中任意抽取一份,属于两组的概率应该是相同的,但是在得知结果后,经验信息告诉我们这份卷子属于学霸组的可能性更大。具体有多大的可能,就需要贝叶斯公式登场了。

贝叶斯

防爬虫标识:CSDN意疏原创笔记 https://blog.csdn.net/sinat_35907936/article/details/108894542

   贝叶斯公式由一个先验概率,一个全概率和两个条件概率构成,如式(1)。现试着结合公式来符号化和量化引例中的过程。

在这里插入图片描述

   设w1表示学渣组(类别1),w2表示学霸组(类别2),x=0表示卷面成绩不超过90事件,x=1表示卷面成绩90+事件,U表示试卷总份数。

   再设P(wi) 表示两组(类)的份数占比,那么P(w1)=0.5, P(w2)=0.5,即各占一半,此概率被称作先验概率

   再假设通过以往所有的考试信息,得出w1组得分90+的概率为0.2,w2组得分90+的概率为0.8,即P(x=1|w1)=0.2, P(x=1|w2)=0.8,此概率常被称作类的条件概率它反映两者最本质的区别——这里代表考90+的概率,是分类时最重要的依据

   用P(x=1) 表示w1w2两组得分90+的总概率,是一个全概率
   最终求的是90+的卷子来自w1w2两组(类别)的概率,即P(w1|x=1)、P(w2|x=1),它也是一个条件概率,常被称作后验概率

防爬虫标识:CSDN意疏原创笔记 https://blog.csdn.net/sinat_35907936/article/details/108894542

   容易发现,后验概率其实是在衡量各组分对结果的贡献,概率大,表示所有此结果中该组分(类)占比大。在引例中不知道那张试卷分数时,卷子可能属于10个人中的任意一人,即两个组分(类别)在概率上都贡献了5个人,各占0.5。而在知道卷面成绩90+后,贡献就悄然发生了变化。

   w1组(类)概率上贡献了U x P(w1) x P(x=1|w1)=10x0.5x0.2=1人

   w2组(类)概率上贡献了U x P(w2) x P(x=1|w2)=10x0.5x0.8=4人

   概率上考90+的人为两组(类)的和,即U x P(w1) x P(x=1|w1) + U x P(w2) x P(x=1|w2) = 5人

  那么w1组(类)概率上贡献的比例,即w1的后验概率P(w1|x=1)=1/5=0.2w2组(类)概率上贡献的比例,即w2的后验概率P(w2|x)=4/5=0.8。由于学霸组(类)w2的后验概率要大很多,所以引例中判定90+卷子多半是学霸的是合理的。

  同样的,如果抽到的卷子成绩不超过90,带入贝叶斯也可以算出一个后验概率,P(w1|x=0) = 0.8,P(w2|x=0) = 0.2,此时它属于学渣组的可能性要大得多。


贝叶斯决策


  贝叶斯决策就是在贝叶斯公式计算出后验概率的基础上,进一步做归属的决定——分类,如上述引例中,决策就是决定90+或者不超过90分的卷子归于w1组(类)或者归于w2组(类)。其主要包括两种决策方式,即最小错误贝叶斯决策,和最小风险贝叶斯决策。前者是在比较理想或者各类类别地位均等的情况下的决策,而后者则要考虑决策本身带来的代价和各类别地位的不均等

防爬虫标识:CSDN意疏原创笔记 https://blog.csdn.net/sinat_35907936/article/details/108894542

  • 最小错误贝叶斯决策

  选择后验概率最大的分组或者类,则判断正确的可能性就是最大的,进而犯错的概率就是最小的,即最小错误贝叶斯决策 = 最大后验贝叶斯决策。由于概率非负,如果每一次决策错误率都最小,那么总的错误率也是最小的。

  上述引例中,在x=1时,P(w1|x=1)=0.2,P(w2|x=1)=0.8,由于P(w1|x=1)<P(w2|x=1),所以将90+的卷子归属到w2,犯错的概率会最小。犯错的概率就是90+的卷子可能属于w1的概率,即P(w1|x=1)=0.2 = 1 - P(w2|x=1)。同理,在x=0时,将90或者90-的卷子归属到w1,犯错的概率会最小。犯错的概率是P(w2|x=0)=0.2=1 - P(w1|x=0)。那么,如果进行10次这样的决策,平均错误率就是(5* 0.2+5* 0.2)/10 = 0.2。

  细看上述引例,会觉得它更像是一个简单的数学问题,而不是一个模式识别问题。因为在实际模式识别中,首先,待分类数据x往往不会只有[0,1]两种取值,而会是一系列取值,如[60,62,80,95,90…];然后对应的类的条件概率往往不是几个孤立的冲激,而是一个连续的概率密度函数(PDF),如图1所示。

类的条件概率与类的条件概率密度函数

图1.类的条件概率与类的条件概率密度函数

  
  注: 不知道会不会有朋友与我有相同的疑问,为什么数据本身是离散的,得到的却是概率密度函数,明明可以统计每个x出现的概率而得到离散的分布律,还要费老大劲去用最大似然估计出连续的概率密度函数。个人理解是,为了更好估计总体的分布,我们设计出来模型是要用在样本之外的地方的,样本不能包括全部数据,所以根据样本,用最大似然估计出的平滑连续的PDF会比直接统计样本的离散的分布律更符合总体的分布。

防爬虫标识:CSDN意疏原创笔记 https://blog.csdn.net/sinat_35907936/article/details/108894542

  如果类的条件概率是连续的密度函数,那犯错的概率就不会是几种离散样本(如引例中x=1,x=0)决策错误概率的期望——求和,而是连续样本决策错误概率的期望——积分

  从式(1)我们可以看出,只需比较分子,便可判断出后验概率的大小,故绘出其分布如图2所示,它是类的概率密度函数乘以一个常数(先验概率,不随采样而变,是一个常数值)的结果。

  显然,图中t为决策点,在x<t时,对产生数据x的贡献w1大于w2,故最小错误贝叶斯决策将x归属为w1,在x>t时,对产生数据x的贡献w2大于w1,故最小错误贝叶斯决策将x归属为w2

两类错误率

图2.两类错误率

  最小错误贝叶斯决策的结果就是,落在区域R1中的x都被归属到w1中了,包括其中混合的w2成分,落在区域R2中的x都被归属到w2中了,包括其中混合的w1成分。

  所以对于落在区域R1中的每一个x,被判错的概率都是1-P(w1|x)=P(w2|x),则w1的平均错误率就是P(w2|x)在x<t上的期望,它是图中斜纹区域的面积,如式(2)所示。
在这里插入图片描述
  同理,w2的平均错误率就是P(w1|x)在x>t上的期望,它是图中方格区域的面积

  • 最小风险贝叶斯决策

  选择决策风险最小的分组或者类,当不同的决策所带来的的代价不相同时,我们会为每个决策添加不同的权重。举个栗子。如果一个人处于癌症早期,而模型判定他是正常的,那此类决策可能带来生命的代价,因此需要给此类决策高权重。而如果一个人是正常的,模型判定他为癌症早期,那他最多多花点检查费和担惊受怕几天,代价相对于生命而言可能微乎其微,因此需要给此类决策低权重。显然,判定正确没有代价,权重为0。

  还是用上述引例深入分析,假设把一张学渣的(w1)卷子错判成学霸的(w2),会对双方造成10点暴击伤害,反之只有1点暴击伤害,如果判定正确,大家则相安无事。

  那么我们就为学渣(w1)的卷子判定成学霸(w2)的决策加10点权值,然后为学霸(w2)的卷子判定成学渣(w1)的决策加1点权值,判断正确的权值为零,那我们可以得到如下决策表

在这里插入图片描述

  假设同样是抽到了一张90+的卷子,即x=1。由上面分析我们可以知道,这张卷子有0.2的可能源于w1,有0.8的可能源于w2,状态是w1与w2的混合体。对于最小错误贝叶斯决策,将该卷子判定为学霸的(w2)是最佳决策。现在如果依旧判定为w2,那么其风险为R2 = 10* 0.2 + 0* 0.8 = 2,而判定为w1,风险则为R1 = 0* 0.2 + 0.8*1 = 0.8。对于最小风险贝叶斯决策,判定为w1是最佳决策。剧情出现了180度大转弯,可能这就是牛逼人物能力挽狂澜的原因——权重大。


参考


  张学工.模式识别(第三版).M.清华大学出版社.2010.

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐