机器学习十大经典算法：深入浅出聊贝叶斯决策（贝叶斯公式，最小风险贝叶斯，最小错误贝叶斯）

前言常听人说，在学习一个东西时，如果能够深入浅出的讲给别人听，才算是真的懂了。最近正好在学模式识别，于是就用它来练笔了。贝叶斯决策（Bayes Decision）是十大经典机器学习算法之一，其实我们日常做判断时常常用到它，只是我们没有发现。现假设你面前有10张卷子，老师告诉你有5份是说没有复习实际也没有复习的学渣的，有5份是说没有复习却复习的很好的学霸的，你从里面任意抽了一份出来，是

意疏

13088人浏览 · 2020-10-01 15:33:42

意疏 · 2020-10-01 15:33:42 发布

前言

常听人说，在学习一个东西时，如果能够深入浅出的讲给别人听，才算是真的懂了。最近正好在学模式识别，于是就用它来练笔了。贝叶斯决策（Bayes Decision） 是十大经典机器学习算法之一，是统计机器学习的典型，其实我们日常做判断时常常用到它，只是我们没有发现。

现假设你面前有10张卷子，老师告诉你有5份是说没有复习实际也没有复习的学渣的，有5份是说没有复习却复习的很好的学霸的，你从里面任意抽了一份出来，得分90+，不看名字，你多半会说这是学霸的卷子，或许你没有发现，在你做判断的一瞬间已经无意中使用了贝叶斯。

excuse me
贝叶斯决策实战：机器学习十大经典算法：朴素贝叶斯图像分割实战——Nemo鱼图像分割

EM与贝叶斯：机器学习十大经典算法：另辟蹊径EM算法+高斯混合模型实战

防爬虫标识：CSDN意疏原创笔记 https://blog.csdn.net/sinat_35907936/article/details/108894542

贝叶斯逆概公式

贝叶斯公式或者贝叶斯逆概公式，是贝老爷子在18世纪中叶发表的，刚发表时它并不是太受待见，但是现在它已经是一个人尽皆知的式子。该公式旨在通过一个已知的结果，并结合一些经验性或统计性的信息来倒推出最可能产生该结果的原因，即所谓执果索因。我们获得的观测数据常常是多个来源的混合，而确定数据的真正来源——分类便是我们要做的工作。

对应到上述引例，已知结果是该同学考了90+，经验性信息是学霸考90+的可能性比学渣考90+分的可能性高很多，统计性信息是10份卷子，两组各占一半。原本10份卷子中任意抽取一份，属于两组的概率应该是相同的，但是在得知结果后，经验信息告诉我们这份卷子属于学霸组的可能性更大。具体有多大的可能，就需要贝叶斯公式登场了。

贝叶斯

防爬虫标识：CSDN意疏原创笔记 https://blog.csdn.net/sinat_35907936/article/details/108894542

贝叶斯公式由一个先验概率，一个全概率和两个条件概率构成，如式（1）。现试着结合公式来符号化和量化引例中的过程。

在这里插入图片描述

设w1表示学渣组（类别1），w2表示学霸组（类别2），x=0表示卷面成绩不超过90事件，x=1表示卷面成绩90+事件，U表示试卷总份数。

再设P(wi) 表示两组（类）的份数占比，那么P(w1)=0.5, P(w2)=0.5，即各占一半，此概率被称作先验概率。

再假设通过以往所有的考试信息，得出w1组得分90+的概率为0.2，w2组得分90+的概率为0.8，即P(x=1|w1)=0.2, P(x=1|w2)=0.8，此概率常被称作类的条件概率。它反映两者最本质的区别——这里代表考90+的概率，是分类时最重要的依据。

用P(x=1) 表示w1、w2两组得分90+的总概率，是一个全概率。
最终求的是90+的卷子来自w1、w2两组（类别）的概率，即P(w1|x=1)、P(w2|x=1)，它也是一个条件概率，常被称作后验概率。

防爬虫标识：CSDN意疏原创笔记 https://blog.csdn.net/sinat_35907936/article/details/108894542

容易发现，后验概率其实是在衡量各组分对结果的贡献，概率大，表示所有此结果中该组分（类）占比大。在引例中不知道那张试卷分数时，卷子可能属于10个人中的任意一人，即两个组分（类别）在概率上都贡献了5个人，各占0.5。而在知道卷面成绩90+后，贡献就悄然发生了变化。

w1组（类）概率上贡献了U x P(w1) x P(x=1|w1)=10x0.5x0.2=1人；

w2组（类）概率上贡献了U x P(w2) x P(x=1|w2)=10x0.5x0.8=4人；

概率上考90+的人为两组（类）的和，即U x P(w1) x P(x=1|w1) + U x P(w2) x P(x=1|w2) = 5人；

那么w1组（类）概率上贡献的比例，即w1的后验概率P(w1|x=1)=1/5=0.2。w2组（类）概率上贡献的比例，即w2的后验概率P(w2|x)=4/5=0.8。由于学霸组（类）w2的后验概率要大很多，所以引例中判定90+卷子多半是学霸的是合理的。

同样的，如果抽到的卷子成绩不超过90，带入贝叶斯也可以算出一个后验概率，P(w1|x=0) = 0.8，P(w2|x=0) = 0.2，此时它属于学渣组的可能性要大得多。

贝叶斯决策

贝叶斯决策就是在贝叶斯公式计算出后验概率的基础上，进一步做归属的决定——分类，如上述引例中，决策就是决定90+或者不超过90分的卷子归于w1组（类）或者归于w2组（类）。其主要包括两种决策方式，即最小错误贝叶斯决策，和最小风险贝叶斯决策。前者是在比较理想或者各类类别地位均等的情况下的决策，而后者则要考虑决策本身带来的代价和各类别地位的不均等。

防爬虫标识：CSDN意疏原创笔记 https://blog.csdn.net/sinat_35907936/article/details/108894542

最小错误贝叶斯决策

选择后验概率最大的分组或者类，则判断正确的可能性就是最大的，进而犯错的概率就是最小的，即最小错误贝叶斯决策 = 最大后验贝叶斯决策。由于概率非负，如果每一次决策错误率都最小，那么总的错误率也是最小的。

上述引例中，在x=1时，P(w1|x=1)=0.2，P(w2|x=1)=0.8，由于P(w1|x=1)<P(w2|x=1)，所以将90+的卷子归属到w2，犯错的概率会最小。犯错的概率就是90+的卷子可能属于w1的概率，即P(w1|x=1)=0.2 = 1 - P(w2|x=1)。同理，在x=0时，将90或者90-的卷子归属到w1，犯错的概率会最小。犯错的概率是P(w2|x=0)=0.2=1 - P(w1|x=0)。那么，如果进行10次这样的决策，平均错误率就是（5* 0.2+5* 0.2)/10 = 0.2。

细看上述引例，会觉得它更像是一个简单的数学问题，而不是一个模式识别问题。因为在实际模式识别中，首先，待分类数据x往往不会只有[0,1]两种取值，而会是一系列取值，如[60,62,80,95,90…]；然后对应的类的条件概率往往不是几个孤立的冲激，而是一个连续的概率密度函数（PDF），如图1所示。

类的条件概率与类的条件概率密度函数

图1.类的条件概率与类的条件概率密度函数

注：不知道会不会有朋友与我有相同的疑问，为什么数据本身是离散的，得到的却是概率密度函数，明明可以统计每个x出现的概率而得到离散的分布律，还要费老大劲去用最大似然估计出连续的概率密度函数。个人理解是，为了更好估计总体的分布，我们设计出来模型是要用在样本之外的地方的，样本不能包括全部数据，所以根据样本，用最大似然估计出的平滑连续的PDF会比直接统计样本的离散的分布律更符合总体的分布。

防爬虫标识：CSDN意疏原创笔记 https://blog.csdn.net/sinat_35907936/article/details/108894542

如果类的条件概率是连续的密度函数，那犯错的概率就不会是几种离散样本（如引例中x=1，x=0）决策错误概率的期望——求和，而是连续样本决策错误概率的期望——积分。

从式（1）我们可以看出，只需比较分子，便可判断出后验概率的大小，故绘出其分布如图2所示，它是类的概率密度函数乘以一个常数（先验概率，不随采样而变，是一个常数值）的结果。

显然，图中t为决策点，在x<t时，对产生数据x的贡献w1大于w2，故最小错误贝叶斯决策将x归属为w1，在x>t时，对产生数据x的贡献w2大于w1，故最小错误贝叶斯决策将x归属为w2。

两类错误率

图2.两类错误率

最小错误贝叶斯决策的结果就是，落在区域R1中的x都被归属到w1中了，包括其中混合的w2成分，落在区域R2中的x都被归属到w2中了，包括其中混合的w1成分。

所以对于落在区域R1中的每一个x，被判错的概率都是1-P(w1|x)=P(w2|x)，则w1的平均错误率就是P(w2|x)在x<t上的期望，它是图中斜纹区域的面积，如式（2）所示。
在这里插入图片描述
同理，w2的平均错误率就是P(w1|x)在x>t上的期望，它是图中方格区域的面积

最小风险贝叶斯决策

选择决策风险最小的分组或者类，当不同的决策所带来的的代价不相同时，我们会为每个决策添加不同的权重。举个栗子。如果一个人处于癌症早期，而模型判定他是正常的，那此类决策可能带来生命的代价，因此需要给此类决策高权重。而如果一个人是正常的，模型判定他为癌症早期，那他最多多花点检查费和担惊受怕几天，代价相对于生命而言可能微乎其微，因此需要给此类决策低权重。显然，判定正确没有代价，权重为0。

还是用上述引例深入分析，假设把一张学渣的（w1）卷子错判成学霸的（w2），会对双方造成10点暴击伤害，反之只有1点暴击伤害，如果判定正确，大家则相安无事。

那么我们就为学渣（w1）的卷子判定成学霸（w2）的决策加10点权值，然后为学霸（w2）的卷子判定成学渣（w1）的决策加1点权值，判断正确的权值为零，那我们可以得到如下决策表。

在这里插入图片描述

假设同样是抽到了一张90+的卷子，即x=1。由上面分析我们可以知道，这张卷子有0.2的可能源于w1，有0.8的可能源于w2，状态是w1与w2的混合体。对于最小错误贝叶斯决策，将该卷子判定为学霸的（w2）是最佳决策。现在如果依旧判定为w2，那么其风险为R2 = 10* 0.2 + 0* 0.8 = 2，而判定为w1，风险则为R1 = 0* 0.2 + 0.8*1 = 0.8。对于最小风险贝叶斯决策，判定为w1是最佳决策。剧情出现了180度大转弯，可能这就是牛逼人物能力挽狂澜的原因——权重大。