机器学习第九课--经验风险最小化、一致收敛
这节课讲的内容是关于学习理论的。老师说,检测机器学习学得是否扎实,可以从是否熟悉这方面的知识来做出相应的检测。我之前听说过VC维,但认为这个知识点太难了,好像跟我要用到的知识没啥关系(当时是个新手,接到的任务就是用神经网络识别车牌字符,连最基本的理论知识都没有的情况下就学习所谓的神经网络,自以为学得不错,于是有些沾沾自喜;而且将自己定位为对模式识别方面挺不错的一个人),就没有在意。现在才慢慢了解到
这节课讲的内容是关于学习理论的。老师说,检测机器学习学得是否扎实,可以从是否熟悉这方面的知识来做出相应的检测。我之前听说过VC维,但认为这个知识点太难了,好像跟我要用到的知识没啥关系(当时是个新手,接到的任务就是用神经网络识别车牌字符,连最基本的理论知识都没有的情况下就学习所谓的神经网络,自以为学得不错,于是有些沾沾自喜;而且将自己定位为对模式识别方面挺不错的一个人),就没有在意。现在才慢慢了解到,之前的认识真的是不知天高地厚,现在更加深刻地了解到自己是个啥都不会的菜鸟,所以需要更加认真地打好基础。
好吧,开始课程。
偏差与方差
以第二课时学过的房屋价格(最小二乘法)估计的例子为例,我们可用一次方程、二次方程,甚至四次方程来拟合这组数据,相应的图像如下所示:
看图可以知道,左图(直线方程)表示的模型并不是一个很好的模型,因为这个模型的偏差(bias)很大,我们认为这是欠拟合;同样的,右图(四次方程)表示的模型也不是一个很好地模型,虽然曲线精确地穿过每一个训练样本,此模型的方差(viariance)很大,我们认为这是过拟合。通过折中处理,图二表示的是二次方程,我们认为此模型能够较好地拟合这组数据(当然,这组数据在绘画时候更多是依据二次曲线来画的)。实际上,机器学习关注的是通过训练集训练过后的模型对测试集样本上的分类效果,我们称之为“泛化能力”。左、右两图的泛化能力就不够好。
数学定义
对于二类分类问题,设训练集为:
其中,每对属于独立同分布变量(IID);其中y的取值为0或1。
目标函数设为:
定义训练误差为:
在学习理论中,也被称为是经验风险。我们可以看到,
表示的就是在训练集中被错分样本的概率,
依赖于训练集S,我们也可表示
为
。
与之相对比,定义生成误差为:
生成误差表示的是对于所有属于同一个独立同分布上的
被错分样本的概率,不仅仅局限于训练样本集,也就是我们提到的“泛化能力”。
那么经验风险最小化(empirical risk minimization,ERM)记为:
这就是我们之前学过的基本算法的一样的原型:通过选择一个合适使得经验风险
最小。对于ERM来说,由于上述表达式是非凸的,且是一个NP hard 问题,我们无法对它进行优化。让我们尝试另一种表达方式以更好地服务于我们的问题:
定义 hypothesis 集:
此时,ERM算法可以看成是从hypothesis 集中选取一个合适的 h ,使得经验风险
最小,即:
这节课,我们主要是想要解决当是有限集合的时候,ERM算法的解的表示,下节课再来对
为无限集合时相应的推导。为了得出相应结论,我们还需要两个引理。确实,这个铺垫可能有点长,但是我们到后来可以看到,这么做都是必要的。
引理
引理1--联合界引理:
假设分别是k个事件,可以是相互独立也可有关联,那么下式成立:
为加强理解,可以从下面的图中得出相应的理解:
其中P(A U B U C)即为图形中的总面积(覆盖部分算一份),而P(A)+P(B)+P(C)为3个圆的面积之和(覆盖部分算 两份)。望能够理解。
引理2--Hoeffding不等式:
假设为m个属于bernoulli分布
的独立同分布变量(IID),即
假设这m个变量的均值
,对于任意常数
,有以下不等式成立:
Hoeffding不等式本质说明一组独立随机变量的均值离开它的期望的可能性以指数形式衰减。我们使用来估计
,那么我们可以看到,当训练样本m很大的时候,
远离
的可能性是很小的。
经验风险最小化
有了以上基础,回到我们的问题:对于有限的hypothesis集合,我们的策略如下:A.首先我们证明:对集合
的所有h,经验误差
是对生成误差
的很好的估计。B.其次证明:由ERM方法得到
(由训练集经ERM得到的最优的hypothesis)的生成误差是有上界的。
从集合中中随意找到一个特定的
,定义属于bernoulli分布(
=
)的变量
,而训练集合大小为m,其中每个
属于独立同分布(IID)集合D中随机选择出来的样本。那么,训练误差为:
其实,训练误差即为m个变量Z的均值,那么根据Hoeffding不等式,对于任意常数,可得:
此式可以证明,对于一个特定的hi,经验误差都是对生成误差
的很好的估计。但是,我们不仅仅期望对于某一个h,更期望对于集合
中的任何一个元素,都能够成立:经验误差
都是对生成误差
的很好的估计。下面我们来证明之。
我们定义事件 =
,那么对于某一个特定的事件
,Hoeffding不等式可以写成:
。使用联合界定理可得:
用1同时减去两边的值,不等号方向改变,可得:
从上式可以看出,对所有的,至少有
的概率,经验误差
在生成误差
的
范围内。这就叫一致收敛。同样的,因为不等式包含的是绝对值,所以也可说对所有的
,至少有
的概率,生成误差
在经验误差
的
范围内,这就是生成误差额可以用经验误差所表示的上界。这也就是我们会经常在书本上看到“以1-\sigma的概率,作如下论断”的由来。
“一致收敛”的不同表达形式
我们可以看到,在上面的一致收敛表达式中,有3个参数:(训练样本数)、
(自己定的常数值,表示
与
的距离)、
(错误率:
=
)。我们可以尝试固定其中两个,改变其中一个来看看不同的表述方式。上面就是在固定
和
的情况下,求
的表达式。那么,我们就可以问:假如我固定
和
,样本
的表达式是怎样的?其实际意义是:至少需要多少训练样本,在选取一个固定常数
前提下,我可以有1-
的概率可使得
?我们可以从
=
中得到:
这个表达式让我们知道,为了做出某一个大小的概率的保证,我们需要多少训练样本。这个表达式被称为“样本复杂度”(和算法中的“时间复杂度”类似)。可看出,与集合
中元素的总数k 成log k的关系正比,同时,我们知道log k 函数实际上是增长最慢的一类函数之一。因为我们一开始的前提是:假设集合
中元素的总数k是有限的。那么,这个表达式在我们将约束条件推广到集合
中元素的总数k为无限个的时候,将会发挥更多的作用。先记着吧。
同样的,我们可以固定住和
,那么
的关系式又是怎样的呢?,也就是,
会落在
的哪个范围内?我们可以解得:
。也就是:
的生成误差的上界
在一致收敛结论成立的前提下,我们来看看到底由ERM方法生成的生成误差是多少?首先,我们定义
可知,表示整个
中使得生成误差最小的hypothesis。请注意
与
的区别(
,表示的是训练样本集中使得训练误差最小的hypothesis)。
我们可以得出:
第一个不等式和第三个不等式都是一致收敛结论的应用,第二个不等式,因为计算的是训练误差,所以任何一个h产生的训练误差都要比最小的要大。
于是我们可以得出结论,在生成误差的判断上,由ERM方法得出来的的生成误差的上界就是
的生成误差+2
。
综合理解
将这些公式综合一下,我们可以得到如下定理:
在集合为有限个(k个)的情况下,给定
和
,我们至少有1-
的概率,我们可以说:
其中,右式的第一项就是,第二项的根号表达式就是
。我们可以近似的将不等式右边的第一项看成是偏差(bias),将第二项看成是方差,该定理反映了偏差和方差之间的权衡(还记得我们刚开始讲的例子吗?)。当我们选择一个更加复杂的模型集合
之时(比如开头例子中的由一次函数假设变成二次函数假设),集合元素的个数k会增加,第一项
会减小(从一次函数变成二次函数,拟合的曲线可以更加接近训练样本点,因此
减小),第二项会因为k的增大而增大。于是,如何调节偏差和方差的平衡就是个很重要的问题。
小小结
这样子,我们成功回答了上课开始我们提出来的疑问:如何选择生成误差最小(即泛化能力)的h的问题,并且得出了几个重要的公式。但是,请注意的是,这节课讲的知识是有前提的:在集合为有限个(k个)的情况下。下节课我们来解答在无限集合的情况如何解答。
更多推荐
所有评论(0)