如有错误还请指正,并望海涵。。谢谢。。

       模式识别是一种基于数据的机器学习,学习的目的不仅是要对训练样本正确分类,而且能对测试样本正确分类,这种能力叫做推广能力或范化能力。

       如何评估一个学习机器的推广能力呢?

       设某一样本x,其真实所属类别标签为y,用判别函数f(x,w)来估计y,估计过程中带来的损失为L(y,f(x,w)),则在某个w下对所有训练样本的决策损失为:

                                 称作经验风险;

       但其实我们真正关心的是测试样本在某个w下的风险:

                              称作期望风险;

是所有可能出现的样本及其类别标签的联合概率分布模型。

        但是啊,这样的估计就一定保证可靠准确么?显然不行,于是《统计学习理论的本质》一书的作者Vapnik在他的书中给予了解答,他指出,有限样本下,经验风险与期望风险是有差别的,后者可能大于前者,但不管怎样,两者之间总是满足一个规律:


      上面不等式右边第二项是一个关键项,叫做置信范围,与h成正比,与样本数量成反比,这里的h很重要,它就是著名的叫做VC维的东西,反映了机器的复杂性程度。

      同时,透过这个规律,我们得到一个重要结论:在训练误差相同的情况下,机器的VC维越低,期望风险跟经验风险的差别就越小,机器的推广能力也就越好。

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐