机器学习周志华--没有免费的午餐定理

没有免费的午餐定理(No Free Lunch Theorem),这个定理说明若学习算法LaL_a 在某些问题上比学习算法LbL_b 要好，那么必然存在另一些问题，在这些问题中LbL_b 比LaL_a 表现更好。这里说的表现好就是前面所说的泛化能力更强。然后出现了下面这个公式Eote(La|X,f)=∑h∑x∈χ−XP(x)I(h(x)≠f(x))P(h|X,La)E_{ote

蓝域小兵

17631人浏览 · 2018-01-17 23:44:02

蓝域小兵 · 2018-01-17 23:44:02 发布

没有免费的午餐定理(No Free Lunch Theorem),这个定理说明

若学习算法 $L_a$ 在某些问题上比学习算法 $L_b$ 要好，
那么必然存在另一些问题，
在这些问题中 $L_b$ 比 $L_a$ 表现更好。

这里说的表现好就是前面所说的泛化能力更强。然后出现了下面这个公式

$E_{ote}(L_a|X,f) = \sum_{h}\sum_{x\in\chi-X}P(x)\mathbb{I}(h(x)\neq f(x))P(h|X,L_a)$

令人生畏的长公式，不过我们来依次解读它。

留坑，周末更
好了，周六了，今天终于看懂了这个定理的证明，下面我们一字一句地来解读书中的证明:
首先，定义好符号
$\chi$ :样本空间，什么是样本空间呢?就是你的样本的属性张成的空间，书的前文有介绍
还是以他书中的西瓜来举例吧:
西瓜的属性和每个属性的取值是
色泽= 青绿||乌黑||浅白      x= 0 || 1 || 2
根蒂= 蜷缩||稍蜷||硬挺      y= 0 || 1 || 2
敲声= 浊响||沉闷||清脆      z= 0 || 1 || 2
你把色泽、根蒂、敲声想想成x，y，z轴。取值的范围都是0,1,2。怎么样，是不是像一个正方体的三维空间，当然属性可能有多种，那就上升到多维空间去了，不好想像了。

$H$ :假设空间，什么是假设空间呢?
什么是假设呢，前面说也叫学得模型，这里我们不搞那些概念。请看这篇博主的文章http://blog.csdn.net/VictoriaW/article/details/77686168，看完应该就能理解假设空间和版本空间。(此处9月1日更新,这里的假设应该指的就是满足是好瓜的条件，样本空间是有明确的取值，而假设空间取值多一个*，表示取任意值都行，反正经过学习，可以得到一个假设，用来判断西瓜的好坏…。)

$L_a$ :学习算法，学习算法有其偏好性，对于相同的训练数据，不同的学习算法可以产生不同的假设，学得不同的模型，因此才会有那个学习算法对于具体问题更好的问题，这里这个没有免费的午餐定理要证明的就是:若对于某些问题算法 $L_a$ 学得的模型更好，那么必然存在另一些问题，这里算法 $L_b$ 学得的模型更好.这里的好坏在下文中使用算法对于所有样本的总误差表示

$P(h|X,L_a)$ : 算法 $L_a$ 基于训练数据 $X$ 产生假设 $h$ 的概率
这里我说一下自己的理解，既然是 $L_a$ 基于 $X$ 产生假设 $h$ 的概率，那么就说明假设不止一个(你说这不是废话吗？上面都说有假设空间了，假设当然不止一个)，这里要注意的是这里的假设是一个映射，是 $y = h (x)$ ，是基于数据 $X$ 产生的对于学习目标(判断好瓜)的预测。因数据 $X$ 不一样，所以可能产生不一样的假设 $h$ ,既然假设假设有可能不一样，那么对每一种假设都有其对应的概率即 $P(h|X,L_a)$ .而且所有假设 $h$ 加起来的概率为1，这个不难理解，概率总和为1

$f$ :代表希望学得的真实目标函数，要注意这个函数也不是唯一的，而是存在一个函数空间，在这个空间中按某个概率分布，下文证明中采用的是均匀分布。

好，上面那个公式到了

$E_{ote}(L_a|X,f) = \sum_{h}\sum_{x\in\chi-X}P(x)\mathbb{I}(h(x)\neq f(x))P(h|X,L_a)$

首先看这个 $E$ ,这个 $E$ 是期望，expectation的意思，这个下标 $_{ote}$ ,是off-training error，即训练集外误差(忘了是在哪篇博客上看到的了，错了我不负责嘻嘻)。

$E_{ote}(L_a|X,f)$ : 算法 $L_a$ 学得的假设在训练集外的所有样本上的误差的期望

$P (x)$ : 对于这个，我的理解是样本空间中的每个样本的取得概率不同，什么意思呢？拿西瓜来说，(色泽=浅白，根蒂=硬挺，敲声=清脆)的西瓜可能比(色泽=浅白，根蒂=稍蜷，敲声=沉闷)的西瓜更多，取到的概率更大。所以有 $P (x)$ 这个概率。

$\mathbb{I}(h(x)\neq f(x))$ :看前面的符号表把这个叫做指示函数，这个很好理解，就像if语句括号里的表达式一样，为真就=1,为假就=0。

$P(h|X,L_a)$ : 前面说过了，再复习一下，算法 $L_a$ 基于训练集 $X$ 产生假设 $h$ 的概率。

其实这里最开始最令我困惑的是什么呢？是两个求和符号，因为这里求和符号感觉不规范啊！有木有，不过后来觉得理解了意思就大概行了.
第一个求和符号:
$\sum_h$ : 这里的这个对假设的求和其实我也不是很理解，我的理解主要是不知道这个对假设求和的空间到底是：同一个算法对于不同训练集产生不同的假设，每个假设有不同的概率，还是算法对于同一个训练集会产生不同的假设，每个假设有不同的概率。不过这个不重要，群里有人说前三章看看就好，具体结合后面的算法来理解就行了，先往后面看着吧。(此处9月1日更新，这里是因为学习算法对于训练数据 ${\chi}$ 是可能产生多个假设的。且对不同的假设有不同的产生概率，所以有 $P(h|X,L_a)$ 这个表达式吧应该。)
第二个求和符号:
$\sum_{x\in{\chi-X}}$ ：对于样本空间中每一个训练集外的数据都进行右边的运算。

好了，公式的每一部分都说清楚了，来整体理解一下，这个公式就是说:
对于算法 $L_a$ 产生的每一个不同的假设 $h$ ,进行训练外样本的测试，然后测试不成功(因为求的是误差)指示函数就为1，并且两个概率相乘,最后所有的结果加起来，就是该算法在训练集外产生的误差。

然后下面考虑二分类问题，先要说明，对于我们想要求得的真实目标函数 $f$ 可能也不止一个，这个好理解，因为满足版本空间中的假设的函数都可以是真实目标函数，然后这些不同的 $f$ 有着相同的概率(均匀分布),函数空间为 $\left \{ 0,1 \right\}$ ,那么有多少个这种函数呢?我们来看对于同一个样本的这个预测值，对于样本空间 $\chi$ 中的某个样本 $x$ ，如果 $f_1(x)=0$ ， $f_2(x) = 1$ , 那么这就是两个不同的真实目标函数，所以对于某个样本可以区分出两个真实目标函数，一共有 $\left | \chi \right|$ 个样本，所以一共有 $2^{\left | \chi \right |}$ 个真实目标函数，这些真实目标函数是等可能分布的(均匀分布),所以对于某个假设 $h (x)$ 如果 $h (x) = 0$ 那么就有 $\frac{1}{2}$ 的可能与真实目标函数相等。
所以下面来看这个公式推导

$\sum_f E_{ote}\left ( L_a|X,f\right) $
$\sum_f\sum_h\sum_{x\in\chi-X}P(x)\mathbb{I}(h(x)\neq f(x))P(h|X,L_a)$
$=\sum_{x\in\chi-X}P(x)\sum_hP(h|X,L_a)\sum_f\mathbb{I}(h(x)\neq f(x))$ ①
$=\sum_{x\in\chi-X}P(x)\sum_hP(h|X,L_a)\frac{1}{2}2^{\left | \chi \right |}$ ②
$=\frac{1}{2}2^{\left | \chi \right |}\sum_{x\in\chi-X}P(x)\sum_hP(h|X,L_a)$ ③
$=2^{\left | \chi \right |-1}\sum_{x\in\chi-X}P(x)\cdot 1$ ④

第一步是怎么推导出来的呢？这里涉及到一个求和运算
假设
$a_i\in \left\{ a_1,a_2,...,a_m \right\}$
$b_j\in \left\{ b_1,b_2,...,b_n \right\}$
$c_k\in \left\{ c_1,c_2,...,c_o \right\}$

那么
$\sum_i^m\sum_j^n\sum_k^oa_ib_jc_k$
$=\sum_i^ma_i\sum_j^nb_j\sum_k^oc_k$
这个，你想
$a_1+a_2+...+a_m)(b_1+b_2+...+b_n)(c_1+c_2+...+c_o)$
是不是等于
${a_1}{b_1}{c_1}+{a_2}{b_1}{c_1}+...{a_m}{b_1}{c_1}+...+{a_m}{b_n}{c_o}$
看懂了上面那个你再看第一步也就看懂了

第二步
主要是
$\sum_f\mathbb{I}(h(x)\neq f(x)) =\frac{1}{2}2^{\left | \chi \right |}$
这个，因为一共有 $2^{\left | \chi \right |}$ 个 $f$ ，且均匀分布，所以 $f (x) = 1$ 和 $f (x) = 0$ 的 $f$ 个数相等，对于每一个 $h\left( x \right)$ 来说,不管 $h (x) = 0$ 还是 $1$ ,都有一半 $f (x)$ 与之相等，即 $\frac{1}{2}2^{\left | \chi \right |}$
所以就得出第二步

第三步到第四步就更好理解了
概率求和为1,就是这么简单

经过这么一通推导后，发现得出期望的表达式中关于没有具体算法的，所以是算法无关的!
如果错误，望指出共交流，共学习！

点击阅读全文

CSDN学习社区

CSDN联合极客时间，共同打造面向开发者的精品内容学习社区，助力成长！

更多推荐

嵌入式作业（七）：基于Ardunio的STM32串口通信

嵌入式作业（七）0作业要求1Ardunio 完成STM32的串口通信（1）安装Ardunio IDE（2）stm32串口通信2关于 stduino IDE0作业要求安装 Ardunio IDE 和相关软件支持库，在Ardunio 完成STM32板子的串口通信程序：（1）持续向串口输出“Hello world！”；（2）当接收到“stop!”时，停止输出。网上有一个国人版的MCU集成开发平台， st

CSDN学习社区

JDBC详解

JDBC文章目录JDBC什么是JDBC?JDBC驱动程序:Java使用JDBC访问数据库的步骤:设置classpath:Oracle连接字符串的书写格式:简单的例子:常用数据库的驱动程序及JDBC URL:Oracle数据库:SQL Server数据库MySQL数据库Access数据库PreparedStatement接口:JNDI-数据源（Data Source）与连接池（Connection

CSDN学习社区

“模式识别与机器学习”学习笔记no2.再谈感知机

接**上篇：上篇主要进行了PLA，Pocket算法的理论过程分析和在给定数据集上利用pocket算法对数据集进行分类学习，得到错分数量最少的分类面。上篇中pocket算法的过程已经进行了编程和测试，框架已经建立了起来，这一篇主要上篇中没有提到或涉及不深的几个问题。1.数据集的构造。上篇是直接使用了题目给的向量，这次来根据正态分布来产生数据集。np.random.normal函数可以根据均值和方差生