【机器学习】模型评估与选择（留出法、交叉验证法、查全率、查准率、偏差、方差）

1. 过拟合过拟合是指学习模型对训练样本预测得很好，但对新样本预测很差的现象。这通常是由于学习模型能力过于强大，以至于把训练样本自身的一些特点当做了一般性质。&amp;amp;amp;emsp;&amp;amp;amp;emsp;过拟合是无法彻底避免的，只能缓解。模型选择就是要旨在避免过拟合并提高模型的预测能力。

邓坤元

18488人浏览 · 2018-12-22 16:27:48

邓坤元 · 2018-12-22 16:27:48 发布

其他机器学习系列文章见于专题：机器学习进阶之路——学习笔记整理，欢迎大家关注。

1. 过拟合

过拟合是指学习模型对训练样本预测得很好，但对新样本预测很差的现象。这通常是由于学习模型能力过于强大，以至于把训练样本自身的一些特点当做了一般性质。

过拟合是无法彻底避免的，只能缓解。模型选择就是要旨在避免过拟合并提高模型的预测能力。

2. 评估方法

通常用测试误差来近似模型的泛化误差。下面介绍几种常用的评估方法：

2.1 留出法（hold-out）

留出法直接将数据集 $D$ 划分为两个互斥的部分，其中一部分作为训练集 $S$ ，另一部分用作测试集 $T$ 。

通常训练集和测试集的比例为70%：30%。同时，训练集测试集的划分有两个注意事项：

1. 尽可能保持数据分布的一致性。避免因数据划分过程引入的额外偏差而对最终结果产生影响。在分类任务中，保留类别比例的采样方法称为“分层采样”（stratified sampling）。

2. 采用若干次随机划分避免单次使用留出法的不稳定性。

2.2 交叉验证法（cross validation）

交叉验证法先将数据集 $D$ 划分为 $k$ 个大小相似的互斥子集，每次采用 $k - 1$ 个子集的并集作为训练集，剩下的那个子集作为测试集。进行 $k$ 次训练和测试，最终返回 $k$ 个测试结果的均值。又称为“ $k$ 折交叉验证”（k-fold cross validation）。

图1：10折交叉验证示意图

为减少因样本划分带来的偏差，通常重复 $p$ 次不同的划分，最终结果是 $p$ 次 $k$ 折交叉验证结果的均值。

2.3 留一法（leave-one-out，LOO）

留一法是 $k$ 折交叉验证 $k = m$ （ $m$ 为样本数）时候的特殊情况。即每次只用一个样本作测试集。该方法计算开销较大。

2.4 自助法（bootstrapping）

自助法以自助采样为基础（有放回采样）。每次随机从 $D$ 中挑选一个样本，放入 $D^{'}$ 中，然后将样本放回 $D$ 中，重复 $m$ 次之后，得到了包含 $m$ 个样本的数据集。

样本在 $m$ 次采样中始终不被采到的概率是 $\left( 1 - \frac { 1 } { m } \right) ^ { m }$ ，取极限得到 $\lim _ { m \rightarrow \infty } \left( 1 - \frac { 1 } { m } \right) ^ { m } = \frac { 1 } { e } = 0.368$ 。即 $D$ 中约有36.8%的样本未出现在 $D^{'}$ 中。于是将 $D^{'}$ 用作训练集， $\ D ′ D \backslash D ^ { \prime }$ 用作测试集。这样，仍然使用 $m$ 个训练样本，但约有1/3未出现在训练集中的样本被用作测试集。