深度学习笔记（1）：训练集和测试集

1. 定义训练集是用于发现和预测潜在关系的一组数据。测试集是用于评估预测关系强度和效用的一组数据。 2. 运用测试集和训练集用于智能系统，机器学习，遗传编程和统计。3. 二者关系在训练分类器期间，只有训练集可用，不得使用测试集。测试集仅在测试分类器期间可用。测试集是独立于训练数据，但是遵循与训练数据相同的概率分布的一组数据。如果适合训练集的模型也适合测试集合，则发生最小过度拟合。4. 使用方法

Locutus

18028人浏览 · 2017-08-15 03:38:24

Locutus · 2017-08-15 03:38:24 发布

1. 定义

训练集是用于发现和预测潜在关系的一组数据。
测试集是用于评估预测关系强度和效用的一组数据。

2. 运用

测试集和训练集用于智能系统，机器学习，遗传编程和统计。

3. 二者关系

在训练分类器期间，只有训练集可用，不得使用测试集。测试集仅在测试分类器期间可用。

测试集是独立于训练数据，但是遵循与训练数据相同的概率分布的一组数据。如果适合训练集的模型也适合测试集合，则发生最小过度拟合。

4. 使用方法

通常把已有数据集分成3部分。

训练集 > 60％
交叉验证集 > 20％
测试集 > 20％

用训练集进行机器学习，然后使用交叉验证集（监督学习）进行调整，以提高参数，最后使用测试集，测试模型的准确性。以上样本数量分配并不是强制要求，只是经验提供。如果没有验证集，我们可以把数据分为70%训练集和30%测试集。

5. 举例

现实生活中，计算机没办法像人类一样认识事物，所以人类一直致力于这方面的研究。前辈们已经开发了许多方法，以实现计算机识别能力，比如SVM等。但是目前最火且具有最高识别度的还是深度学习。有许许多多的人投身于中，可以说我们赶上了时代的列车。

如何识别？

假如我们需要识别一辆小汽车。那么我们需要有大量的小汽车图片（训练数据），当我们有足够多的数据时，我们就可以进行机器学习了。我们告诉计算机，这些数据都是小汽车，计算机通过算法（这里使用深度学习算法）知道什么是小汽车，具备哪些特征。这时，我们就可以放入已有的其他图片（测试数据），计算机会把这些图片与经验库图片进行比对，然后告诉我们哪些是小汽车，哪些不是小汽车。