1. 定义

训练集是用于发现和预测潜在关系的一组数据。
测试集是用于评估预测关系强度和效用的一组数据。

2. 运用

测试集和训练集用于智能系统,机器学习,遗传编程和统计。

3. 二者关系

在训练分类器期间,只有训练集可用,不得使用测试集。测试集仅在测试分类器期间可用。

测试集是独立于训练数据,但是遵循与训练数据相同的概率分布的一组数据。 如果适合训练集的模型也适合测试集合,则发生最小过度拟合。

4. 使用方法

通常把已有数据集分成3部分。

  • 训练集 > 60%

  • 交叉验证集 > 20%

  • 测试集 > 20%

用训练集进行机器学习,然后使用交叉验证集(监督学习)进行调整,以提高参数,最后使用测试集,测试模型的准确性。以上样本数量分配并不是强制要求,只是经验提供。如果没有验证集,我们可以把数据分为70%训练集和30%测试集。

5. 举例

现实生活中,计算机没办法像人类一样认识事物,所以人类一直致力于这方面的研究。前辈们已经开发了许多方法,以实现计算机识别能力,比如SVM等。但是目前最火且具有最高识别度的还是深度学习。有许许多多的人投身于中,可以说我们赶上了时代的列车。

如何识别?

假如我们需要识别一辆小汽车。那么我们需要有大量的小汽车图片(训练数据),当我们有足够多的数据时,我们就可以进行机器学习了。我们告诉计算机,这些数据都是小汽车,计算机通过算法(这里使用深度学习算法)知道什么是小汽车,具备哪些特征。这时,我们就可以放入已有的其他图片(测试数据),计算机会把这些图片与经验库图片进行比对,然后告诉我们哪些是小汽车,哪些不是小汽车。

参考文章

神经网络1.训练和测试(train&test)以及相关关系解释–神经网络开篇

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐