最近在学随机森林,但是对于将数据集分成训练集和测试集的一些概念不是很懂,x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=0)
找了很久都没有一个准确的答案,很多答案对y_train和 y_test的解释非常模糊。
后来才找到一个合理的解释,原来:
1. x_train:包括所有自变量,这些变量将用于训练模型,同样,我们已经指定测试_size=0.4,这意味着来自完整数据的60%的观察值将用于训练/拟合模型,其余40%将用于测试模型。
2. y_train-这是因变量,需要此模型进行预测,其中包括针对自变量的类别标签,我们需要在训练/拟合模型时指定我们的因变量
3. x_test:这是数据中剩余的40%的自变量部分,这些自变量将不会在训练阶段使用,并将用于进行预测,以测试模型的准确性。
4. y_test-此数据具有测试数据的类别标签,这些标签将用于测试实际类别和预测类别之间的准确性。
5. random_state:控制随机状态,固定random_state后,每次构建的模型是相同的、生成的数据集是相同的、每次的拆分结果也是相同的。

Logo

鸿蒙生态一站式服务平台。

更多推荐