x_train, x_test, y_train, y_test到底是什么？

爱吃西瓜的夏天516

26049人浏览 · 2020-07-31 10:10:33

爱吃西瓜的夏天516 · 2020-07-31 10:10:33 发布

最近在学随机森林，但是对于将数据集分成训练集和测试集的一些概念不是很懂，x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=0)
找了很久都没有一个准确的答案，很多答案对y_train和 y_test的解释非常模糊。
后来才找到一个合理的解释，原来：
1. x_train:包括所有自变量，这些变量将用于训练模型，同样，我们已经指定测试_size=0.4，这意味着来自完整数据的60%的观察值将用于训练/拟合模型，其余40%将用于测试模型。
2. y_train-这是因变量，需要此模型进行预测，其中包括针对自变量的类别标签，我们需要在训练/拟合模型时指定我们的因变量
3. x_test:这是数据中剩余的40%的自变量部分，这些自变量将不会在训练阶段使用，并将用于进行预测，以测试模型的准确性。
4. y_test-此数据具有测试数据的类别标签，这些标签将用于测试实际类别和预测类别之间的准确性。
5. random_state：控制随机状态,固定random_state后，每次构建的模型是相同的、生成的数据集是相同的、每次的拆分结果也是相同的。

华为开发者联盟HarmonyOS专区

鸿蒙生态一站式服务平台。

更多推荐

【grafana】使用教程

华为开发者联盟HarmonyOS专区

【PX4-AutoPilot教程-开发环境】使用VMware虚拟机安装Ubuntu系统并搭建PX4开发环境（ROS+mavros+jMAVSim+gazebo+QGC+QT）

学习PX4开发需要先配置好开发环境，对于新手推荐使用VMware虚拟机搭建Ubuntu系统，并下载PX4源码，配置好编译环境和工具链（ROS操作系统+mavros通信包+jMAVSim仿真+gazebo仿真+QGC地面站+QT开发平台）。教程中使用的是Ubuntu18.04系统（官方推荐使用版本），PX4固件版本为v1.13.0，飞控板为pixhawk2.4.8版本。