sklearn中train_test_split里，参数stratify含义解析

直接上代码：from sklearn.model_selection import train_test_split# 将'features'和'result'数据切分成训练集和测试集X_train, X_test, y_train, y_test = train_test_split(features, result, test_size = 0.2, random_state = 0,...

文章共479字 · 阅读需要大约2分钟

一键AI生成摘要，助你高效阅读

问答

天青色的瓷

28349人浏览 · 2019-10-27 15:28:08

天青色的瓷 · 2019-10-27 15:28:08 发布

直接上代码：

from sklearn.model_selection import train_test_split
# 将'features'和'result'数据切分成训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(features, result, test_size = 0.2, random_state = 0,
                                                    stratify = result)

上方代码中stratify的作用是：保持测试集与整个数据集里result的数据分类比例一致。

举个栗子：
整个数据集有1000行，result列的数据也是1000个，而且分两类：0和1，其中0有300个，1有700个，即数据分类的比例为3：7。

那么现在把整个数据split，因为test_size = 0.2，所以训练集分到800个数据，测试集分到200个数据。

重点来了
那么由于stratify = result，则训练集和测试集中的数据分类比例将与result一致，也是3：7，结果就是在训练集中，有240个0和560个1；测试集中有60个0和140个1。

同理，若将训练集进一步分出一个验证集：

# 将'X_train'和'y_train'进一步切分为训练集和验证集
X_train, X_val, y_train, y_val = train_test_split(X_train, y_train, test_size=0.2, random_state=0,
                                                    stratify = y_train)