数据挖掘项目--模型构建

l422380631

681人浏览 · 2019-03-07 09:53:49

l422380631 · 2019-03-07 09:53:49 发布

# 数据划分
from sklearn.model_selection import train_test_split
random_state = 1115
X_train, X_test, y_train, y_test = train_test_split(X_cl, y, test_size=0.3, random_state=random_state)

# 归一化
from sklearn.preprocessing import StandardScaler
ss = StandardScaler()
X_train_std = ss.fit_transform(X_train)
X_test_std = ss.transform(X_test)

from sklearn.linear_model import LogisticRegression
lr = LogisticRegression(C=0.05, penalty='l1')
lr.fit(X_train_std, y_train)

SVM

from sklearn.svm import SVC
# 线性 SVM
linear_svc = SVC(kernel='linear', probability=True)
linear_svc.fit(X_train_std, y_train)
# 多项式 SVM
poly_svc = SVC(kernel='poly', probability=True)
poly_svc.fit(X_train_std, y_train)

# 决策树

from sklearn.tree import DecisionTreeClassifier
dt = DecisionTreeClassifier(max_depth=8)
dt.fit(X_train_std, y_train)

永洪数据分析社区

永洪科技，致力于打造全球领先的数据技术厂商，具备从数据应用方案咨询、BI、AIGC智能分析、数字孪生、数据资产、数据治理、数据实施的端到端大数据价值服务能力。

更多推荐

【2025年泰迪杯数据挖掘挑战赛】B题详细解题思路+数据预处理+代码分享

初步分析整理了B题的赛题分析与解题思路，后面还会更新详细的建模论文与解题代码，明天完成！

永洪数据分析社区

2025年泰迪杯数据挖掘竞赛B题论文首发+问题一二三四代码分享

针对问题二，将处理后的数据集，进行合并为一个完整的数据集作为训练数据集，性别（Sex）和年龄（Age）为类别变量，加速度计数据作为输入数据，MET值作为输出数据，引入随机森林回归器、随机森林、支持向量机、多层感知机、GBDT进行训练模型，并利用RMSE对模型精度进行评估。原始数据存储于CSV格式文件中，其中记录了时间戳和对应的三轴加速度值（X，Y，Z轴），这些数据反映了个体在空间中各个方向上的加