机器学习之决策树、随机森林

一、决策树决策树是常见的机器学习中监督学习的方法，可以用来分类和回归。对于数据集，沿着决策树的分支，根据属性值判断属于决策树的哪一枝，最终到达叶节点，得到结果。一棵典型的决策树如下，图1. 决策树一棵决策树包括以下部分：（1）树根：包含全部数据集（2）树枝：划分标准（3）中间节点：按照一定标准划分的子集（4）叶子：最终的结果（包含的子集）1.1 决策树分类决策树分类中，最终的叶子为最终划分的分类结

团团圆圆y

2968人浏览 · 2022-05-15 18:39:06

团团圆圆y · 2022-05-15 18:39:06 发布

一、决策树

决策树是常见的机器学习中监督学习的方法，可以用来分类和回归。对于数据集，沿着决策树的分支，根据属性值判断属于决策树的哪一枝，最终到达叶节点，得到结果。一棵典型的决策树如下，

图1. 决策树

一棵决策树包括以下部分：

（1）树根：包含全部数据集

（2）树枝：划分标准

（3）中间节点：按照一定标准划分的子集

（4）叶子：最终的结果（包含的子集）

1.1 决策树分类

决策树分类中，最终的叶子为最终划分的分类结果，如根据当天的温度、湿度、风力、大气污染程度等，判断最终是天气好、一般还是差。决策树分支的标准是信息熵的增益最大，信息熵的定义如下：

$Ent(D) = -\sum_{k=1}^{y} p_{k}log(p_{k})$ （1）

其中， $p_{k}$ 为集合 $D$ 中第 $k$ 类样本所占的比例， $Ent(D)$ 表示划分前根据数据标签的原始数据集的信息熵，信息熵越大，表示结构越活越；信息熵越小，结构越稳定。假设某一离散属性值 $X$ 包含 $V$ 个离散取值，那么根据属性 $X$ ，可以将 $D$ 划分为 $V$ 个不同的子集，每一个子集都可以计算 $Ent(D^{v}), \ v=1,2,\cdots,V$ .

那么根据属性 $X$ 进行划分（分枝）的信息增益（信息熵的下降量）为：

$Gain(D, X)= Ent(D)-\sum_{v}^{V} \frac{D^{v}}{D} Ent(D^{v})$ (2)

挑选使得信息增益最大的属性 $X_{max}$ ，对决策树进一步分枝。该背后原理如下，根据决策树，使得整棵树的信息熵最低，得到的决策树不确定性最小，最稳定。

参见https://zhuanlan.zhihu.com/p/89607509

1.2 决策树回归

决策树用于回归时，其分枝的标准为最小均方误差。根据数据集的第 $j$ 个特征，设置阈值为 $s$ ，划分为 $c_{1}$ 和 $c_{2}$ 两个区域，如下：

$\mathop{\min}\limits_{j,s} \{ \mathop{\min}\limits_{c_{1}} \sum_{x_{i} \in R_{1 }(j,s) } (y_{i}-c_{1})^2 + \mathop{\min}\limits_{c_{2}} \sum_{x_{i} \in R_{2} (j,s)} (y_{i}-c_{2})^2 \}$ (3)

使得一个子集内均方误差最小的 $c_{k} =\hat{y}_{k}= \frac{1}{N_{k}} \sum_{x_{i}\in R_{k}} y_{i}$ ，那么上式为，

$\mathop{\min}\limits_{j,s} \{ \sum_{x_{i} \in R_{1} (j,s) } (y_{i}-\hat{y}_{1})^2 + \sum_{x_{i} \in R_{2 }(j,s)} (y_{i}-\hat{y}_{2})^2 \}$ (4)

参见，https://blog.csdn.net/Albert201605/article/details/81865261

二、随机森林

随机森林，顾名思义，是很多树的集合。随机森林的基本单位是决策树，其示意图如下，

图2. 随机森林

随机森林的步骤如下：

（1）从数据集中有放回的随机抽样；

（2）随机抽取特征构建决策树；

（3）将决策树的结果取平均，得到最终结果。

参加，机器学习常用算法——随机森林 - 云+社区 - 腾讯云

三、代码实现

随机森林

利用第三方库，随机森林分类和回归如下，

分类，

from sklearn.ensemble import RandomForestClassifier

# x. y为训练数据
model_RF_class = RandomForestClassifier(n_estimators = 100, random_state = 0)
model_RF_class.fit(x, y)
# x_test, y_test为测试数据
y_test = model_RF_class.predict(x_test)

回归，

# x. y为训练数据
from sklearn.ensemble import RandomForestRegressor

# 随机森林回归器
model_RF_regr = RandomForestRegressor(n_estimators = 100, random_state = 0)
# 拟合数据集
model_RF_regr = model_RF_regr.fit(X, y)
# x_test, y_test为测试数据
y_test = model_RF_regr.predict(x_test)

参见，机器学习算法系列（十八）-随机森林算法（Random Forest Algorithm）_sai_simon的博客-CSDN博客_随机森林算法j

具体参数的含义，见官网，sklearn.ensemble.RandomForestClassifier — scikit-learn 1.1.0 documentation

决策树

from sklearn.tree import DecisionTreeClassifier

# x. y为训练数据
model_DT_class = DecisionTreeClassifier()
model_DT_class.fit(x, y)
# x_test, y_test为测试数据
y_test = model_DT_class.predict(x_test)

from sklearn.tree import DecisionTreeRegressor

# x. y为训练数据
model_DT_regr = DecisionTreeRegressor(max_depth=1)
model_DT_regr.fit(x, y)
# x_test, y_test为测试数据
y_test = model_DT_regr.predict(x_test)

参见，python代码实现决策树分类_林下月光的博客-CSDN博客_python决策树分类

参见，决策树—回归_禺垣的博客-CSDN博客_决策树回归

亚马逊云科技技术品牌专区

更多推荐

STM32节点移植lorawan协议连接腾讯云物联网开发平台（IoT Explorer）

STM32移植lorawan协议连接腾讯云物联网开发平台（IoT Explorer）前言前言在移植协议之前，先给大家科普一下Lora 和 lorawan 的区别。LoRa 是LPWAN通信技术中的一种，是美国Semtech公司采用和推广的一种基于扩频技术的超远距离无线传输方案。这一方案改变了以往关于传输距离与功耗的折衷考虑方式为用户提供一种简单的能实现远距离、长电池寿命、大容量的系统，进而扩...

亚马逊云科技技术品牌专区

物联网主机E6000引领工业自动化的新篇章

亚马逊云科技技术品牌专区

搞 IoT 物联网，你居然要懂这么多种协议...

物联网协议是指在物联网环境中用于设备间通信和数据传输的协议。根据不同的作用，物联网协议可分为传输协议、通信协议和行业协议。传输协议：一般负责子网内设备间的组网及通信。例如 Wi-Fi、Ethernet、NFC、 Zigbee、Bluetooth、GPRS、3G/4G/5G等。这些协议能够确保在网络上传输的数据的安全性和可靠性。通讯协议：主要是运行在传统互联网TCP/IP协议之上的设备通讯协议，负责