模式识别（Pattern Recognition）学习笔记（二十八）-- 决策树

1.数值特征与非数值特征学习分类这么久，不知道大家有没有注意一个问题，那就是我们的输入样本数据都是基于数值计算的，因此在近邻法中才可以计算距离这一说，这种可以用数值来描述的对象特征，我们称之为数值特征，但是在我们生活中所涉及的分类问题并非都是用数值特征来描述某个研究对象的，因此与数值特征对应的就是非数值特征，比如男生和女生比较喜欢什么样的颜色等等。关于非数值特征，主要有以下几种：1）名

eternity1118_

7643人浏览 · 2016-06-16 12:19:23

eternity1118_ · 2016-06-16 12:19:23 发布

1.数值特征与非数值特征

学习分类这么久，不知道大家有没有注意一个问题，那就是我们的输入样本数据都是基于数值计算的，因此在近邻法中才可以计算距离这一说，这种可以用数值来描述的对象特征，我们称之为数值特征，但是在我们生活中所涉及的分类问题并非都是用数值特征来描述某个研究对象的，因此与数值特征对应的就是非数值特征，比如男生和女生比较喜欢什么样的颜色等等。

关于非数值特征，主要有以下几种：

1）名词特征：像性别、职业等，这类特征不能比较大小，也不能比较相似性，只能比较相同或不相同；

2）序数特征：像序号、等级等，这类特征虽然本身也是数值，但是却不能彼此计算欧氏距离，而且他们之间可能存在一定顺序；

3）区间特征：像年龄、一门科目的考试成绩等，这类特征它们自身也是数值，但是会存在一个固定的区间段，它们可以比较大小，但是没有多大意义；

因此，当一个实际问题需要使用上述几种非数值特征进行描述时，在使用模式识别方法分类决策时，第一步要做的就是对非数值特征进行数值化，即编码：

1）对名词特征的编码：比如对性别的分类，就可以将男编码为0，女编码为1；这种做法是为了防止人为引入特征元素之间并不存在的相对关系，叫做正交编码，缺点是有时候会使得特征维数增加；

2）对序数特征的编码：比如对一件事故的定性，分为一般事故（一级）、较大事故（二级）、重大事故（三级）和特大事故（四级）四个等级，可以同名词特征相似的编码方式，用四个二值来表示：00，01，10，11，这种编码的缺点是可能会损失层级之间的关系信息，当然还可以根据专业人员对事件的打分来数值化，但是很明显这种做法掺杂了人为因素；

2）对区间特征的编码：比如考试成绩，可以根据需要划定一个界限（即阈值），将考试成绩分为及格和不及格，再对应成二值0和1；也可以划定多个界限将考试成绩变成序数特征；最好的处理方式是引入模糊量，可以很好地反映数据信息；

可以看到，对于上述非数值特征的这种间接处理，都不可避免的带入人为因素，而且会丢失部分数据信息，与其这样倒不如对这些非数值特征直接处理呢，那到底能不能直接使用呢？答案是肯定的，于是决策树华丽丽的来了。。

2.初识决策树

为了更好的理解什么是决策树，我们先来看一个场景。前不久，微软小冰跟主人玩了这样一个游戏，游戏是这样的：首先主人先丢出一个问题，如‘我最喜欢的明星是谁？’；然后小冰会通过不断的问你问题（至多不超过18问），她就能惊人的正确答出你的每一个问题，哈哈，不知道有没有人玩过，反正我是觉得还挺好玩的，每次都能答对。来来来，我们来还原下游戏场景：

我：我最喜欢的明星是谁？

小冰：Ta是男是女？

我：男

小冰：国内的还是国外的？

我：国内的

小冰：内地的还是港台的？

我：港台的

小冰：他有很多歌曲么？

我：是的

小冰：他开过演唱会么？

我：开过

小冰：。。。。（后面的我就省略了，反正我每次都数了下，问我十次她就给出正确答案了）

好辣，让我们回到决策树上来，其实小冰的每一次提问都是一次决策，多次提问就组成了完整的决策过程，这一决策过程可以用一个树状结构图来表示：

这样的决策过程，相信你在生活中以及各个行业都经常见到，比如医学诊断、工业上的故障诊断、证券分析等；可以说在我们的日常生活中，无时不刻不在进行着这样的决策，比如我今天要吃什么，穿什么，这一树状决策过程，大多是根据相关的专业知识或多年积累的经验常识来进行的，而对于所谓的决策树（Decision Tree）而言，他也在进行着与人类似的行为，人类根据自己做掌握的经验知识来决策，而对于决策树来说就是我们要喂给它一定数量的训练样本，然后它再从这些样本数据中“学习”出决策规则（这个规则就是它学习到的经验知识），最后利用学到的经验知识来构造出决策树。

上图中看出，决策树其实是由一系列节点组成，每一个节点代表一个特征与对应的决策规则，位于顶部的节点是根节点，此时所有的样本都在一起，经过该节点之后就被划分到各个子节点中，然后每个子节点再用新的特征来新一轮决策，直到到达最后的叶节点，在叶节点上，每一个叶节点只包含单一类的样本，因此无须再划分。所以上述过程中，决策树的构建过程其实就是选取关键代表性特征（为了简化决策，需要找到最有代表性的特征来作为根节点特征）和确定恰当的决策规则的过程，而且可以看做一个两类问题的分类。

3.深入决策树

下面，为了阐述明白决策树的构建原理，我们通过一个例子来表达，假定某推销员根据自己多年推销经验知道，消费者是否会买车，与其年龄、性别和收入关系最大。然后该推销员搜集了某一个月里面光顾4S点咨询汽车信息的消费者资料，整理成了下表：

上图这个表格就是训练样本集，目标任务就是构造一个能够准确估计出消费者是否会买车的决策树；

接下来，进行数据的清洗：将年龄分为两个阶段：小于30和30岁以上；收入分为三个档次：3000以下（低）、3000-6000（中）、6000以上（高）；清洗工作完成后，训练样本数据变成了下面这样：

针对上面的例子，这里介绍几种比较出名的构建决策树的方法：ID3方法、C4.5算法；

3.1ID3算法

ID3（Interactive Dichotomizer-3），中文名字叫做交互式二分法，注意，不要被它的名字欺骗了，虽然名字上有二分法，但是它也同样适用于每个节点下划分多个子节点的情况。该方法的原型是Hunt等人提出的概念学习系统（Concept Learning System），通过选择那些具有代表性和辨别力的特征对样本数据进行划分，直到每个叶节点上只包含单一类的数据为止。

该算法依据的基础理论是通信和信息论中的香农熵（Entropy），在信息论中，熵是接收的每条消息中包含的信息的平均量，又称作信息熵、平均自信息量，而通俗的理解就是，熵是信源不确定性的量度，一个信源越是随机其熵就越大，在信息论中我们通常用概率分布来表示一个信源的特征之一，因此慢慢的当人们面对一个不确定性事件或是随机事件时，都可以利用熵这一概念来度量事件的不确定性。

如果一个事件有n种可能的结果，每种结果对应的概率为Pi，i=1，2，...，n，那么我们对此事件的结果进行观察后得到的信息量就可以用熵来度量：

$E=-(P_{1}log_{2}P_{1}+P_{2}log_{2}P_{2}+\cdots +P_{n}log_{2}P_{n})=-\sum_{i=1}^{n}P_{i}log_{2}P_{i}$ (1)

即熵是概率分布的对数的相反数；

对于某个节点上的样本，我们将上述熵定义为熵不纯度，它反映了该节点上的特征对样本分类的不纯度（impurity），其值为零时，表示样本没有不确定性，纯度最高；值越大表明不确定性越高。

现在针对我们的例子来计算下熵不纯度：

在不考虑任何特征时，可以根据样本出现的比例来作为对概率的估计，16人中有4人买车，因此其熵不纯度为：

$E(16,4)=-(\frac{4}{16}log_{2}\frac{4}{16}+\frac{12}{16}log_{2}\frac{12}{16})=0.8113$ （2）

接下来我们的工作是要找到一个具有高辨别度和代表性的特征，可以很好的将买车和不买车区分开，即该特征划分的样本使得样本的熵不纯度可以减小，怎么做呢，没有更好的办法，只能逐一计算三个特征（年龄、性别和收入）划分后的样本的熵不纯度，然后将三个值分别与公式（2）中的结果进行比较，看哪个特征能够将公式（2）中的而结果减小的幅度最大，就采用那个特征作为最先划分的特征（根节点的特征）。

一般来说，如果某特征把N个样本划分为m组，每组Nm个样本，则不纯度减少量的额计算公式为：

$\bigtriangleup E(N)=E(N)-(P_{1}E(N_{1})+P_{2}E(N_{2})+\cdots +P_{m}E(N_{m}))$