机器学习与模式识别——熵与信息增益

机器学习与模式识别——熵与信息增益一、熵的概念熵也叫信息熵，可以表征随机变量分布的混乱程度，分布越混乱，则熵越大，简易的解释就是：在一个随机事件中，某个事件发生的不确定度越大，熵也就越大，事件发生的概率越小，不确定度越大，熵也越大。二、自信息的计算熵代表着信息的可度量性，某事件xi所含有的信息量是该事件发生先验概率的函数，可以表示为：I(xi) = -log p(xi)其主要有两个含义：1，当事件

有情感的AI~wink

631人浏览 · 2021-04-14 21:22:43

有情感的AI~wink · 2021-04-14 21:22:43 发布

机器学习与模式识别——熵与信息增益

一、熵的概念

熵也叫信息熵，可以表征随机变量分布的混乱程度，分布越混乱，则熵越大，简易的解释就是：在一个随机事件中，某个事件发生的不确定度越大，熵也就越大，事件发生的概率越小，不确定度越大，熵也越大。

二、自信息的计算

熵代表着信息的可度量性，某事件x_i所含有的信息量是该事件发生先验概率的函数，可以表示为：

I(x _i) = -log p(x _i) 其主要有两个含义： 1，当事件发生前，代表该事件的不确定性 2，当事件发生后，代表该事件所提供信息量

底数	公式	公式
2	I(x _i) = -log ₂P(x _i)	bit 比特
e	I(x _i) = -lnP(x _i)	nat 奈特
10	I(x _i) = -lgPP(x _i)	hart 哈特

单位换算关系：
1 nat = log₂e bit
1 hart = log₂10 bit

三、条件自信息

事件x = a再事件y = b给定条件下的自信息：
I(a|b）= -logP_X|Y（a|b)
即： I(x|y) = -logP（x|y）

四、联合自信息

联合事件XY中事件x=a,y=b的自信息定义为：
I(ab）= -logP_XY（ab)
即： I(xy) = -logP（xy）

五、信息熵计算

1、设离散型随机变量X的概率分布为：

$\begin{bmatrix} X \\ p(x) \end{bmatrix}$

=

$\begin{bmatrix} X1&X2 &…&Xn\\ p1&p2&…&pn \end{bmatrix}$

$\sum_{i=1}^n$ p_i = 1
2、X的信息熵定义为“加权平均信息量”
I_i = -log P_i
H(X) = - $\sum_{i=1}^n$ p_ilogp_i

六、信息熵直观意义

变量不确定性越高，则信息熵越大，将其搞清楚所需要的信息量也越大。一个系统越是有序，信息熵越低，亦而反之，一个系统越是混乱，信息熵则越高。

七、联合熵

H(XY）= E[I(a_ib_j)] = - $\sum_{i=1}^q$ $\sum_{i=1}^s$ P(a_ib_j)logP(a_ib_j)

八、条件熵

定义：X给定条件下Y的条件概率分布的熵对X的数学期望
H(Y|X）= $\sum_{i=1}^n$ p_iH(Y|X=x_i)

推导：
H(X，Y) - H(X) = H(Y|Y)

九、熵的性质

1、链式法则：
H(XY) = H(X) + H(Y|Y)
当X与Y相互统计独立：H(XY) = H(Y) + H(X)
2、极值性：
H(P₁,P₂,…,P_q) $\leq$ log q
当且仅当P₁=P₂=…=P_q = 1/q时，信息源具有最大熵。

十、信息增益（互信息）

特征A对训练数据集D的信息增益g(D,A)，定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差，即：
g(D,A) = H(D) - H(D|A)

CSDN学习社区

CSDN联合极客时间，共同打造面向开发者的精品内容学习社区，助力成长！

更多推荐

cover

用 OpenAI Assistants 做大模型应用开发

CSDN学习社区

cover

1 小时解读鸿蒙 10 大热点问题

CSDN学习社区

cover

1 小时解读鸿蒙 10 大热点问题

CSDN学习社区

所有评论(0)

查看更多评论

有情感的AI~wink

@liushengjun168

已为社区贡献3条内容