机器学习与模式识别——熵与信息增益

一、熵的概念

熵也叫信息熵,可以表征随机变量分布的混乱程度,分布越混乱,则熵越大,简易的解释就是:在一个随机事件中,某个事件发生的不确定度越大,熵也就越大,事件发生的概率越小,不确定度越大,熵也越大。

二、自信息的计算

熵代表着信息的可度量性,某事件xi所含有的信息量是该事件发生先验概率的函数,可以表示为:

I(x i) = -log p(x i)
其主要有两个含义: 1,当事件发生前,代表该事件的不确定性 2,当事件发生后,代表该事件所提供信息量
底数公式公式
2
I(x i) = -log 2P(x i)
bit 比特
e
I(x i) = -lnP(x i)
nat 奈特
10
I(x i) = -lgPP(x i)
hart 哈特

单位换算关系:
1 nat = log2e bit
1 hart = log210 bit

三、条件自信息

事件x = a再事件y = b给定条件下的自信息:
I(a|b)= -logPX|Y(a|b)
即: I(x|y) = -logP(x|y)

四、联合自信息

联合事件XY中事件x=a,y=b的自信息定义为:
I(ab)= -logPXY(ab)
即: I(xy) = -logP(xy)

五、信息熵计算

1、设离散型随机变量X的概率分布为:

[ X p ( x ) ] \begin{bmatrix} X \\ p(x) \end{bmatrix} [Xp(x)]

=

[ X 1 X 2 … X n p 1 p 2 … p n ] \begin{bmatrix} X1&X2 &…&Xn\\ p1&p2&…&pn \end{bmatrix} [X1p1X2p2Xnpn]

∑ i = 1 n \sum_{i=1}^n i=1npi = 1
2、X的信息熵定义为“加权平均信息量”
Ii = -log Pi
H(X) = - ∑ i = 1 n \sum_{i=1}^n i=1npilogpi

六、信息熵直观意义

变量不确定性越高,则信息熵越大,将其搞清楚所需要的信息量也越大。一个系统越是有序,信息熵越低,亦而反之,一个系统越是混乱,信息熵则越高。

七、联合熵

H(XY)= E[I(aibj)] = - ∑ i = 1 q \sum_{i=1}^q i=1q ∑ i = 1 s \sum_{i=1}^s i=1sP(aibj)logP(aibj)

八、条件熵

定义:X给定条件下Y的条件概率分布的熵对X的数学期望
H(Y|X)= ∑ i = 1 n \sum_{i=1}^n i=1npiH(Y|X=xi)

推导:
H(X,Y) - H(X) = H(Y|Y)

九、熵的性质

1、链式法则:
H(XY) = H(X) + H(Y|Y)
当X与Y相互统计独立:H(XY) = H(Y) + H(X)
2、极值性:
H(P1,P2,…,Pq) ≤ \leq log q
当且仅当P1=P2=…=Pq = 1/q时,信息源具有最大熵。

十、信息增益(互信息)

特征A对训练数据集D的信息增益g(D,A),定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差,即:
g(D,A) = H(D) - H(D|A)

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐