机器学习与模式识别——熵与信息增益
机器学习与模式识别——熵与信息增益一、熵的概念熵也叫信息熵,可以表征随机变量分布的混乱程度,分布越混乱,则熵越大,简易的解释就是:在一个随机事件中,某个事件发生的不确定度越大,熵也就越大,事件发生的概率越小,不确定度越大,熵也越大。二、自信息的计算熵代表着信息的可度量性,某事件xi所含有的信息量是该事件发生先验概率的函数,可以表示为:I(xi) = -log p(xi)其主要有两个含义:1,当事件
机器学习与模式识别——熵与信息增益
一、熵的概念
熵也叫信息熵,可以表征随机变量分布的混乱程度,分布越混乱,则熵越大,简易的解释就是:在一个随机事件中,某个事件发生的不确定度越大,熵也就越大,事件发生的概率越小,不确定度越大,熵也越大。
二、自信息的计算
熵代表着信息的可度量性,某事件xi所含有的信息量是该事件发生先验概率的函数,可以表示为:
底数 | 公式 | 公式 |
---|---|---|
2 |
| bit 比特 |
e |
| nat 奈特 |
10 |
| hart 哈特 |
单位换算关系:
1 nat = log2e bit
1 hart = log210 bit
三、条件自信息
事件x = a再事件y = b给定条件下的自信息:
I(a|b)= -logPX|Y(a|b)
即: I(x|y) = -logP(x|y)
四、联合自信息
联合事件XY中事件x=a,y=b的自信息定义为:
I(ab)= -logPXY(ab)
即: I(xy) = -logP(xy)
五、信息熵计算
1、设离散型随机变量X的概率分布为:
[ X p ( x ) ] \begin{bmatrix} X \\ p(x) \end{bmatrix} [Xp(x)]
[ X 1 X 2 … X n p 1 p 2 … p n ] \begin{bmatrix} X1&X2 &…&Xn\\ p1&p2&…&pn \end{bmatrix} [X1p1X2p2……Xnpn]
∑
i
=
1
n
\sum_{i=1}^n
∑i=1npi = 1
2、X的信息熵定义为“加权平均信息量”
Ii = -log Pi
H(X) = -
∑
i
=
1
n
\sum_{i=1}^n
∑i=1npilogpi
六、信息熵直观意义
变量不确定性越高,则信息熵越大,将其搞清楚所需要的信息量也越大。一个系统越是有序,信息熵越低,亦而反之,一个系统越是混乱,信息熵则越高。
七、联合熵
H(XY)= E[I(aibj)] = - ∑ i = 1 q \sum_{i=1}^q ∑i=1q ∑ i = 1 s \sum_{i=1}^s ∑i=1sP(aibj)logP(aibj)
八、条件熵
定义:X给定条件下Y的条件概率分布的熵对X的数学期望
H(Y|X)=
∑
i
=
1
n
\sum_{i=1}^n
∑i=1npiH(Y|X=xi)
推导:
H(X,Y) - H(X) = H(Y|Y)
九、熵的性质
1、链式法则:
H(XY) = H(X) + H(Y|Y)
当X与Y相互统计独立:H(XY) = H(Y) + H(X)
2、极值性:
H(P1,P2,…,Pq)
≤
\leq
≤ log q
当且仅当P1=P2=…=Pq = 1/q时,信息源具有最大熵。
十、信息增益(互信息)
特征A对训练数据集D的信息增益g(D,A),定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差,即:
g(D,A) = H(D) - H(D|A)
更多推荐
所有评论(0)