机器学习笔记(十九)——最大熵原理和模型定义
一、最大熵原理 最大熵原理是概率模型学习的一个准则。最大熵原理认为,在学习概率模型时,在所有可能的概率分布中,熵最大的模型是最好的模型。通常用约束条件来确定概率模型的集合,所以,最大熵模型也可以表述为在满足约束条件的模型集合中选取熵最大的模型。 假设离散型随机变量XX的概率分布式P(X)P(X),则其熵是:H(P)=−∑xP(x)logP(x)H(P)=-\sum_x P(x)
一、最大熵原理
最大熵原理是概率模型学习的一个准则。最大熵原理认为,在学习概率模型时,在所有可能的概率分布中,熵最大的模型是最好的模型。通常用约束条件来确定概率模型的集合,所以,最大熵模型也可以表述为在满足约束条件的模型集合中选取熵最大的模型。
假设离散型随机变量
X
<script type="math/tex" id="MathJax-Element-578">X</script>的概率分布式
熵满足下列不等式:
式中, |X| <script type="math/tex" id="MathJax-Element-582">|X|</script>是 X <script type="math/tex" id="MathJax-Element-583">X</script>取值个数,当且仅当
二、最大熵模型的定义
假设分类模型是一个条件概率分布
给定一个训练数据集
学习的目标是用最大熵原理选择最好的分类模型。
对于给定的数据集,我们可以确定联合分布的经验分布和边缘分布的经验分布。用特征函数 f(x,y) <script type="math/tex" id="MathJax-Element-6956">f(x,y)</script>描述 x,y <script type="math/tex" id="MathJax-Element-6957">x,y</script>之间的一个事实,即:
特征函数
f(x,y)
<script type="math/tex" id="MathJax-Element-6959">f(x,y)</script>关于经验分布
P˜(X,Y)
<script type="math/tex" id="MathJax-Element-6960">\widetilde{P}(X,Y)</script>的期望值, 用
Ep¯(f)
<script type="math/tex" id="MathJax-Element-6961">E_{\bar{p}}(f)</script>表示。
特征函数
f(x,y)
<script type="math/tex" id="MathJax-Element-6963">f(x,y)</script>关于模型
P(Y|X)
<script type="math/tex" id="MathJax-Element-6964">P(Y|X)</script>与经验分布
P˜(X)
<script type="math/tex" id="MathJax-Element-6965">\widetilde{P}(X)</script>的期望值, 用
Ep(f)
<script type="math/tex" id="MathJax-Element-6966">E_{p}(f)</script>表示
如果模型可以获得训练数据中的信息, 我们就可以假设这两个期望相等:
定义(最大熵模型) 假设满足所有约束条件的模型集合为
定义在条件概率分布 P(Y|X) <script type="math/tex" id="MathJax-Element-6970">P(Y|X)</script>上的条件熵为:
则模型集合 C <script type="math/tex" id="MathJax-Element-6972">\mathcal{C}</script>中条件熵 H(P) <script type="math/tex" id="MathJax-Element-6973">H(P)</script>最大的模型称为最大熵模型,对数为自然对数。后续将继续给出求解最大熵模型的过程。
更多推荐
所有评论(0)