【机器学习】最大似然估计的原理、以及求解步骤的详解
最大似然估计简介最大似然估计是一种统计方法,通过最大似然估计可以求一个样本集的概率密度函数的分布参数θ,从而求出样本集对应分布的概率密度函数。举例子来理解的话就是:已知:一个概率分布D已知:概率分布D的一个样本集X,样本集大小为n已知:次概率分布D的概率密度函数f=f(x; θ),其中θ是一个分布参数,θ未知~ (分布参数不懂得请百度百科~,分布参数有起码3种类型)那么问题来了
最大似然估计简介
最大似然估计是一种统计方法,通过最大似然估计可以求一个样本集的概率密度函数的分布参数θ,从而求出样本集对应分布的概率密度函数。
举例子来理解的话就是:
已知:一个概率分布D
已知:概率分布D的一个样本集X,样本集大小为n
已知:次概率分布D的概率密度函数f=f(x; θ),其中θ是一个分布参数,θ未知~
(分布参数不懂得请百度百科~,分布参数有起码3种类型)
那么问题来了,虽然已经知道了概率分布D和D的一个样本集X,但是怎么求出概率密度函数f(x;θ)中的未知分布参数θ呢????
这个问题的解决方法就是:最大似然估计
思路如下:
∵ 概率分布D已知
∴样本集X中的每个样本的概率值已知,每个样本xi的分布概率记作p(xi),i∈[1,n]
∵概率密度函数为f(x; θ)
∴求出样本集X发生的概率,记作F(p(x1),p(x2),……,p(xn))
可知F(p(x1),p(x2),……,p(xn)) = f(x1,x2,……,xn; θ)
根据上面的f(x1,x2,……,xn|θ)函数找到一个关于θ的估计,最大似然估计就是寻找关于θ的最可能的值!!!!
θ的可能的值就是:在所有可能的θ取值中,寻找到一个值使得这个样本集的“可能性”最大化,就是使得样本集的可能性函数取得最大值。
最大似然估计原理
原理其实就在最大似然估计概述部分已经详细介绍过了。下面给出,要进行最大似然估计,就要给出一个样本集的可能性:
like(θ)=f(x1,x2,……,xn; θ)
并在θ的所有取值上,使得这个函数最大化的θ,就称为θ的最大似然估计。即θ的最大似然估计使得样本集的可能性取得最大化。
like(θ)就称为似然函数,以θ为因变量,使得似然函数最大化的θ值,就是最大似然估计值。
但是请注意:
1)这里的可能性指的是,在样本集X=(x1, x2, ……,xn)不变情况下,以θ为因变量的一个函数
2)最大似然估计函数,可能唯一
3)最大似然估计函数,也可能不存在
4)最大似然估计,既适用于离散分布又适用于连续分布
5)概率密度函数可能有多个未知的分布参数θ=(θ1,θ2,……,θm)
最大似然估计的一般求解步骤
步骤1:写出似然函数
L(θ) = p(x1, x2, ……,xn;θ) ---->总体是离散分布时
或
L(θ)=f(x1, x2,……,xn;θ) ---->总体是连续分布时
步骤2:对似然函数两边取自然对数
ln(L(θ)) = ln(p(x1, x2, ……,xn;θ))---->总体是离散分布时
或
ln(L(θ)) = ln(f(x1, x2, ……,xn;θ))---->总体是连续分布时
步骤3:ln(L(θ))对θ求导,并使其等于0,然后求出θ的值
d(ln(L(θ)))/d(θ) = 0
这个方程是对数似然方程。数学求解此方程,求出来的θ值,就是未知分布参数θ的最大似然估计值。
疑问解答
可能有人对步骤2不解:
为啥要对似然函数L(θ)两边取自然对数呢?
能否对似然函数L(θ)直接取导数,然后求最大似然估计值可以吗?
问:求解中步骤2 是对似然函数两边取自然对数,而不是其他操作?
答:自然对数ln是一个连续且在似然函数L(θ)的值域内严格递增的函数,所以最大化一个似然函数L(θ) 和 最大化此似然函数的自然对数(即对数似然函数)是等价的,所以可以通过对似然函数L(θ)取自然对数,来降低似然函数中因变量θ的复杂度。
答:通过去自然对数,可以降低似然函数L(θ)中因变量θ的复杂度,方便求解。如果直接对似然函数L(θ)取导并使其为0,并求得使L(θ)取得最大值的θ值,也可以的,但是有可能L(θ)中θ太复杂而导致计算复杂度很高。
(end)
更多推荐
所有评论(0)