人工智能数学基础-似然函数
文档介绍似然函数(关于参数 θ 的函数,与密度函数区分,含离散、连续情况),及极大似然估计(选 θ 使样本概率最大,含求解步骤与泊松分布示例),清晰阐述核心概念与方法。
似然函数
一、似然函数的定义
给定联合样本值xxx关于参数θ\thetaθ的函数: L(θ∣x)=f(x∣θ)L(\theta | x)=f(x | \theta)L(θ∣x)=f(x∣θ) 其中xxx是随机变量XXX取得的值,θ\thetaθ是未知的参数。
f(x∣θ)f(x | \theta)f(x∣θ)是密度函数,表示给定θ\thetaθ下的联合密度函数。
核心区别:似然函数是关于θ\thetaθ的函数,而密度函数是关于xxx的函数。
二、不同分布下的似然函数
1. 离散情况下
-
概率密度函数(此时为概率质量函数):f(x∣θ)=Pθ(X=x)f(x | \theta)=\mathbb{P}_{\theta}(X=x)f(x∣θ)=Pθ(X=x)
表示在参数θ\thetaθ下,随机变量XXX取到xxx的可能性。 -
似然大小比较:
若L(θ1∣x)=Pθ1(X=x)>Pθ2(X=x)=L(θ2∣x)L(\theta _{1}|x)=\mathbb {P}_{\theta _{1}}(X=x)>\mathbb {P}_{\theta _{2}}(X=x)=L(\theta _{2}|x)L(θ1∣x)=Pθ1(X=x)>Pθ2(X=x)=L(θ2∣x),则在参数θ1\theta_1θ1下随机变量XXX取到xxx值的可能性大于θ2\theta_2θ2。
2. 连续情况下
若XXX是连续随机变量,给定足够小的ε>0\varepsilon>0ε>0,则其在区间(x−ε,x+ε)(x-\varepsilon, x+\varepsilon)(x−ε,x+ε)内的概率为:
Pθ(x−ϵ<X<x+ϵ)=∫x−ϵx+ϵf(x∣θ)dx≈2ϵf(x∣θ)=2ϵL(θ∣x)\mathbb{P}_{\theta}(x-\epsilon<X<x+\epsilon)=\int_{x-\epsilon}^{x+\epsilon} f(x | \theta) d x \approx 2 \epsilon f(x | \theta)=2 \epsilon L(\theta | x)Pθ(x−ϵ<X<x+ϵ)=∫x−ϵx+ϵf(x∣θ)dx≈2ϵf(x∣θ)=2ϵL(θ∣x)
结论:连续型与离散型结论一致!
- 概率:表达在给定参数θ\thetaθ时,X=xX=xX=x的可能性;
- 似然:表达在给定样本X=xX=xX=x时,参数θ\thetaθ的可能性。
三、极大似然估计
1. 核心思想(示例)
在一次吃鸡比赛中,有两位选手(职业选手、菜鸟路人)。比赛结束后,公布有一位选手完成20杀,请问是哪个选手?
通常会选择“职业选手”,核心逻辑是:概率最大的事件最有可能发生。
2. 极大似然估计的定义
在一次抽样中,得到观测值x1,x2,…,xnx_1,x_2,\dots,x_nx1,x2,…,xn。选取θ=θ^(x1,x2,…,xn)\theta=\hat{\theta}(x_1, x_2, \dots, x_n)θ=θ^(x1,x2,…,xn)作为θ\thetaθ的估计值(θ^\hat{\theta}θ^表示θ\thetaθ的估计量),使得当θ=θ^\theta=\hat{\theta}θ=θ^时,样本出现的概率最大。
3. 极大似然函数的公式
样本类型 | 似然函数公式 |
---|---|
离散型样本 | L(θ)=∏i=1np(xi;θ)L(\theta)=\prod_{i=1}^{n} p\left(x_{i} ; \theta\right)L(θ)=∏i=1np(xi;θ)(p(xi;θ)p(x_i;\theta)p(xi;θ)为离散型概率质量函数) |
连续型样本 | L(θ)=∏i=1nf(xi;θ)L(\theta)=\prod_{i=1}^{n} f\left(x_{i} ; \theta\right)L(θ)=∏i=1nf(xi;θ)(f(xi;θ)f(x_i;\theta)f(xi;θ)为连续型概率密度函数) |
极大似然估计的目标:L(x1,x2,⋯ ,xn;θ)=maxθ∈ΘL(x1,x2,⋯ ,xn;θ)L\left(x_{1}, x_{2}, \cdots, x_{n} ; \theta\right)=\max _{\theta \in \Theta} L\left(x_{1}, x_{2}, \cdots, x_{n} ; \theta\right)L(x1,x2,⋯,xn;θ)=maxθ∈ΘL(x1,x2,⋯,xn;θ)
其中Θ\ThetaΘ是参数θ\thetaθ的取值范围。
4. 极大似然估计的求解步骤
-
构造似然函数:L(θ)L(\theta)L(θ)(根据样本类型选择上述离散或连续型公式);
-
对似然函数取自然对数:lnL(θ)\ln L(\theta)lnL(θ)(目的是将乘积运算转化为加法运算,简化求导);
-
求导并令导数为0:对lnL(θ)\ln L(\theta)lnL(θ)关于θ\thetaθ求导,令dlnLdθ=0\frac{d \ln L}{d \theta}=0dθdlnL=0(若θ\thetaθ为多维参数,则求偏导∂lnL∂θi=0\frac{\partial \ln L}{\partial \theta_i}=0∂θi∂lnL=0);
-
求解参数:解上述方程,得到θ\thetaθ的极大似然估计值θ^\hat{\theta}θ^。
5. 求解示例(以泊松分布为例)
假设随机变量XXX的分布律为X=0,1,2,⋯ ,nX=0,1,2,\cdots,nX=0,1,2,⋯,n(此处实际为泊松分布,参数为λ\lambdaλ),现有样本x1,x2,…,xnx_1,x_2,\dots,x_nx1,x2,…,xn,求λ\lambdaλ的极大似然估计值。
步骤1:构造似然函数
L(λ)=∏i=1n(λxixi!e−λ)=e−nλλ∑i=1nxi∏i=1n(xi!)L(\lambda)=\prod_{i=1}^{n}\left(\frac{\lambda^{x_{i}}}{x_{i} !} e^{-\lambda}\right)=e^{-n \lambda} \frac{\lambda^{\sum_{i=1}^{n} x_{i}}}{\prod_{i=1}^{n}\left(x_{i} !\right)}L(λ)=∏i=1n(xi!λxie−λ)=e−nλ∏i=1n(xi!)λ∑i=1nxi
步骤2:取自然对数
lnL(λ)=−nλ+(∑i=1nxi)lnλ−∑i=1nln(xi!)\ln L(\lambda)=-n \lambda+\left(\sum_{i=1}^{n} x_{i}\right) \ln \lambda-\sum_{i=1}^{n} \ln(x_{i} !)lnL(λ)=−nλ+(∑i=1nxi)lnλ−∑i=1nln(xi!)
(注:原文档中“βlnL(λ)\beta \ln L(\lambda)βlnL(λ)”为笔误,修正为“lnL(λ)\ln L(\lambda)lnL(λ)”;取对数后1∏i=1n(xi!)\frac{1}{\prod_{i=1}^{n}(x_i!)}∏i=1n(xi!)1需转化为−∑i=1nln(xi!)-\sum_{i=1}^{n}\ln(x_i!)−∑i=1nln(xi!),原文档遗漏“ln\lnln”,此处修正以保证数学正确性)
步骤3:求导并令导数为0
对lnL(λ)\ln L(\lambda)lnL(λ)关于λ\lambdaλ求导:
ddλlnL(λ)=−n+∑i=1nxiλ=0\frac{d}{d \lambda} \ln L(\lambda)=-n+\frac{\sum_{i=1}^{n} x_{i}}{\lambda}=0dλdlnL(λ)=−n+λ∑i=1nxi=0
步骤4:求解λ\lambdaλ的估计值
整理上述方程:
∑i=1nxiλ=n ⟹ λ^=1n∑i=1nxi=xˉ\frac{\sum_{i=1}^{n} x_{i}}{\lambda}=n \implies \hat{\lambda}=\frac{1}{n} \sum_{i=1}^{n} x_{i}=\bar{x}λ∑i=1nxi=n⟹λ^=n1∑i=1nxi=xˉ
其中xˉ\bar{x}xˉ为样本均值,即泊松分布参数λ\lambdaλ的极大似然估计值等于样本均值。
6. 极大似然函数公式重申
样本类型 | 似然函数公式 |
---|---|
离散型样本 | L(θ)=∏i=1np(xi;θ)L(\theta)=\prod_{i=1}^{n} p\left(x_{i} ; \theta\right)L(θ)=∏i=1np(xi;θ) |
连续型样本 | L(θ)=∏i=1nf(xi;θ)L(\theta)=\prod_{i=1}^{n} f\left(x_{i} ; \theta\right)L(θ)=∏i=1nf(xi;θ) |
极大似然估计的目标:L(x1,x2,⋯ ,xn;θ)=maxθ∈ΘL(x1,x2,⋯ ,xn;θ)L\left(x_{1}, x_{2}, \cdots, x_{n} ; \theta\right)=\max _{\theta \in \Theta} L\left(x_{1}, x_{2}, \cdots, x_{n} ; \theta\right)L(x1,x2,⋯,xn;θ)=maxθ∈ΘL(x1,x2,⋯,xn;θ)
更多推荐
所有评论(0)