1. 估计量的衡量标准

对于参数估计问题,目前存在着很多估计算法。那么如何去衡量一个估计器(estimator, 也称估计量或估计算法)的性能,我们主要考量以下三个方面

  1. 无偏性(unbiased)。对于参数估计问题,设未知参数 θ \theta θ,估计器模型 θ ^ \hat{\theta} θ^。则有 E [ θ ^ ] = θ \mathbb{E}[\hat{\theta}]=\theta E[θ^]=θ。对于估计对象为随机变量,则有 E [ θ ^ ] = E [ θ ] \mathbb{E}[\hat{\theta}]=\mathbb{E}[\theta] E[θ^]=E[θ]。我们称满足这个条件的估计量为无偏估计量
  2. 有效性(availability)。有效性刻画估计量到真实值的偏离程度, D ( θ ^ ) = E [ ( θ ^ − E [ θ ^ ] ) 2 ] D(\hat{\theta})=\mathbb{E}[(\hat{\theta}-\mathbb{E}[\hat{\theta}])^2] D(θ^)=E[(θ^E[θ^])2],即若存在多种无偏估计器,我们称估计量方差最小的估计器是有效的。
  3. 一致性(consistency)。设 θ ^ \hat{\theta} θ^为未知参数 θ \theta θ的估计量,若当样本数 N → ∞ N\rightarrow \infty N时,对于任意 ϵ > 0 \epsilon>0 ϵ>0,有 lim ⁡ N → ∞ P { ∣ θ ^ − θ ∣ < ϵ } = 1 \lim\limits_{N\rightarrow \infty} P\left\{{|\hat{\theta}-\theta|<\epsilon}\right\}=1 NlimP{θ^θ<ϵ}=1。我们称 θ ^ \hat{\theta} θ^ θ \theta θ是一致的。一致性所体现的是,当样本总数逐渐增加时,估计量逐渐收敛于真实值

基于这三点考量,那么很自然我们会问,如何衡量一个无偏估计器是否是有效的。统计信号处理理论中的克拉美罗下界(Cramer-Rao Lower Bound,CRLB)就是衡量一个无偏估计器的有力工具。

2. 克拉美-罗下界(Scale Parameter 标量参数)

对于估计参数 θ \theta θ为标量时,假定PDF满足**“正则”**条件
E [ ∂ ln ⁡ p ( x ; θ ) ∂ θ ] = 0 (  for any  θ   ) \mathbb{E}\left[{\frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta}}\right]=0\quad (\ \text{for any }\theta \ ) E[θlnp(x;θ)]=0( for any θ )
其中数学期望对 p ( x ; θ ) p(\boldsymbol{x};\theta) p(x;θ)取。那么无偏估计量 θ ^ \hat{\theta} θ^的方差必然满足
D ( θ ^ ) ≥ 1 − E [ ∂ 2 ln ⁡ p ( x ; θ ) ∂ θ 2 ] = 1 E [ ( ∂ ln ⁡ p ( x ; θ ) ∂ θ ) 2 ] D(\hat{\theta}) \geq \frac{1}{-\mathbb{E}\left[{ \frac{\partial ^2\ln p(\boldsymbol{x};\theta)}{\partial \theta^2}}\right]}=\frac{1}{\mathbb{E}\left[{ \left(\frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta}\right)^2}\right]} D(θ^)E[θ22lnp(x;θ)]1=E[(θlnp(x;θ))2]1
其中导数是在 θ \theta θ的真实值处求,数学期望是对 p ( x ; θ ) p(\boldsymbol{x};\theta) p(x;θ)取。因此,我们可以说一个无偏估计量 g ( x ) g(\boldsymbol{x}) g(x)达到CRLB,当且仅当,该估计量满足
∂ ln ⁡ p ( x ; θ ) ∂ θ = I ( θ ) ( g ( x ) − θ ) \frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta} =\mathbf{I}(\theta)(g(\boldsymbol{x})-\theta) θlnp(x;θ)=I(θ)(g(x)θ)
其中, I ( θ ) = − E [ ∂ 2 ln ⁡ p ( x ; θ ) ∂ θ 2 ] \mathbf{I}(\theta)=-\mathbb{E}\left[{ \frac{\partial ^2\ln p(\boldsymbol{x};\theta)}{\partial \theta^2}}\right] I(θ)=E[θ22lnp(x;θ)],称为Fisher information。证明见附录A。

Remarks: CRLB是衡量一个无偏估计器是否有效的重要工具,也就是说,给定一个无偏估计器,我们可以利用克拉美-罗下界去判断这个估计器是否是最优的。

3. Example:线性高斯模型(Linear Gaussian model)

x = h θ + w , w ∼ N ( 0 , C w ) \boldsymbol{x}=\boldsymbol{h}\theta+\boldsymbol{w}, \quad \boldsymbol{w}\sim \mathcal{N}(\boldsymbol{0},\boldsymbol{C}_{\boldsymbol{w}}) x=hθ+w,wN(0,Cw)
其中 θ \theta θ是未知参数, x ∈ R p \boldsymbol{x}\in \mathbb{R}^p xRp是观测值(observed signal), w \boldsymbol{w} w是均值为 0 \boldsymbol{0} 0,协方差矩阵为 C w \boldsymbol{C}_{\boldsymbol{w}} Cw的高斯噪声。

我们考虑如下估计器
θ ^ = ( h T C w − 1 h ) − 1 h T C w − 1 x \hat{\theta}=(\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{h})^{-1}\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{x} θ^=(hTCw1h)1hTCw1x
对于该模型,其似然函数 p ( x ; θ ) p(\boldsymbol{x};\theta) p(x;θ)
p ( x ; θ ) = 1 ( 2 π ) p / 2 ∣ C w ∣ 1 / 2 exp ⁡ [ − 1 2 ( x − h θ ) T C w − 1 ( x − h θ ) ] p(\boldsymbol{x};\theta)=\frac{1}{(2\pi)^{p/2}|\boldsymbol{C}_{\boldsymbol{w}}|^{1/2}} \exp \left[{-\frac{1}{2}(\boldsymbol{x}-\boldsymbol{h}\theta)^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}(\boldsymbol{x}-\boldsymbol{h}\theta)}\right] p(x;θ)=(2π)p/2Cw1/21exp[21(xhθ)TCw1(xhθ)]
因此

  1. 无偏性
    E [ θ ^ ] = ∫ x θ ^ p ( x ; θ ) d x \mathbb{E}[\hat{\theta}]=\int_{\boldsymbol{x}} \hat{\theta} p(\boldsymbol{x};\theta)\text{d}\boldsymbol{x} E[θ^]=xθ^p(x;θ)dx
    我们可以将 p ( x ; θ ) p(\boldsymbol{x};\theta) p(x;θ)看作为自变量为 x \boldsymbol{x} x均值为 h θ \boldsymbol{h}\theta hθ,协方差矩阵为 C w \boldsymbol{C}_{\boldsymbol{w}} Cw的高斯PDF,即 ∫ x x p ( x ; θ ) d x = h θ \int_{\boldsymbol{x}}\boldsymbol{x}p(\boldsymbol{x};\theta)\text{d}\boldsymbol{x}=\boldsymbol{h}\theta xxp(x;θ)dx=hθ。因此 E [ θ ^ ] = ( h T C w − 1 h ) − 1 h T C w − 1 h θ = θ \mathbb{E}[\hat{\theta}]=(\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{h})^{-1}\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{h}\theta=\theta E[θ^]=(hTCw1h)1hTCw1hθ=θ,即 θ ^ \hat{\theta} θ^为无偏估计量。

  2. 有效性
    ∂ ln ⁡ p ( x ; θ ) ∂ θ = ( x − h θ ) T C w − 1 h \frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta}=(\boldsymbol{x}-\boldsymbol{h}\theta)^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{h} θlnp(x;θ)=(xhθ)TCw1h ∂ 2 ln ⁡ p ( x ; θ ) ∂ θ 2 = − h T C w − 1 h \frac{\partial^2 \ln p(\boldsymbol{x};\theta)}{\partial \theta^2}=-\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{h} θ22lnp(x;θ)=hTCw1h
    关于矩阵求导不太熟悉的朋友可以看下这个网站:https://en.wikipedia.org/wiki/Matrix_calculus
    基于上述表述,该系统模型的CRLB为
    − 1 − E [ ∂ 2 ln ⁡ p ( x ; θ ) ∂ θ 2 ] = 1 h T C w − 1 h -\frac{1}{-\mathbb{E}\left[{ \frac{\partial ^2\ln p(\boldsymbol{x};\theta)}{\partial \theta^2}}\right]}=\frac{1}{\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{h}} E[θ22lnp(x;θ)]1=hTCw1h1
    而估计器 θ ^ \hat{\theta} θ^的方差为
    D ( θ ^ ) = ( ( h T C w − 1 h ) − 1 h T C w − 1 ) C w ( ( h T C w − 1 h ) − 1 h T C w − 1 ) T = ( h T C w − 1 h ) − 1 D(\hat{\theta})=\left({(\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{h})^{-1}\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}}\right) \boldsymbol{C}_{\boldsymbol{w}} \left({(\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{h})^{-1}\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}}\right)^T=(\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{h})^{-1} D(θ^)=((hTCw1h)1hTCw1)Cw((hTCw1h)1hTCw1)T=(hTCw1h)1
    由于 h T C w − 1 h \boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{h} hTCw1h是一维的,有 ( h T C w − 1 h ) − 1 = 1 h T C w − 1 h (\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{h})^{-1}=\frac{1}{\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{h}} (hTCw1h)1=hTCw1h1,因此,该估计量是有效的,即该无偏估计量 θ \theta θ的方差可以达到CRLB。

  3. 一致性
    将系统模型 x = h θ + w \boldsymbol{x}=\boldsymbol{h}\theta+\boldsymbol{w} x=hθ+w代入估计器中,有
    θ ^ = ( h T C w − 1 h ) − 1 h T C w − 1 ( h θ + w ) = θ + ( h T C w − 1 h ) − 1 h T C w − 1 w \hat{\theta} =(\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{h})^{-1}\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}(\boldsymbol{h}\theta+\boldsymbol{w})\\ =\theta+(\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{h})^{-1}\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{w} θ^=(hTCw1h)1hTCw1(hθ+w)=θ+(hTCw1h)1hTCw1w
    若假设噪声能量一定,即 C w \boldsymbol{C}_{\boldsymbol{w}} Cw元素值固定,随着观测样本 p → ∞ p\rightarrow\infty p,则噪声的方差
    D ( ( h T C w − 1 h ) − 1 h T C w − 1 w ) = 1 h T c w − 1 h D((\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{h})^{-1}\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{w})=\frac{1}{\boldsymbol{h}^T\boldsymbol{c}_{\boldsymbol{w}}^{-1}\boldsymbol{h}} D((hTCw1h)1hTCw1w)=hTcw1h1
    从公式可以看出,假设噪声 w \boldsymbol{w} w的每个元素具有相同的方差,则必然 lim ⁡ p → ∞ h T c w − 1 h → ∞ \lim\limits_{p\rightarrow \infty}\boldsymbol{h}^T\boldsymbol{c}_{\boldsymbol{w}}^{-1}\boldsymbol{h}\rightarrow \infty plimhTcw1h。因此,当 p → ∞ p\rightarrow \infty p时,我们可以将估计量 θ ^ \hat{\theta} θ^看作
    θ ^ = θ + n , n ∼ N ( 0 , ( h T C w − 1 h ) − 1 )   and  lim ⁡ p → ∞ h T c w − 1 h → ∞ \hat{\theta}=\theta+n,\quad n\sim\mathcal{N}(0,(\boldsymbol{h}^T\boldsymbol{C}_\boldsymbol{w}^{-1}\boldsymbol{h})^{-1}) \ \ \text{and} \ \lim\limits_{p\rightarrow \infty}\boldsymbol{h}^T\boldsymbol{c}_{\boldsymbol{w}}^{-1}\boldsymbol{h}\rightarrow \infty θ^=θ+n,nN(0,(hTCw1h)1)  and plimhTcw1h
    因此,对于任意 ϵ > 0 \epsilon>0 ϵ>0,有
    lim ⁡ N → ∞ P { ∣ θ ^ − θ ∣ < ϵ } = 1 \lim\limits_{N\rightarrow \infty} P\left\{{|\hat{\theta}-\theta|<\epsilon}\right\}=1 NlimP{θ^θ<ϵ}=1
    即,该估计量满足一致性。

4. CRLB证明

由于 θ ^ \hat{\theta} θ^是无偏估计,即
∫ x ( θ ^ − θ ) p ( x ; θ ) d x = 0 ⇒ ∫ θ ^ p ( x ; θ ) d x = θ \int_{\boldsymbol{x}} (\hat{\theta}-\theta)p(\boldsymbol{x};\theta)\text{d}\boldsymbol{x}=0\quad \Rightarrow \quad \int \hat{\theta}p(\boldsymbol{x};\theta)\text{d}\boldsymbol{x}=\theta x(θ^θ)p(x;θ)dx=0θ^p(x;θ)dx=θ
注意,估计器 θ ^ \hat{\theta} θ^是关于观测量 x \boldsymbol{x} x的函数。上式等式两边对 θ \theta θ求偏导有
∫ θ ^ ∂ p ( x ; θ ) ∂ θ d x = 1 ⇒ ∫ θ ^ ∂ ln ⁡ p ( x ; θ ) ∂ θ p ( x ; θ ) d x = 1 − − − ( ∗ 1 ) \int \hat{\theta}\frac{\partial p(\boldsymbol{x};\theta)}{\partial \theta}\text{d}x=1\\ \qquad \qquad \qquad \qquad \qquad \Rightarrow \int \hat{\theta}\frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta}p(\boldsymbol{x};\theta)\text{d}x=1 \qquad ---(*1) θ^θp(x;θ)dx=1θ^θlnp(x;θ)p(x;θ)dx=1(1)
由正则条件 E [ ∂ ln ⁡ p ( x ; θ ) ∂ θ ] = 0 \mathbb{E}\left[\frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta}\right]=0 E[θlnp(x;θ)]=0,即
∫ ∂ ln ⁡ p ( x ; θ ) ∂ θ p ( x ; θ ) d x = 0 \int \frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta} p(\boldsymbol{x};\theta)\text{d}\boldsymbol{x}=0 θlnp(x;θ)p(x;θ)dx=0

θ ∫ ∂ ln ⁡ p ( x ; θ ) ∂ θ p ( x ; θ ) d x = 0 ⇒ ∫ θ ∂ ln ⁡ p ( x ; θ ) ∂ θ p ( x ; θ ) d x = 0 − − − ( ∗ 2 ) \theta \int \frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta} p(\boldsymbol{x};\theta)\text{d}\boldsymbol{x}=0\\ \qquad \qquad \Rightarrow \int \theta \frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta} p(\boldsymbol{x};\theta)\text{d}\boldsymbol{x}=0---(*2) θθlnp(x;θ)p(x;θ)dx=0θθlnp(x;θ)p(x;θ)dx=0(2)
合并(*1)与(*2),有
     ∫ ( θ ^ − θ ) ∂ ln ⁡ p ( x ; θ ) ∂ θ p ( x ; θ ) d x = 1    ⇒ ∫ ( θ ^ − θ ) p ( x ; θ ) ∂ ln ⁡ p ( x ; θ ) ∂ θ p ( x ; θ ) d x = 1 \ \ \ \ \int (\hat{\theta}-\theta)\frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta}p(\boldsymbol{x};\theta)\text{d}\boldsymbol{x}=1\\ \qquad \qquad \ \ \Rightarrow \int (\hat{\theta}-\theta)\sqrt{p(\boldsymbol{x};\theta)}\frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta}\sqrt{p(\boldsymbol{x};\theta)}\text{d}\boldsymbol{x}=1     (θ^θ)θlnp(x;θ)p(x;θ)dx=1  (θ^θ)p(x;θ) θlnp(x;θ)p(x;θ) dx=1
由于柯西-施瓦茨不等式
∫ f 2 ( x ) d x ∫ g 2 ( x ) d x ≥ ( ∫ f ( x ) g ( x ) d x ) 2 \int f^2(x)\text{d}x \int g^2(x)\text{d}x \geq\left({\int f(x)g(x)\text{d}x}\right)^2 f2(x)dxg2(x)dx(f(x)g(x)dx)2
当且仅当 f ( x ) = g ( x ) f(x)=g(x) f(x)=g(x)时,取等号。

根据柯西-施瓦茨不等式(Cauchy-Schwarz inequality),有
( ∫ ( θ ^ − θ ) 2 p ( x ; θ ) d x ) ( ∫ ( ∂ ln ⁡ p ( x ; θ ) ∂ θ ) 2 p ( x ; θ ) d x ) ≥ 1 ⇒ ∫ ( θ ^ − θ ) 2 p ( x ; θ ) d x ≥ 1 ( ∫ ( ∂ ln ⁡ p ( x ; θ ) ∂ θ ) 2 p ( x ; θ ) d x ) \left({ \int (\hat{\theta}-\theta)^2{p(\boldsymbol{x};\theta)}\text{d}\boldsymbol{x}}\right) \left({\int \left(\frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta}\right)^2p(\boldsymbol{x};\theta)\text{d}\boldsymbol{x}}\right)\geq 1\\ \Rightarrow \int (\hat{\theta}-\theta)^2{p(\boldsymbol{x};\theta)}\text{d}\boldsymbol{x}\geq \frac{1}{\left({\int \left(\frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta}\right)^2p(\boldsymbol{x};\theta)\text{d}\boldsymbol{x}}\right)} ((θ^θ)2p(x;θ)dx)((θlnp(x;θ))2p(x;θ)dx)1(θ^θ)2p(x;θ)dx((θlnp(x;θ))2p(x;θ)dx)1

D ( θ ^ ) ≥ 1 E [ ( ∂ ln ⁡ p ( x ; θ ) ∂ θ ) 2 ] D(\hat{\theta})\geq \frac{1}{\mathbb{E}\left[{\left(\frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta}\right)^2}\right]} D(θ^)E[(θlnp(x;θ))2]1
现在只需证明
E [ ( ∂ ln ⁡ p ( x ; θ ) ∂ θ ) 2 ] = − E [ ∂ 2 ln ⁡ p ( x ; θ ) ∂ θ 2 ] \mathbb{E}\left[{\left(\frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta}\right)^2}\right]=-\mathbb{E}\left[{ \frac{\partial ^2\ln p(\boldsymbol{x};\theta)}{\partial \theta^2}}\right] E[(θlnp(x;θ))2]=E[θ22lnp(x;θ)]
证:由正则条件 E [ ∂ ln ⁡ p ( x ; θ ) ∂ θ ] = 0 \mathbb{E}\left[{\frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta}}\right]=0 E[θlnp(x;θ)]=0,等式两边对 θ \theta θ求偏导,有
∂ ∂ θ ∫ ∂ ln ⁡ p ( x ; θ ) ∂ θ p ( x ; θ ) d x = 0   ⇒ ∫ [ ∂ 2 ln ⁡ p ( x ; θ ) ∂ θ 2 p ( x ; θ ) + ∂ ln ⁡ p ( x ; θ ) ∂ θ ∂ p ( x ; θ ) ∂ θ ] d x = 0   ⇒ ∫ ∂ 2 ln ⁡ p ( x ; θ ) ∂ θ 2 p ( x ; θ ) d x = − ∫ ( ∂ ln ⁡ p ( x ; θ ) ∂ θ ) 2 p ( x ; θ ) d x \frac{\partial }{\partial \theta} \int \frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta} p(\boldsymbol{x};\theta)\text{d}\boldsymbol{x}=0\quad \qquad \qquad \qquad \ \\ \quad \Rightarrow \int \left[{\frac{\partial^2 \ln p(\boldsymbol{x};\theta)}{\partial \theta^2}p(\boldsymbol{x};\theta)+\frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta}\frac{\partial p(\boldsymbol{x};\theta)}{\partial \theta}}\right]\text{d}\boldsymbol{x}=0\\ \qquad \ \Rightarrow \int \frac{\partial^2 \ln p(\boldsymbol{x};\theta)}{\partial \theta^2}p(\boldsymbol{x};\theta)\text{d}\boldsymbol{x}=-\int \left({\frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta}}\right)^2p(\boldsymbol{x};\theta)\text{d}\boldsymbol{x} θθlnp(x;θ)p(x;θ)dx=0 [θ22lnp(x;θ)p(x;θ)+θlnp(x;θ)θp(x;θ)]dx=0 θ22lnp(x;θ)p(x;θ)dx=(θlnp(x;θ))2p(x;θ)dx

现在证明,若估计量 θ ^ = g ( x ) \hat{\theta}=\text{g}(\boldsymbol{x}) θ^=g(x)可以达到CRLB,则有
∂ ln ⁡ p ( x ; θ ) ∂ θ = I ( θ ) ( g ( x ) − θ ) \frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta} =\mathbf{I}(\theta)(g(\boldsymbol{x})-\theta) θlnp(x;θ)=I(θ)(g(x)θ)
其中, I ( θ ) = − E [ ∂ 2 ln ⁡ p ( x ; θ ) ∂ θ 2 ] \mathbf{I}(\theta)=-\mathbb{E}\left[{ \frac{\partial ^2\ln p(\boldsymbol{x};\theta)}{\partial \theta^2}}\right] I(θ)=E[θ22lnp(x;θ)]

证:等式两边同时对 θ \theta θ求偏导,有
∂ 2 ln ⁡ p ( x ; θ ) ∂ θ 2 = ∂ I ( θ ) ∂ θ ( g ( x ) − θ ) − I ( θ ) \frac{\partial^2 \ln p(\boldsymbol{x};\theta)}{\partial \theta^2} =\frac{\partial \mathbf{I}(\theta)}{\partial \theta}(g(\boldsymbol{x})-\theta)-\mathbf{I}(\theta) θ22lnp(x;θ)=θI(θ)(g(x)θ)I(θ)
等式两边同时对乘上 p ( x ; θ ) p(\boldsymbol{x};\theta) p(x;θ),并对 x \boldsymbol{x} x积分,得
E [ ∂ 2 ln ⁡ p ( x ; θ ) ∂ θ 2 ] = − I ( θ ) \mathbb{E}\left[{\frac{\partial^2 \ln p(\boldsymbol{x};\theta)}{\partial \theta^2} }\right]=-\mathbf{I}(\theta) E[θ22lnp(x;θ)]=I(θ)
证毕。

Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐