3.1 Moreau-Yosia regulariztion

莫罗-吉田正则化。

共轭函数f:
若函数f:RnR是定义在Rn上的凸函数,则函数f(x)的共轭函数f:RnR定义为:

f(x)=supx(<x,x>f(x))

适当闭凸函数(proper closed convex function)fgRn上的下确卷积(infimal convolution),表示为fg,定义为:

(fg)(v)=infx(f(x)+g(vx),

并且 dom(fg)=domf+domg

给定λ>0,函数λfMoreau envelope (莫罗包络)or Moreau-Yosida regularization (莫罗-吉田正则化)Mλf定义为Mλf=λf(1/2)||||22,即:

Mλf(v)=infx(f(x)+(1/2λ)||xv||22). qquad(3.1)

也称为带有参数 λ的函数 f莫罗包络

莫罗包络Mf本质上是函数f的一个平滑或者正则化的形式:
1、其定义域为Rn(即使函数f的定义域不是Rn
2、连续可微。(即使当函数f不连续可微时)
3、函数fMf最小值集合是相同的。
因此,最小化函数f的问题,等价于最小化Mf的问题。

近端操作和莫罗包络的关系为:

proxλf(x)=xλMλf(x)(3.3)

近端操作可以看做是最小化函数 Mλf的一个梯度步骤,步长为 λ
组合莫罗分解,我们给出近端操作,莫罗包络,和共轭的关系:
proxλf(x)=Mf(x)

3.2 次微分操作的分解

Resolvent of subdiffereential operator

我们将一个适当的闭凸函数次微分f看作是点到集合的映射(point-to-set mapping)或者一个关系(relation)。
任何点yf(x)称为函数fx处的一个次微分。
近端操作proxλf和次微分操作f之间的关系:

proxλf=(I+λf)1(3.4)

点到点的映射:(I+λf)1称为参数为λ>0的操作的分解(resolvent).

3.3 修改的梯度步骤

近端操作和函数f莫罗包络的关系:

proxλf(x)=xλMλf(x)

也就是说,近端操作是是一个梯度步骤,其最小化函数 f的莫罗包络,步长为 λ

近端操作和函数的关系:

proxλf(x)=(I+λf)1(x)=xλf(x)+o(λ)

也就是说,对于小的 λ proxλf(x) 收敛到一个梯度步骤,步长为 λ,可以解释为最小化函数 f的一个梯度步骤的近似.

上式公式的证明:
两个操作和的逆(inverse of sum of two operators):

(S+P)1=S1S1P(S+P)1

只需要证明 (S+P)(S+P)1=I
(S1S1P(S+P)1)(S+P)=S1(S+P)S1P(S+P)1(S+P)
=S1(S+P)S1P=SS1=I

则: (I+λf)1=I1I1(λf)(I+λf)1
再次带入:
(I+λf)1=I1I1(λf)(I1I1(λf)(I+λf)1)
(I+λf)1=Iλf+λ22f(I+λf)1
λ很小时,上式变为:
(I+λf)1=Iλf+o(λ)

函数f一阶近似的近端操作:
如何函数可微,函数f在点v处的一阶近似表示为:

f^(1)v(x)=f(v)+f(v)T(xv)

则函数一阶近似的近端操作为:
proxf^(1)v(v)=vλf(v)

其实标准的梯度步骤(步长为 λ
函数f二阶近似的近端操作:
如何函数二阶可微,函数 f在点 v处的二阶近似表示为:
f^(2)v(x)=f(v)+f(v)T(xv)+(1/2)(xv)T2f(v)(xv)

则二阶近似的近端操作为:
proxf^(2)v(v)=v(2f(v)+(1/λ)I)1f(v)

上式的右手边是 Tikhonov-regularized Newton update,或者 Levenberg-Marquardt update 或者 modified Hession Newton update.

总的来说,梯度步骤和Levenberg-Marquardt 步骤可以操作是函数f的一阶和二阶近似的近端操作。

参考文献:
1、https://www.physicsforums.com/threads/inverse-of-sum-of-two-operators.447467/

转载于:https://www.cnblogs.com/raby/p/5886697.html

Logo

为开发者提供学习成长、分享交流、生态实践、资源工具等服务,帮助开发者快速成长。

更多推荐