3.1 Moreau-Yosia regulariztion
莫罗-吉田正则化。
共轭函数f∗:
若函数f:Rn→R是定义在Rn上的凸函数,则函数f(x)的共轭函数f∗:Rn→R定义为:f∗(x∗)=supx(<x,x∗>−f(x))
适当闭凸函数(proper closed convex function)f和g在Rn上的下确卷积(infimal convolution),表示为f□g,定义为:
并且 dom(f□g)=domf+domg
给定λ>0,函数λf的Moreau envelope (莫罗包络)or Moreau-Yosida regularization (莫罗-吉田正则化)Mλf定义为Mλf=λf□(1/2)||⋅||22,即:
也称为带有参数 λ的函数 f的 莫罗包络。
莫罗包络Mf本质上是函数f的一个平滑或者正则化的形式:
1、其定义域为Rn(即使函数f的定义域不是Rn)
2、连续可微。(即使当函数f不连续可微时)
3、函数f和Mf最小值集合是相同的。
因此,最小化函数f的问题,等价于最小化Mf的问题。
近端操作和莫罗包络的关系为:
近端操作可以看做是最小化函数 Mλf的一个梯度步骤,步长为 λ
组合莫罗分解,我们给出近端操作,莫罗包络,和共轭的关系:
3.2 次微分操作的分解
Resolvent of subdiffereential operator
我们将一个适当的闭凸函数的次微分∂f看作是点到集合的映射(point-to-set mapping)或者一个关系(relation)。
任何点y∈∂f(x)称为函数f在x处的一个次微分。
近端操作proxλf和次微分操作∂f之间的关系:
点到点的映射:(I+λ∂f)−1称为参数为λ>0的操作的分解(resolvent).
3.3 修改的梯度步骤
近端操作和函数f莫罗包络的关系:
也就是说,近端操作是是一个梯度步骤,其最小化函数 f的莫罗包络,步长为 λ
近端操作和函数的关系:
也就是说,对于小的 λ, proxλf(x) 收敛到一个梯度步骤,步长为 λ,可以解释为最小化函数 f的一个梯度步骤的近似.
上式公式的证明:
两个操作和的逆(inverse of sum of two operators):(S+P)−1=S−1−S−1P(S+P)−1
只需要证明 (S+P)(S+P)−1=I,
则 (S−1−S−1P(S+P)−1)(S+P)=S−1(S+P)−S−1P(S+P)−1(S+P)
=S−1(S+P)−S−1P=SS−1=I
则: (I+λ▽f)−1=I−1−I−1(λ▽f)(I+λ△f)−1
再次带入:
(I+λ▽f)−1=I−1−I−1(λ▽f)(I−1−I−1(λ▽f)(I+λ▽f)−1)
(I+λ△f)−1=I−λ▽f+λ2△2f(I+λ▽f)−1
当 λ很小时,上式变为:
(I+λ△f)−1=I−λ▽f+o(λ)
函数f一阶近似的近端操作:
如何函数可微,函数f在点v处的一阶近似表示为:
则函数一阶近似的近端操作为:
其实标准的梯度步骤(步长为 λ)
函数f二阶近似的近端操作:
如何函数二阶可微,函数 f在点 v处的二阶近似表示为:
则二阶近似的近端操作为:
上式的右手边是 Tikhonov-regularized Newton update,或者 Levenberg-Marquardt update 或者 modified Hession Newton update.
总的来说,梯度步骤和Levenberg-Marquardt 步骤可以操作是函数f的一阶和二阶近似的近端操作。
参考文献:
1、https://www.physicsforums.com/threads/inverse-of-sum-of-two-operators.447467/
所有评论(0)