Proximal Algorithms--Moreau-Yosida regularization

3.1 Moreau-Yosia regulariztion莫罗-吉田正则化。共轭函数f∗:若函数f:Rn→R是定义在Rn上的凸函数，则函数f(x)的共轭函数f∗:Rn→R定义为：f∗(x∗)=supx(<x,x∗>−f(x))适当闭凸函数（proper closed convex function）f和g在Rn上的下确卷积(in...

weixin_30647065

523人浏览 · 2016-07-19 21:24:00

weixin_30647065 · 2016-07-19 21:24:00 发布

3.1 Moreau-Yosia regulariztion

莫罗-吉田正则化。

共轭函数f∗:
若函数f:Rn→R是定义在Rn上的凸函数，则函数f(x)的共轭函数f∗:Rn→R定义为：
$f * (x *) = sup x (< x, x * > - f (x))$

适当闭凸函数（proper closed convex function）f和g在Rn上的下确卷积(infimal convolution)，表示为f□g，定义为：

(f □ g) (v) = inf x (f (x) + g (v - x),

并且

dom(f□g)=domf+domg

给定λ>0，函数λf的Moreau envelope (莫罗包络）or Moreau-Yosida regularization （莫罗-吉田正则化）Mλf定义为Mλf=λf□(1/2)||⋅||22，即：

M λ f (v) = inf x (f (x) + (1 / 2 λ) | | x - v | | 22) . q q u a d (3.1)

也称为带有参数

λ的函数

f的 莫罗包络。

莫罗包络Mf本质上是函数f的一个平滑或者正则化的形式：
1、其定义域为Rn（即使函数f的定义域不是Rn）
2、连续可微。（即使当函数f不连续可微时）
3、函数f和Mf最小值集合是相同的。
因此，最小化函数f的问题，等价于最小化Mf的问题。

近端操作和莫罗包络的关系为：

p r o x λ f (x) = x - λ ▽ M λ f (x) (3.3)

近端操作可以看做是最小化函数

Mλf的一个梯度步骤，步长为

λ
组合莫罗分解，我们给出近端操作，莫罗包络，和共轭的关系：

p r o x λ f (x) = ▽ M f * (x)

3.2 次微分操作的分解

Resolvent of subdiffereential operator

我们将一个适当的闭凸函数的次微分∂f看作是点到集合的映射(point-to-set mapping)或者一个关系(relation)。
任何点y∈∂f(x)称为函数f在x处的一个次微分。
近端操作proxλf和次微分操作∂f之间的关系：

p r o x λ f = (I + λ \partial f) - 1 (3.4)

点到点的映射:(I+λ∂f)−1称为参数为λ>0的操作的分解(resolvent).

3.3 修改的梯度步骤

近端操作和函数f莫罗包络的关系：

p r o x λ f (x) = x - λ ▽ M λ f (x)

也就是说，近端操作是是一个梯度步骤，其最小化函数

f的莫罗包络，步长为

近端操作和函数的关系：

p r o x λ f (x) = (I + λ △ f) - 1 (x) = x - λ △ f (x) + o (λ)

也就是说，对于小的

λ，

proxλf(x) 收敛到一个梯度步骤，步长为

λ，可以解释为最小化函数

f的一个梯度步骤的近似.

上式公式的证明：
两个操作和的逆（inverse of sum of two operators）:
$(S + P) - 1 = S - 1 - S - 1 P (S + P) - 1$
只需要证明 (S+P)(S+P)−1=I，
则 (S−1−S−1P(S+P)−1)(S+P)=S−1(S+P)−S−1P(S+P)−1(S+P)
$= S - 1 (S + P) - S - 1 P = S S - 1 = I$
则： (I+λ▽f)−1=I−1−I−1(λ▽f)(I+λ△f)−1
再次带入：
(I+λ▽f)−1=I−1−I−1(λ▽f)(I−1−I−1(λ▽f)(I+λ▽f)−1)
(I+λ△f)−1=I−λ▽f+λ2△2f(I+λ▽f)−1
当 λ很小时，上式变为：
(I+λ△f)−1=I−λ▽f+o(λ)