拉格朗日松弛（一）——理论及算法

本篇博文综合现有的各种资料，系统性地介绍了拉格朗日松弛的基本理论和常见的变形。还介绍了拉格朗日松弛算法，包括次梯度优化算法和拉格朗日松弛启发式算法。

文章共25,303字 · 阅读需要大约85分钟

一键AI生成摘要，助你高效阅读

问答

狮子王123

21088人浏览 · 2022-01-06 10:47:01

狮子王123 · 2022-01-06 10:47:01 发布

背景

Marshall L.Fisher在1981年发表在《Management Science》上的《The Lagrangian Relaxation Method for Solving Integer Programming Problems》¹在2004年被评为“《Management Science》首个50年中十大最具影响力的主题之一”。

在中国知网中，以“拉格朗日松弛”作为关键词在“篇关摘”选项下检索，并对结果进行计量可视化分析可得到如下的图表。

中国知网发文量计量可视化分析从发文量这一指标可以看到，近10年涉及这一方法的论文显著增多。

中国知网主要主题分布
中国知网次要主题分布
从主要主题分布、次要主题分布中可以看到，在理论层面，该方法与动态规划、整数规划、凸优化和启发式算法等知识都有较为紧密的联系。在应用层面，该方法在机组组合、资源分配、调度、供应链和设施选址等领域都有应用。

拉格朗日松弛——理论

理论和算法部分内容参考资料²进行介绍，主要介绍拉格朗日松弛的思想、重要结论和拉格朗日松弛算法，结论的证明和更多内容可参考该书。除此之外，本文也吸纳了网上其他相关资料，帮助读者理解。

松弛的意思即为放松约束，对于一个标准化为求最小值的优化问题，放松约束会使得有可能得到目标函数值更小的解，换言之，松弛可以求得原问题的一个下界，这为评价其他算法的有效性提供了一种途径，也为原问题的求解提供了更多信息。

该方法常用在整数规划和混合整数规划中。

松弛方法主要有以下四种：线性规划松弛（将整数约束松弛至实数约束）、对偶规划松弛（求解对偶规划，根据弱对偶定理，求 $\text{max}$ 的对偶问题提供了求 $\text{min}$ 的原问题的一个下界）、代理松弛（通过组合多个约束减少约束的数量，如相加）和拉格朗日松弛。本篇博文介绍拉格朗日松弛。

拉格朗日松弛方法的基本原理：将造成问题难的约束吸收到目标函数中，并使得目标函数仍保持线性，使得变换后的问题可以在多项式时间求解或者尽管不能在多项式时间求解但由于规模较小而可以快速求解³，从而为原问题的求解提供帮助。
问题描述

如上图⁴所示（细线红框中应为 “ $\ge$ ” 和 “ $\le$ ” ，粗线红框中应为“lower”，“lower bound”表示下界），假设一个问题的约束可以分为两部分，即图中的 $A$ 和 $D$ （ $D_1$ 、 $D_2$ 、 $D_3$ ），它们的区别是 $D$ 只和某一部分变量有关，而 $A$ 和所有变量都有关，则 $A$ 就是上面所说的“造成问题难的约束”（也称复杂约束）。拉格朗日松弛就是将这个复杂约束放到了目标函数中。关于 $\lambda$ 为什么要求非负，可参见⁵。下图⁶可以帮助理解。

松弛后目标函数的理解
进一步地，已知拉格朗日松弛后的目标函数值 $z_{LR}$ 是原问题目标函数值 $z$ 的一个下界，由于需要尽可能地接近原问题的目标函数值，故可以对松弛后的问题 $z_{LR}$ 关于 $λ$ 求最大值（构成对偶问题，Dual Problem），得到的是所有下界中的最佳值 $z_{LD}$ （下图⁴红框中应为 $z_{LD}$ ）。
从拉格朗日松弛到求解对偶问题
拉格朗日松弛的用途如下⁶。
拉格朗日松弛用途
以上是拉格朗日松弛的基础理论，下面介绍一些常见的变形。

首先是等式约束的松弛。这里和“线性规划对偶问题中等式约束对应的对偶变量没有符号限制”以及“库恩-塔克条件（KKT条件）中等式约束对应的系数没有符号限制”的原理完全相同，等式约束松弛对应的系数也没有符号限制（两个非负的系数相减得到一个没有符号限制的系数）。

其次是拉格朗日分解。回顾上述问题⁴，不妨设 $n = 3$ ，与下面的示意图保持一致。
问题描述
则将松弛后的问题目标函数中的 $x$ 按照 $x_1$ 、 $x_2$ 和 $x_3$ 分解可以等价变换为如下的问题。
$\begin{array}{ll} z_{LR}(\lambda)=\text{minimize} & c_1^T x_1 +c_2^T x_2+c_3^T x_3+\lambda^T(A_1x_1+A_2x_2+A_3x_3-b) \\ \text{subject to} & D_1^T x_1 \le e_1 \\ & D_2^T x_2 \le e_2 \\ & D_3^T x_3 \le e_3 \\ & x_1, x_2, x_3 \in \Bbb{Z^n_+} \end{array}$ 进一步可将上述问题按照按照 $x_1$ 、 $x_2$ 和 $x_3$ 分解为三个子问题，由于目标函数和约束都是关于 $x_1$ 、 $x_2$ 和 $x_3$ 可分的，故这一步是等价变换。

子问题一：
$\begin{array}{ll} z_{LR1}(\lambda)=\text{minimize} & c_1^T x_1+\lambda^T(A_1x_1-b) \\ \text{subject to} & D_1^T x_1 \le e_1 \\ & x _1\in \Bbb{Z^n_+} \end{array}$ 子问题二：
$\begin{array}{ll} z_{LR2}(\lambda)=\text{minimize} & c_2^T x_2+\lambda^TA_2x_2 \\ \text{subject to} & D_2^T x_2 \le e_2 \\ & x _2\in \Bbb{Z^n_+} \end{array}$ 子问题三：
$\begin{array}{ll} z_{LR3}(\lambda)=\text{minimize} & c_3^T x_3+\lambda^TA_3x_3 \\ \text{subject to} & D_3^T x_3 \le e_3 \\ & x _3\in \Bbb{Z^n_+} \end{array}$ 分解后的子问题的目标函数值和原问题目标函数值有如下的关系。
$z_{LR1}(\lambda)+z_{LR2}(\lambda)+z_{LR3}(\lambda)=z_{LR}(\lambda) \le z$ 对偶问题如下。
$z_{LD}= \text{max}\space z_{LR1}(\lambda)+z_{LR2}(\lambda)+z_{LR3}(\lambda)$ 可以看到，在拉格朗日松弛的基础上，拉格朗日分解将原问题拆分为了不含复杂约束的子问题，从而可以通过求解较易的子问题来对原问题进行近似。

拉格朗日松弛——算法

拉格朗日松弛算法包含两部分内容：一方面是提供原问题的下界（求解 $z_{LD}$ ），另一方面则演变为拉格朗日松弛启发式算法。

次梯度优化算法

次梯度（subgradient）与梯度（gradient）十分相似，次梯度是函数在某些点处不可微时对梯度的一种扩展。引入次梯度是因为 $z_{LR}(\lambda)$ 是一个关于 $\lambda$ 的分段线性函数，这一点将在后续说明。

按照²中的编号介绍相关定义和定理如下，详细证明可参看之。

定义 7.4.1 函数 $g:\Bbb{R^m}\to\Bbb{R}$ 满足 $\begin{array}{ll} g(\alpha x^1+(1-\alpha)x^2)\ge\alpha g(x^1)+(1-\alpha)g(x^2) , \forall x^1, x^2\in \Bbb{R^m}, 0 \le \alpha \le1 \end{array}$ 则称 $g (x)$ 为凹函数。

定理 7.4.1 若经拉格朗日松弛后的问题（ $z_{LR}$ ）的可行解集合 $Q$ 是有限个整数点的集合，则目标函数 $\begin{array}{ll} z_{LR}(\lambda)=\text{min}\space c^T x+\lambda^T(Ax-b) \end{array}$ 是凹函数。（通过定义证明）

定理 7.4.2 可微函数 $g (x)$ 是凹函数的充分必要条件为 $\forall x^*\in\Bbb{R^m}$ ，存在 $s=(s_1,s_2,…,s_m)^T\in\Bbb{R^m}$ 使得 $\begin{array}{ll} g(x^*)+s^T(x-x^*)\ge g(x), \forall x\in\Bbb{R^m}. \end{array}$ （类比凸函数的一阶条件理解）

下图¹是定理 7.4.1结论的示意图（图中的 $u$ 即为 $\lambda$ ），随着 $\lambda$ 的变化， $z_{LR}(\lambda)$ 在不同的点 $x$ （ $x^1$ 、 $x^2$ 、 $x^3$ 、 $x^4$ ）处达到最小值，而当 $x$ 不变时， $z_{LR}(\lambda)$ 关于 $\lambda$ 是一线性函数，故总结来看 $z_{LR}(\lambda)$ 关于 $\lambda$ 是一分段线性函数，亦是凹函数。每段直线表示取最小值的 $x$ 点保持不变。
分段线性图示

定义 7.4.2 若函数 $g:\Bbb{R^m}\to\Bbb{R}$ 为凹函数，且在点 $x^*\in\Bbb{R^m}$ 处，向量 $s\in\Bbb{R^m}$ 满足 $\begin{array}{ll} g(x^*)+s^T(x-x^*)\ge g(x) , \forall x\in \Bbb{R^m} \end{array}$ 则称 $s\in\Bbb{R^m}$ 为函数 $g (x)$ 在 $x^*$ 处的一个次梯度。 $g (x)$ 在 $x^*$ 处的所有次梯度组成的集合记为 $\partial g(x^*)$ 。（直观理解，在一元函数的情况下，次梯度可以是函数在 $x^*$ 处左导数和右导数之间的任何一个值。）

定理 7.4.3 若 $g (x)$ 为凹函数， $x^*$ 为 $\text{max}\space\{g(x)|x\in\ \Bbb{R^m}\}$ 最优解的充分必要条件为 $0\in\partial g(x^*)$ 。

次梯度优化算法

STEP1：任选一个初始拉格朗日乘子 $\lambda^1$ ，并置 $t = 1$ .
STEP2：针对本次迭代的 $\lambda^t$ ，求解对偶问题内层的最小化问题，并从 $\partial z_{LR}(\lambda^t)$ 中任选一个次梯度 $s^t$ ；若 $s^t=0$ ，则 $\lambda^t$ 达到最优解而停止计算；否则 $\lambda^{t+1}=\text{max}\space\{\lambda^{t}+\theta_ts^t, 0 \}$ ，置 $t = t + 1$ , 重复STEP2。

实际应用中不可能迭代无穷多次，故必须给出 $\theta_t$ 的确定方法和算法停止的条件。

$\theta_t$ 的确定方法
实际计算的目的是尽快得到一个可以接受的下界，故常采用启发式的方法进行确定。主要有以下两类方法。
第一类方法是使 $\theta_t$ 以指数速度下降，迭代次数较少。更新公式如下。
$\theta_t=\theta_0\rho^t, 0\lt\rho\lt1$ 第二类方法的主要思想是用对偶问题的上下界的差修正 $\theta_t$ 变化的速度。更新公式如下。
$\theta_t=\frac{z_{UP}(t)-z_{LB}(t)}{||s^t||^2}\beta_t$ 式中 $0\le\beta_t\le2$ ，一般取 $\beta_0=2$ 。当 $z_{LR}(\lambda)$ 上升时， $\beta_t$ 不变，当 $z_{LR}(\lambda)$ 在给定的若干步没有变化时，则 $\beta_t$ 减半。 $z_{UP}(t)$ 为原问题最优目标值的一个上界（从而也是对偶问题的上界），可以用一个可行解确定，或者估计得到。 $z_{UP}(t)$ 可随 $t$ 的变化而逐步修正。 $z_{LB}(t)$ 是 $z_{LR}(\lambda^t)$ 的一个下界，一般取 $z_{LB}(t)=z_{LR}(\lambda^t)$ ，有时为了计算简单只取一个固定值。
算法停止的条件
算法停止的条件主要有以下四种。
第一种是迭代次数不超过 $T$ 。这是一种最为简单的原则，很容易控制计算的复杂性，但解的质量无法保证。
第二种是 $||s^t||\le\epsilon$ （ $\epsilon$ 为一较小的正数），这是对理想状态 $s^t=0$ 的一种近似。
第三种是 $z_{UP}(t)=z_{LB}(t)$ ，此时表明已经找到原问题的最优解，有 $z=z_{UP}(t)=z_{LB}(t)$ 。
第四种是 $\lambda^t$ 或 $z_{LR}(\lambda^t)$ 在规定的步数内变化不超过一个给定的值，这时可认为目标值不会再变化，因此停止计算。
具体应用中，可以采用以上停止条件之一，也可以综合运用。

拉格朗日松弛启发式算法

上述提到的内容中有这样一个结论⁴（红框中应为 $z_{LD}$ ）：对比左边的原问题和右边的对偶问题可以发现，求解对偶问题时可行域有所扩大，因此我们在求解对偶问题时得到的较优的解（由次梯度优化算法给出）可能并不是原问题的可行解，此时通常根据问题的特点采用启发式的方法将该解修正为原问题的可行解，整个过程构成了拉格朗日松弛启发式算法。
原问题和对偶问题比较

参考资料

Fisher, M.L. 1981. The Lagrangian Relaxation Method for Solving Integer Programming Problems. Management Science. 27(1) 1-18. ↩︎ ↩︎
邢文训, 谢金星. 现代优化计算方法（第2版）[M].清华大学出版社, 2005:210-242. ↩︎ ↩︎
王源. 拉格朗日松弛求解整数规划浅析（附Python代码实例） ↩︎
TransNET. 拉格朗日松弛问题 ↩︎ ↩︎ ↩︎ ↩︎
想问个问题，为什么拉格朗日乘数法的乘子要大于0？ ↩︎
拉格朗日松弛 PPT ↩︎ ↩︎

GitCode 开源社区

旨在为数千万中国开发者提供一个无缝且高效的云端环境，以支持学习、使用和贡献开源项目。

更多推荐

【目标检测】目标检测的一些常用神经网络模型及方法

我的阶段性总结????文章目录1.概述1.2 目标检测的任务1.3 目标检测的分类2.R-CNN系列2.1 [R-CNN（Region with CNN features）](https://arxiv.org/pdf/1311.2524.pdf)2.2 [Fast R-CNN](https://www.cv-foundation.org/openaccess/content_iccv_2015/