「机器学习」笔记2：支持向量机（SVM）原理、推导及Python代码实现

学习支持向量机时参考了很多大神的博客，和经典著作，从公式推导到代码实现，亲历亲为。遇到很多疑惑，也是各种百度+Google，虽然最后也差不多都解决了，但终归是因为数学基础不扎实。在这里做一个总结，以便以后复习。有些地方加入了我自己的理解，仅作参考。当然，如有疑问，请各位不吝赐教。线性不可分的情况和核函数的部分本文没有涉及。（主要是作者本人也不是很懂。。。参考文献及完整代码在文末。1....

陈小白233

1066人浏览 · 2020-03-31 22:59:45

陈小白233 · 2020-03-31 22:59:45 发布

学习支持向量机时参考了很多大神的博客，和经典著作，从公式推导到代码实现，亲历亲为。

遇到很多疑惑，也是各种百度+Google，虽然最后也差不多都解决了，但终归是因为数学基础不扎实。

在这里做一个总结，以便以后复习。

有些地方加入了我自己的理解，仅作参考。

当然，如有疑问，请各位不吝赐教。

线性不可分的情况和核函数的部分本文没有涉及。（主要是作者本人也不是很懂。。。

参考文献及完整代码在文末。

码字不易，不如点赞支持一下这个推公式推到头秃的博主？

文章目录

1. SVM解决的问题
2. 目标函数
3. 目标函数的优化
4 软间隔
5 代码
6 github 地址
7 参考文献
- 都看到这里了，不点赞支持一下头秃博主吗
- - - 扫码关注公众号即可获赠《机器学习》、《机器学习实战》电子书~

1. SVM解决的问题

SVM解决的问题是经典的二元分类问题。给出一个分类标准使得样本集可以被最好地分类。在样本特征是二维的情况下，可以用下图表示

在这里插入图片描述
上图是我用Python实现的SVM分类器的最终结果图。

中间的实线是我们最终需要的分割线，在三维及以上的情况下叫做划分超平面。

画圈的样本是距离分割线最近的样本，叫做支持向量，这也是支持向量机名字的由来。两条黄色的虚线之间的距离叫做间隔，显然，这个间隔越大，也就代表两边的样本离分割线越远，我们得到的分割线就越鲁棒。

SVM的最终目的就是求出分割线的所有参数，在这个过程中还要确定样本中的支持向量是哪些。

2. 目标函数

我们的目的是找到使间隔最大的支持向量和分割平面，那么下面就要找到间隔的数学表达，也就是目标函数。

首先，样本集表示为：
$D=\{(\boldsymbol x_1,y_i), (\boldsymbol x_2, y_2)...(\boldsymbol x_m,y_m)\}$
其中， $\boldsymbol x_i \in {\rm {R}}^n$ , $y_i\in\{+1, -1\}, i=1,2,...,m$ .
$\boldsymbol x_i$ 是n维向量，为了便于可视化，我们以二维为例。
划分超平面表示为：
$\boldsymbol w^T\boldsymbol x + b$
我们将这个超平面标记为 $(\boldsymbol w,b)$
样本点到超平面的距离表示为：
$\gamma=\frac{|\boldsymbol w^T\boldsymbol x+b|}{||\boldsymbol w||}$
假设超平面 $(\boldsymbol w, b)$ 可以将样本点正确分类，那么每个样本集中的点到超平面的距离 $\gamma_i$ 应该都大于等于支持向量（假设表示为 $\boldsymbol x_0$ ）到超平面的距离 $\hat \gamma$ :
$\frac{|\boldsymbol w^T\boldsymbol x_i+b|}{||\boldsymbol w||} \geq \frac{|\boldsymbol w^T\boldsymbol x_0+b|}{||\boldsymbol w||}, i=1,2,...m$
那么支持向量与超平面的间隔就是不等式右边的部分。但是它过于复杂，所以这里对 $(\boldsymbol w,b)$ 进行缩放变换，使得 $|\boldsymbol w^T\boldsymbol x_0+b| = 1$ 。这样处理对结果不会有影响，原因如下：

假设 $\boldsymbol w^T \boldsymbol x_0 + b = c, c \in R$ ，因为支持向量不在分割超平面上，所以 $\neq 0$ 。因此只要两边同除 $c$ 就可以了。

变换之后的不等式为：
$\frac{|\boldsymbol w^T\boldsymbol x_i+b|}{||\boldsymbol w||} \geq \frac{1}{||\boldsymbol w||}, i=1,2,...m$

两个异类支持向量之间的间隔表示为： ${2}/{||\boldsymbol w||}$ ，就是目标函数。对上式两边同时乘以 $||\boldsymbol w||$ 可得，对样本集 $D$ 的所有点满足：
$\begin{cases} \boldsymbol w^T \boldsymbol x_i + b \geq+1, y=+1 \\ \boldsymbol w^T \boldsymbol x_i + b \leq -1, y=-1 \end{cases}$
合并一下就是： $y_if(x_i)=y_i(\boldsymbol w^T \boldsymbol x_i + b) \geq 1$

《机器学习》书中对这部分的描述如下：
在这里插入图片描述
目标函数的数学表达：
$\max_{\boldsymbol w,b} \frac{2}{||\boldsymbol w||}$

为了方便计算，将上式取倒数，并对 $||\boldsymbol w||$ 取平方，得到最终需要优化的目标函数：
$\begin{aligned} & \min_{\boldsymbol w,b} \frac{1}{2}||\boldsymbol w||^2 \\[2ex] & \text{s.t. } y_i(\boldsymbol w^T \boldsymbol x_i + b) \geq 1, i=1,2,...m \end{aligned}$

3. 目标函数的优化

如果没有约束条件，这就是一个简单的多项式求极值的问题，只需令一阶导数等于零，二阶导数小于零求出 $\boldsymbol w$ 的所有元素即可。
但是有了约束条件就要使用些特殊方法，比如拉格朗日乘子法。

为什么要用拉格朗日乘子法？
在特征维度低的线性问题中是可以不使用的，具体参考：https://www.zhihu.com/question/36694952

3.1 拉格朗日乘子法（Lagrange Multiplier）

这里简单介绍一下拉格朗日乘子法及KKT条件的原理和使用。
对有一个等式约束的凸函数优化问题：
$\begin{aligned} & \min_{\boldsymbol x} f(\boldsymbol x) \\[2ex] & \text{s.t. } h(\boldsymbol x)=0 \end{aligned}$
在三维的情况下， $h(\boldsymbol x)=0$ 是一个曲面，这个曲面在坐标轴 x-y 平面上的投影是一条曲线，也就是，看起来和 x-y 平面 “垂直”。
$f(\boldsymbol x)$ 是一个凸函数，其与 $h(\boldsymbol x)$ 相交。
在这里插入图片描述
上图中红色代表 $f(\boldsymbol x)$ 的等值线，蓝色线代表 $h(\boldsymbol x)$ 在x-y平面上的投影。

而两个曲面相交的部分是一条曲线，这条曲线在 $f(\boldsymbol x)$ 曲面上的最低点（就是图中黄色的点）就是 $f(\boldsymbol x)$ 取最小值的点。

这个点一定与 $f(\boldsymbol x)$ 的某一条等值线相切。且在切点处两函数的梯度共线（可以同向或反向）。即存在 $\lambda \neq 0$ ，使得在最小值点处：
$\nabla f(\boldsymbol x^*) + \lambda \nabla h(\boldsymbol x^*) = 0$
其中， $\boldsymbol x^*$ 是最小值点。此时，令拉格朗日函数为：
$L(\boldsymbol x,\lambda)= f(\boldsymbol x) + \lambda h(\boldsymbol x)$
对该函数求导得：
$\nabla L(\boldsymbol x,\lambda)=\nabla f(\boldsymbol x) + \lambda \nabla h\boldsymbol (x)$
显然，当 $\boldsymbol x=\boldsymbol x^*$ 时， $\nabla L(\boldsymbol x,\lambda) = 0$ 。也就是说， $L(\boldsymbol x,\lambda)$ 与 $f(\boldsymbol x)$ 同时取得极小值。

也就是说，带有等式约束的优化问题转化为了不带约束条件的优化问题。

令 $L(\boldsymbol x, \lambda)$ 对 $\boldsymbol x,\lambda$ 的导数都为0就可以得到最小值。

3.2 KKT条件

以上方法适用于在约束为等式的情况。当约束为不等式时，即:
$\begin{aligned} & \min_{\boldsymbol x} f(\boldsymbol x) \\[2ex] & \text{s.t. } g(\boldsymbol x) \leq 0 \end{aligned}$
在这里插入图片描述
极小值点的位置存在以下两种情况（以一个不等式约束为例）：

极小值点在 $g(\boldsymbol x)<0$ 区域内，此时可以忽略约束条件直接对 $f(\boldsymbol x)$ 求极小值即可，相当于把上节中的 $\lambda$ 置零；
极小值点在边界 $g(\boldsymbol x)=0$ 上，此时与3.1节所述情况一样。唯一不同的是，在上图所示的极值点处， $f(\boldsymbol x)$ 与 $g(\boldsymbol x)$ 的梯度方向一定相反。（如果它们梯度方向相同，就可以继续向两者减小的方向优化）

将以上两种情况结合可得，存在 $\mu \geq 0$ 使得：
$\mu g(\boldsymbol x)=0$
由此引出 $f(\boldsymbol x)$ 取得极小值的充分必要条件，即KKT(Karush-Kuhn-Tucker)条件：
$\begin{cases} g(\boldsymbol x) \leq 0 \\ \mu \geq 0 \\ \mu g(\boldsymbol x)=0 \end{cases}$
原函数 $f(\boldsymbol x)$ 转化为与上节形式相同的拉格朗日函数。

将这几种情况结合起来，推广到具有多个不等式或等式约束的优化问题上：

对有有限个约束的最小化问题：
$\begin{aligned} & \min_{\boldsymbol x} f(\boldsymbol x) \\[2ex] \text{s.t. }& h_i(\boldsymbol x)=0, i=1,,2,...m \\[2ex] & g_j(\boldsymbol x)\leq 0,j=1,,2,...n \\[2ex] \end{aligned}$
其拉格朗日函数为：
$L(\boldsymbol x,\lambda_i)= f(\boldsymbol x) + \sum_{i=1}^m \lambda_i h_i (\boldsymbol x)+ \sum_{j=1}^n \mu_j g_j (\boldsymbol x)$

KKT条件为：
$\begin{cases} h_i(\boldsymbol x) =0 \\[2ex] g_j(\boldsymbol x) \leq 0 \\[2ex] \lambda_i, \mu_j \geq 0 \\[2ex] \mu_j g_j(\boldsymbol x)=0 \end{cases}$

3.3 对偶问题

现在我们回到第2节末尾，再看这个优化问题：
$\begin{aligned} & \min_{\boldsymbol w,b} \frac{1}{2}||\boldsymbol w||^2 \\[2ex] & \text{s.t. } y_i(\boldsymbol w^T \boldsymbol x_i + b) \geq 1, i=1,2,...m \end{aligned}$
这就是个适用于不等式约束的优化。拉格朗日函数如下：
$L(\boldsymbol w, b, \alpha) = \frac{1}{2}||\boldsymbol w||^2 + \sum_{i=1}^m{\alpha_i(1-y_i(\boldsymbol w^T \boldsymbol x_i + b))}， \alpha_i \geq 0$
若要求 $L(\boldsymbol w, b, \alpha)$ 的最小值则首先把 $\boldsymbol w, b$ 看作常量，对 $L(\boldsymbol w, b, \alpha)$ 求关于 $\alpha$ 的最大值。因为 $1-y_i(\boldsymbol w^T \boldsymbol x_i + b)$ 是小于等于0的，在 $\alpha_i \geq 0$ 的前提下，其最大值就是： $\frac{1}{2}||\boldsymbol w||^2$ 。

因此，原问题可写为：
$\min_{\boldsymbol w, b}\max_{\alpha_i}L(\boldsymbol w, b, \alpha)$
直接对该问题求解比较困难，因此这里引入对偶问题。

使用对偶问题求解的原因不止是为了计算方便，还是为线性不可分时核函数的引入作铺垫（本文不涉及这部分）。

先上结论：
$\min_{\boldsymbol w, b}\max_{\alpha_i}L(\boldsymbol w, b, \alpha)=\max_{\alpha_i}\min_{\boldsymbol w, b}L(\boldsymbol w, b, \alpha)$

也就是求取最大最小值的顺序发生了变化。从先对 $\alpha$ 求最大值变为先对 $\boldsymbol w, b$ 求最小值。

等式两边的问题互为对偶问题。

当然两个对偶问题同时取得最优解是有条件的，具体证明可以参考：https://www.cnblogs.com/90zeng/p/Lagrange_duality.html

转化为对偶问题后，令 $\boldsymbol w, b$ 的导数为0：
$\begin{cases} \cfrac{\partial L}{\partial \boldsymbol w}=\boldsymbol w-\sum_{i=1}^m\alpha_iy_i\boldsymbol x_i=0 \\[2ex] \cfrac{\partial L}{\partial b}=-\sum_{i=1}^m\alpha_iy_i=0 \end{cases}$
将上式代入 $L(\boldsymbol w, b, \alpha)$ 并化简可得：
$L(\boldsymbol w, b, \alpha)=\sum_{i=1}^m\alpha_i-\frac12\sum_{i=1}^m\sum_{j=1}^m\alpha_i \alpha_jy_iy_j\boldsymbol x_i^T\boldsymbol x_j$
化简过程如下：（公式太多还是手写吧emmm…）
在这里插入图片描述
化简后就只用求 $\alpha$ 即可。这样问题的复杂度就从与样本的维度有关变为只与样本数量有关了。

周志华的《机器学习》一书对这个最优解的几何意义有一段描述可以参考：
在这里插入图片描述

3.4 SMO(Sequential Minimal Optimazation)方法

上节最后得到的关于 $\alpha$ 的式子是一个二次规划问题，使用通用算法开销比较大。SMO方法是1998年提出的，用于求取SVM中的拉格朗日乘子，比通用算法更加高效。

其主要思想为，选取两个变量 $\alpha_i, \alpha_j$ ，固定其他参数，对这两个参数进行优化，然后重复这个过程。

Note：选取 $\alpha_i, \alpha_j$ 的标准：
在这里插入图片描述
不过博主有点懒，所以直接随机选取了。。。。需要深入了解可以参考《机器学习》（文末有下载方法~）

每次选取两个的原因是这些参数之间有约束 $\sum_{i=1}^m\alpha_iy_i=0$ ，只改变一个约束会被打破。

为了表示方便，记选取的两个参数为 $\alpha_1, \alpha_2$ ，固定除 $\alpha_1, \alpha_2$ 以外的参数：
$\alpha_1y_1+ \alpha_2y_2 =- \sum_{i\neq 1,2}\alpha_i y_i=\xi \\[2ex] \alpha_1 = y_1(\xi-\alpha_2y_2)$

带入 $L(\boldsymbol w, b, \alpha)$ 得：

为简便表示，下式中， $K_{ij} =\boldsymbol x_i^T\boldsymbol x_j$

$\begin{aligned} &L(\boldsymbol w, b, \alpha) \\[2ex] =& \sum_{i=1}^m\alpha_i-\frac12\sum_{i=1}^m\sum_{j=1}^m\alpha_i \alpha_jy_iy_jK_{ij} \\[2ex] =& \sum_{i\geq 3}^m\alpha_i + y_1\xi-\alpha_2y_1y_2 + \alpha_2 - \cfrac12 \sum_{i\geq 3}^m\sum_{j\geq 3}^m\alpha_i \alpha_jy_iy_jK_{ij} - \cfrac12(y_1\xi-\alpha_2y_1y_2)^2K_{11}-y_2\alpha_2(\xi-\alpha_2y_2)K_{12}-\cfrac12 \alpha_2^2 K_{22} \\[2ex] & -\sum_{i\geq 3}^m(\xi-\alpha_2y_2)\alpha_iy_iK_{1i} - \sum_{i\geq 3}^m\alpha_2y_2\alpha_iy_iK_{2i} \\[2ex] =& -\alpha_2y_1y_2 + \alpha_2 - \cfrac12(y_1\xi-\alpha_2y_1y_2)^2K_{11}-y_2\alpha_2(-\alpha_2y_2)K_{12}-\cfrac12 \alpha_2^2 K_{22} \\[2ex] & -\sum_{i\geq 3}^m(\xi-\alpha_2y_2)\alpha_iy_iK_{1i} - \sum_{i\geq 3}^m\alpha_2y_2\alpha_iy_iK_{2i}+ constant \\[2ex] =& -\alpha_2y_1y_2 + \alpha_2 - \cfrac12\alpha_2^2K_{11} + \alpha_2y_2\xi K_{11} - \alpha_2y_2\xi K_{12} + \alpha_2^2K_{12}-\cfrac12 \alpha_2^2 K_{22} \\[2ex] & +\sum_{i\geq 3}^m\alpha_2y_2\alpha_iy_iK_{1i} - \sum_{i\geq 3}^m\alpha_2y_2\alpha_iy_iK_{2i} + constant \\[2ex] \end{aligned}$
因为我们的最终目的是让 $L(\boldsymbol w, b, \alpha)$ 对 $\alpha_2$ 求导，而其他 $\alpha$ 已被固定，视为常数。且 $x, y$ 也都是已知常数，所以将上式中不含 $\alpha_2$ 的常数项合并为 $c o n s t a n t$ 。

下一步，令其 $\alpha_2$ 的导数为0：

$\cfrac{\partial L(\boldsymbol w, b, \alpha)}{\partial \alpha_2} = -y_1y_2 + 1 - \alpha_2K_{11} + y_2\xi K_{11} - y_2\xi K_{12} + 2\alpha_2K_{12}- \alpha_2 K_{22} + \sum_{i\geq 3}^my_2\alpha_iy_iK_{1i} - \sum_{i\geq 3}^my_2\alpha_iy_iK_{2i}=0$

由上节可知：
$\boldsymbol w=\sum_{i=1}^m\alpha_iy_i\boldsymbol x_i \\[2ex] f(\boldsymbol x_1)=\boldsymbol w^Tx_1+b=\sum_{i=1}^m\alpha_iy_iK_{1i} + b \\[2ex] f(\boldsymbol x_2)=\boldsymbol w^Tx_2+b=\sum_{i=1}^m\alpha_iy_iK_{2i} + b \\[2ex]$

注意到这个形式和上面的最后两项很相似，所以可以带进去计算。

但是需要注意的是这里的 $f(\boldsymbol x)$ 是常量（否则带入一个变量并不利于求导结果的计算），所以这里的 $f(\boldsymbol x)$ 中包含的 $\alpha_i(i=1,2,...,m)$ 是初始化时赋予的值，将其记作 $\alpha_2^{old}$ ；把其他的 $\alpha_2$ 看作待更新的变量，记作 $\alpha_2^{new}$ 。

$\begin{aligned} \cfrac{\partial L(\boldsymbol w, b, \alpha)}{\partial \alpha_2} = & -y_1y_2 + 1 - \alpha_2^{new}K_{11} + y_2\xi K_{11} - y_2\xi K_{12} + 2\alpha_2^{new}K_{12}- \alpha_2^{new} K_{22} \\[2ex] & +y_2[f(x_1)-(\xi - \alpha_2^{old}y_2)K_{11}- \alpha_2^{old}y_2K_{12} - b] - y_2[f(x_2)-(\xi - \alpha_2^{old}y_2)K_{12}- \alpha_2^{old}y_2K_{22} - b] \\[2ex] = & (-K_{11}-K_{22}+2K_{12})\alpha_2^{new} + (K_{11}+K_{22}-2K_{12})\alpha_2^{old}+1+y_1y_2+y_2[f(x_1)-f(x_2)] \\[2ex] = & 0 \end{aligned}$

令 $\eta=K_{11}+K_{22}-2K_{12}$ ，得：
$\cfrac{\partial L(\boldsymbol w, b, \alpha)}{\partial \alpha_2} = -\eta\alpha_2^{new}+\eta\alpha_2^{old} +1+y_1y_2+y_2[f(\boldsymbol x_1)-f(\boldsymbol x_2)]=0 \\[2ex] \alpha_2^{new} = \alpha_2^{old}+\cfrac{1+y_1y_2+y_2[f(\boldsymbol x_1)-f(\boldsymbol x_2)]}{\eta}$
同时，因为需要求最大值，所以还要求对 $\alpha_2$ 的二阶导小于零：

$\cfrac{\partial^2 L(\boldsymbol w, b, \alpha)}{\partial^2 \alpha_2} = -K_{11}-K_{22}+2K_{12} \leq 0 \\[2ex] \eta = K_{11}+K_{22}-2K_{12} \geq 0$

到这里为止， $\alpha_2$ 的更新已经完成， $\alpha_1$ 可以通过两者之间的约束求得。
$\alpha_1^{new}y_1 + \alpha_2^{new}y_2 = \alpha_1^{old}y_1 + \alpha_2^{old}y_2=\xi \\[2ex]$
最后一步，就是求解参数 $b$ 。
在这里插入图片描述
本文只采用了前一种方法，感兴趣的童鞋可以用（6.18）的方法试试，欢迎在评论区讨论~

具体操作如下：

假设更新过后的 $\alpha_2^{new} >0$ ，即该 $\alpha_2^{new}$ 对应的样本为支持向量，则满足 $y_2f^{new}(\boldsymbol x_2)=1$ ，结合更新之前的 $f(\boldsymbol x_2)$ ：

$\begin{cases} f(\boldsymbol x_2) = \sum_{i \geq 3}^{m}\alpha_iy_iK_{2i} + \alpha_1^{old}y_1K_{11}+\alpha_2^{old}y_2K_{12} + b^{old} \\[2ex] y_2(\sum_{i \geq 3}^{m}\alpha_iy_iK_{2i} + \alpha_1^{new}y_1K_{11}+\alpha_2^{new}y_2K_{12} + b^{new}) = 1 \end{cases}$
解得：
$b^{new}= y_2 - f(\boldsymbol x_2)-(\alpha_1^{new} - \alpha_1^{old})y_1K_{11} + (\alpha_2^{new} - \alpha_2^{old})y_2K_{12}$

4 软间隔

由于不是所有的数据集都可以完美的用一条线分割开，在两个类别中间可能会有个别样本点超过分割平面，使得数据集不能被完美分开。即便可以被分开，也有可能是过拟合造成的。

这时我们的算法需要对这些异常点进行容错，使其不影响数据集正常划分。

异常点的表示就是其不满足约束条件：

$y_i(\boldsymbol w^T \boldsymbol x_i + b) \geq 1$

不过我们希望不满足约束的样本越少越好，因此将原问题改为：

$\min_{\boldsymbol w, b}L(\boldsymbol w, b) =\min_{\boldsymbol w, b} \frac{1}{2} || \boldsymbol w ||^2 +C \sum_{i=1}^m{l_{0/1}(y_i(\boldsymbol w^T \boldsymbol x_i + b ) - 1)}$

$C > 0$ 是一个常数。当其取较大的值时，就迫使更多的样本趋于满足约束条件，取无穷大时就和原问题等价。

$l_{0/1}$ 叫做“0/1损失函数”，数学表示为：

$l_{0/1}(z) = \begin{cases} 1, & \text{if $z<0$ } \\[2ex] 0, & \text{else} \end{cases}$

但是它数学性质不好，不连续，所以我们用合页损失函数（Hinge loss）代替：

$l_{hinge}(z)=\max(0, 1-z)$

如下图（图片来自《机器学习》）：
在这里插入图片描述
此时，优化目标变为：

$\min_{\boldsymbol w, b} \frac{1}{2}||\boldsymbol w||^2 +C \sum_{i=1}^m{\max(0, 1 - y_i (\boldsymbol w^T \boldsymbol x_i + b))}$

这里有一个问题，按照合页损失函数的定义，把前面式子中的求和项带入，得到的结果应该是： $1-z=1-(y_i(\boldsymbol w^T \boldsymbol x_i + b ) - 1) = 2-y_i(\boldsymbol w^T \boldsymbol x_i+ b )$
个人理解是，根据我们要解决的问题对hinge损失函数做了改动：
$l_{hinge}(z)=\max(0, -z)$

优化目标里含有max()，显然不便于计算，所以这里引入“松弛变量(slack variables)” $\xi_i \geq 0$ ，表示每个样本不满足约束的程度。若样本 $x_i$ 满足约束，则对应的 $\xi_i = 0$ ；若不满足，则 $y_i (\boldsymbol w^T \boldsymbol x_i + b) \leq \xi_i$ 。优化目标可以重新写为：
$\begin{aligned} &\min_{\boldsymbol w, b} \frac{1}{2}||\boldsymbol w||^2 +C \sum_{i=1}^m{\xi_i} \\[2ex] \text{s.t. } & 1 - y_i (\boldsymbol w^T \boldsymbol x_i + b) \leq \xi_i \\[2ex] & \xi_i \geq 0 \end{aligned}$

和前面一样，重新使用拉格朗日乘子法。拉格朗日函数：

$L(\boldsymbol w, b, \alpha, \mu) = \frac{1}{2}||\boldsymbol w||^2 +C \sum_{i=1}^m{\xi_i} + \sum_{i=1}^m{\alpha_i(1-y_i(\boldsymbol w^T \boldsymbol x_i + b) - \xi_i)} - \sum_{i=1}^m\mu_i\xi_i，\\[2ex] \alpha_i,\mu_i \geq 0$

求解过程也和前面一样，贴个图：
在这里插入图片描述
和前面得到的结果对比一下，唯一不同的地方在于 $\alpha_i$ 的取值范围有了上界。这个上界来源于图片上的式（6.39），意义就是表示了算法对于样本点的容错程度。

5 代码

下面，我们将把以上的算法用Python程序实现。
首先我们对上面的算法步骤作一个总结，帮助我们理清思路：

整个SMO算法分为以下几个阶段：

选择 $\alpha_1, \alpha_2$
判断 $\eta = K_{11}+K_{22}-2K_{12} \geq 0$
计算 $\alpha_2^{new} = \alpha_2^{old}+\cfrac{1+y_1y_2+y_2[f(x_1)-f(x_2)]}{\eta}$
对 $\alpha_1, \alpha_2$ 做上下界限定，范围为 $[0, C]$
判断 $\alpha_2$ 的改变量是否足够大，太小视为不变
计算 $\alpha_1^{new} = \alpha_1^{old} + \alpha_2^{old}y_1y_2 - \alpha_2^{new}y_1y_2$
计算 $b$
重复以上步骤

5.1 数据集生成及一些辅助函数

写了一个简单的函数用来随机生成数据集。

指定一条曲线 $f (x)$ ，本例中是 $f (x) = x$ ，随机均匀生成100对数据，取值为[0, 10]，标为两个类别并画图表示。（为了突出两数据集的间隔，这里舍弃与分割线垂直距离小于1的点）

import matplotlib.pyplot as plt
import numpy as np

def generate_dataset():
    # np.random.seed(3)
    class1 = []; class2 = []
    label1 = []; label2 =[]
    # define decision line
    def f(x):
        return 1*x
    for _ in range(100):
        x = np.random.rand() * 10
        y = np.random.rand() * 10
        if y-f(x) > 1:
            class1.append([x, y])
            label1.append(1)
        elif y-f(x) < -1:
            class2.append([x, y])
            label2.append(-1)
    x1, y1 = zip(*[data for data in class1])
    x2, y2 = zip(*[data for data in class2])
    plt.plot(x1, y1, 'ro')
    plt.plot(x2, y2, 'bo')
    plt.axis([0,10,0,10])
    plt.show()
    return class1+class2, label1+label2

随机选择第2个参数的下标：

def select_j(i, m):
    j = i
    while(j == i):
        j = np.random.randint(0, m)
    return j

限制 $\alpha$ 的上下界：

def clip_alpha(aj, H: float, L:float):
    return min(max(L, aj), H)

已知 $\alpha$ 求 $\boldsymbol w$ ：

def get_W(alphas, dataset, label):
    a, x, y = map(np.array, [alphas, dataset, label])
    W = np.dot(a * y, x)
    # transform W form np.array to Python List
    return W.tolist()

5.2 主函数

简化版的SMO算法：

def smo_simple(dataset, labels, C, max_iter):
    data = np.array(dataset, dtype=np.float)
    label = np.array(labels, dtype=np.float)
    b = 0
    m, n = np.shape(data)
    alphas = np.zeros(m, dtype=np.float)
    iter = 0
    while iter < max_iter:
        alpha_pair_changed = 0
        for i in range(m):
            x_i, y_i = data[i], label[i]
            fx_i = np.dot(alphas*label, np.dot(data, x_i)) + b
            e_i = fx_i - y_i
            j = select_j(iter, m)
            x_j, y_j = data[j], label[j]
            fx_j = np.dot(alphas*label, np.dot(data, x_j)) + b
            e_j = fx_j - y_j

            # calculate a_j_new
            eta = np.dot(x_i, x_i) + np.dot(x_j, x_j) - 2*np.dot(x_i, x_j)
            if eta <= 0:
                print("eta <= 0, continue")
                continue
            a_i, a_j = alphas[i], alphas[j]
            a_j_new = a_j + y_j * (e_i - e_j) / eta

            # limit a_j_new to [0, C]
            if y_i == y_j:
                L = max(0., a_i + a_j - C)
                H = min(a_i + a_j, C)
            else:
                L = max(0., a_j - a_i)
                H = min(C - a_i + a_j, C)
            if L < H:
                a_j_new = clip_alpha(a_j_new, H, L)
            else:
                print("L >= H. (L, H) =", (L, H))
                continue

            # judge if a_j moves an enough distance
            if abs(a_j_new - a_j) < 0.00001:
                print("a_j has not moved enough, a_j_new - a_j = %f" % (a_j_new - a_j))
                continue

            # calculate a_i_new and update a_i, a_j
            a_i_new = (a_j - a_j_new)*y_i*y_j + a_i
            alphas[i], alphas[j] = a_i_new, a_j_new
            alpha_pair_changed += 1

            #calculate b
            b_i = -e_i + (a_i - a_i_new)*y_i*np.dot(x_i, x_i) + (a_j - a_j_new)*y_j*np.dot(x_i, x_j) + b
            b_j = -e_j + (a_i - a_i_new)*y_i*np.dot(x_i, x_j) + (a_j - a_j_new)*y_j*np.dot(x_j, x_j) + b
            # b = b_i if b_i == b_j else (b_i + b_j)/2
            if 0 < a_i_new < C:
                b = b_i
            elif 0 < a_j_new < C:
                b = b_j
            else:
                b = (b_i + b_j)/2

            print("(a_i, a_j) moved from (%f, %f) to (%f, %f)." % (a_i, a_j, a_i_new, a_j_new))


        if alpha_pair_changed == 0:
            print("Iteration %d of max_iter %d" % (iter+1, max_iter))
            iter += 1
        else:
            iter = 0

    return alphas, b

main函数：

dataset, label = generate_dataset()
# print(label)
alphas, b = smo_simple(dataset, label, C=6, max_iter=40)
print(alphas)
W = get_W(alphas, dataset, label)
print(W, b)

*5.3 使用matplotlib绘图

如果想要可视化计算结果，可以在main函数后添加以下代码：

class1, class2 = [], []
for data in zip(dataset, label):
    if data[1] == 1.0:
        class1.append(data[0])
    elif data[1] == -1.0:
        class2.append(data[0])
x11, x12 = zip(*class1)
x21, x22 = zip(*class2)
plt.plot(x11, x12, 'ro')
plt.plot(x21, x22, 'bo')

x = np.linspace(0, 10, 50)
y = -(W[0]*x + b)/W[1]
plt.plot(x, y)
for i in range(len(dataset)):
    if alphas[i] > 1e-3:
        xi_1, xi_2 = dataset[i][0], dataset[i][1]
        plt.scatter(xi_1, xi_2, s=150, c='none', linewidths=1.5, edgecolors='#1f77b4')
        x = np.linspace(0, 10, 50)
        y = -W[0]/W[1] * x + (xi_2 + W[0]/W[1] * xi_1)
        plt.plot(x, y, 'y--')
plt.show()

6 github 地址

https://github.com/chenyr0021/machine_learning_exercises

7 参考文献

《机器学习》，周志华
《机器学习实战》，Peter Harrington
简易解说拉格朗日对偶（Lagrange duality）
支持向量机系列（5）——SMO算法解对偶问题
SVM为什么能够求解对偶问题，求解对偶问题为什么和原问题一样？为什么要求解对偶问题？svm的公式是什么？如果线性不可分怎么办？
为什么支持向量机要用拉格朗日对偶算法来解最大化间隔问题？
机器学习算法实践-SVM中的SMO算法
支持向量机通俗导论（理解SVM的三层境界）

都看到这里了，不点赞支持一下头秃博主吗

知乎：@陈小白233
公众号：一本正经的搬砖日常

扫码关注公众号即可获赠《机器学习》、《机器学习实战》电子书~

在这里插入图片描述

亚马逊云科技技术品牌专区

更多推荐

STM32节点移植lorawan协议连接腾讯云物联网开发平台（IoT Explorer）

STM32移植lorawan协议连接腾讯云物联网开发平台（IoT Explorer）前言前言在移植协议之前，先给大家科普一下Lora 和 lorawan 的区别。LoRa 是LPWAN通信技术中的一种，是美国Semtech公司采用和推广的一种基于扩频技术的超远距离无线传输方案。这一方案改变了以往关于传输距离与功耗的折衷考虑方式为用户提供一种简单的能实现远距离、长电池寿命、大容量的系统，进而扩...

亚马逊云科技技术品牌专区

物联网主机E6000引领工业自动化的新篇章

亚马逊云科技技术品牌专区

搞 IoT 物联网，你居然要懂这么多种协议...

物联网协议是指在物联网环境中用于设备间通信和数据传输的协议。根据不同的作用，物联网协议可分为传输协议、通信协议和行业协议。传输协议：一般负责子网内设备间的组网及通信。例如 Wi-Fi、Ethernet、NFC、 Zigbee、Bluetooth、GPRS、3G/4G/5G等。这些协议能够确保在网络上传输的数据的安全性和可靠性。通讯协议：主要是运行在传统互联网TCP/IP协议之上的设备通讯协议，负责