机器学习——四大线性回归模型详解（包含理论讲解+公式推导，非常适合初学者！）

对一元线性回归、多元线性回归、对数线性回归、对数几率线性回归模型的理论进行分析、对公式进行了详细的推导，对重难点进行了讲解，十分适合初学机器学习的人群！

交通数据小杨同学

11754人浏览 · 2022-08-16 14:51:28

交通数据小杨同学 · 2022-08-16 14:51:28 发布

文章目录

1 线性回归模型

1 线性回归模型

线性模型概念：通过数据学习得到一个通过自变量的线性组合来进行预测因变量的函数
$y=w_1x_1+w_2x_2+\cdots +w_nx_n+b\tag{1.1}$
大多数所见到的均为向量形式，如下：
$y=w^Tx+b\tag{1.2}$

1.1 一元线性回归(Simple linear regression)

已知数据集 $D=\left \{ (x_1,y_1),(x_2,y_2),\cdots ,(x_n,y_n) \right \}$ ，仅存在一个自变量 $x$ 与一个因变量 $y$ 。

对于一元线性回归我们试图学得：
$f(x_i)=\bold{wx_i}+b,使得f(\bold{x_i})\approx y_i\tag{1.1.1}$
因此确定 $w$ 与 $b$ 是主要的问题，并且上式表明 $f(x_i)与y$ 之间的差别需要尽可能的小，在回归任务中常用均方误差作为性能度量，故我们可以尝试让均方误差最小：
$\begin{aligned} (w^*,b^*)&=arg\underset{(w,b)}{min} \sum_{i=1}^{m}(f(x_i) -y_i)^2 \\&=arg\underset{(w,b)}{min} \sum_{i=1}^{m}(y_i-wx_i-b)^2\tag{1.1.2} \end{aligned}$
注：上式 $arg\underset{(w,b)}{min}$ 的含义就是求得均方误差 $\sum_{i=1}^{m}(f(x_i) -y_i)^2$ 最小值时所对应的 $w$ 与 $b$ 的值。
这种基于均方误差最小化的模型称为 $\bold{“最小二乘法”}$ ，此处均方误差的公式恰好对应了 $\bold{欧式距离^1}$ ，该算法的目的就是试图找到一条直线，使得样本点欧式距离直线之和最小。

1.欧式距离：假设二维平面存在两点 $A(x_1,y_1)、B(x_2,y_2)$ ，两点之间的欧式距离为
$d=\sqrt{(x_1-x_2)^2+(y_1-y_2)^2} \tag{1.1.3}$
三维空间下的欧式距离为：
$d=\sqrt{(x_1-y_1)^2+(x_2-y_2)^2+\cdots+(x_n-y_2)^2} \tag{1.1.4}$
推广到N维空间下，如下式：
$d=\sqrt{(x_2-x_1)^2+(y_2-y_2)^2+(z_2-z_1)^2}\tag{1.1.5}$
求解 $w$ 与 $b$ 的过程，实际上是求函数 $E(w,b)=\sum_{i=1}^{m}(y_i-wx_i-b)^2$ 最小化的过程，该过程称为最小线性回归的最小二乘参数估计（Parameter Estimation）。

根据高等数学的知识我们可以知道，对于一个多元函数求最值，是对参数求偏导，并令其偏导为0，故有以下的数学过程：

$\begin{aligned} \frac{\partial E(w,b)}{\partial w}&=\frac{\partial }{\partial x}[\sum_{i=1}^{m}(y_i-wx_i-b)^2] \\&=2*(-x_i)[\sum_{i=1}^{m}(y_i-wx_i-b)^{2-1}] \\&=\sum_{i=1}^{m}-2x_iy_i+2wx_i^{2} +2bx_i \\&=2[w\sum_{i=1}^{m}x_i^2-\sum_{i=1}^{m}(y_i-b)x_i]\tag{1.1.6} \end{aligned}$
$\begin{aligned} \frac{\partial E(w,b)}{\partial b}&=\frac{\partial }{\partial x}[\sum_{i=1}^{m}(y_i-wx_i-b)^2] \\&=2*(-1)[\sum_{i=1}^{m}(y_i-wx_i-b)^{2-1}] \\&=\sum_{i=1}^{m}[2*(b-y_i+wx_i)] \\&=2[\sum_{i=1}^{m}b-\sum_{i=1}^{m}y_i+\sum_{i=1}^mwx_i] \\&=2[mb-\sum_{i=1}^m(y_i-wx_i)]\tag{1.1.7} \end{aligned}$
最终得到对于 $w$ 、 $b$ 偏导为：
$\frac{\partial E(w,b)}{\partial w}=2[w\sum_{i=1}^{m}x_i^2-\sum_{i=1}^{m}(y_i-b)x_i]\tag{1.1.8}$
$\frac{\partial E(w,b)}{\partial b}=2[mb-\sum_{i=1}^m(y_i-wx_i)]\tag{1.1.9}$
分别令： $\frac{\partial E(w,b)}{\partial w}=0，\frac{\partial E(w,b)}{\partial b}=0$
解得：
$\begin{aligned} b&=\frac{1}{m}\sum_{i=1}^m(y_i-wx_i) ，w=\frac{\sum_{i=1}^my_i(x_i-\bar{x})}{\sum_{i=1}^mx_i^2-\frac{1}{m}(\sum_{i=1}^mx_i)^2}\tag{1.1.10} \end{aligned}$
就此，我们得到了一元线性回归模型的解。

1.2 多元线性回归(Multivariate linear regression)

已知数据集 $D=\left \{ (x_1,y_1),(x_2,y_2),\cdots ,(x_n,y_n) \right \}$ ，其中 $x_i={(x_{i1},x_{i2},\cdots ,x_{id})}$

更多情况下，数据集并非单个属性，而是由多个属性构成，此时称为多元线性回归。

对于多元线性回归我们试图学得：
$f(x_i)=\bold{w^Tx_i}+b,使得f(\bold{x_i})\approx y_i$
其中 $X$ 为 $(N\times d)$ 维向量，而由于常数项的存在导致 $W$ 维度为 $(N+1)\times 1$
$X=\begin{pmatrix} x_{11}& \cdots& x_{1d}& \\ x_{21}& \cdots& x_{2d}& \\ \cdots& \cdots& \cdots& \\ \cdots& \cdots& \cdots& \\ x_{n1}& \cdots& x_{1d}& \end{pmatrix} w=\begin{pmatrix} w_0\\ w_1\\\cdots \\w_{n-1} \\w_n \end{pmatrix}$
为了方便运算，我们在 $X$ 后增加一列，其值均为1，得到
$X=\begin{pmatrix} x_{11}& \cdots& x_{1d}&1 \\ x_{21}& \cdots& x_{2d}& 1\\ \cdots& \cdots& \cdots&\cdots \\ \cdots& \cdots& \cdots& \cdots\\ x_{n1}& \cdots& x_{1d}&1 \end{pmatrix}$
该步骤的目的是为了将偏置 $b$ 合并至 $w$ ，便于后续的求解运算。

与此同时，我们将 $y$ 写成向量的形式 $y=(y_1;y_2;y_3;\dots;y_n)$ ，类似于式(1.1.2)，我们得到
$\bold{\hat{w}}^*=\arg \underset{\hat{w}}{\min} (\bold{y-X\hat{w})^T(y-X\hat{w})}$
令 $E(\hat{w})=\bold{(y-X\hat{w})^T(y-X\hat{w})}$ ，对 $\hat{w}$ 求偏导:
$\frac{\partial E(w)}{\partial x} =2\bold{X^T(X\hat{w}-y)}$
令上式=0，最终得到 $w$ 的解为：
$\bold{w=(X^TX)^{-1}X^Ty}$
注意，该解只适用于满秩矩阵，但实际我们往往遇到的不是满秩矩阵，遇到的变量数目超过样本量，导致 $X$ 的列数大于行数，此时就需要引入正则项。

1.3 对数线性回归(Log linear regression)

$：lny=w^Tx+b \tag{1.3.1}$
在这里插入图片描述

该形式实际上是使得 $e^{w^Tx+b}$ 逼近 $y$ ，更一般的情况我们可以考虑单调可微函数 $g(\cdot)$ ，令
$y=g^{-1}(w^Tx+b)\tag{1.3.2}$
这样得到的模型称为“广义线性模型”（generalized linear model），其中 $g(\cdot)$ 称为联系函数，模型中的 $g^{-1}$ 为 $g(\cdot)$ 的反函数，此处要注意的是 $w^Tx+b$ 为函数的自变量，而并非 $g^{-1}$ 与 $w^Tx+b$ 的乘积

1.4 对数几率回归(Logistic Regression）

对数几率回归也称逻辑回归，是用于处理二分类任务的，其输出值 $y\in \left \{ 0,1 \right \}$

一般线性回归模型 $y=w^Tx+b$ 的输出值为实值，因此我们需要考虑将这些实值转化为0-1值，此处就需要用到对数几率函数（Logistic function）：
$y=\frac{1}{1+e^{-z}}\tag{1.4.1}$
该函数是一种 $S i g m o i d$ 函数，它能够很好地将输出值转化为[0,1]间的值，该函数具有如下的特性：当 $x$ 趋近于负无穷时， $y$ 趋近于 $0$ ；当 $x$ 趋近于正无穷时， $y$ 趋近于1；当 $x = 0$ 时， $y = 1/2$

其函数如下图：

在这里插入图片描述

为了满足二分类任务的要求，我们将对数几率函数作为 $g(\cdot)^{-1}$ 代入广义线性模型中得到对数几率回归模型：
$y=\frac{1}{1+e^{-(w^Tx+b)}}\tag{1.4.2}$
此处为了便于计算，类似于章节1.2中的处理方法，令 $\beta=(w;b),\hat{x}=(x;1)$ 将偏置项 $b$ 合并至 $w$ 中，则 $w^Tx+b$ 可写为 $\beta^Tx$ 。

故模型变化为：
$y=\frac{1}{1+e^{-\beta^Tx}}\tag{1.4.3}$

像对数线性回归一样，我们对两边同时取对数：
$\begin{aligned} \ln y&=\ln \frac{1}{1+e^{-\beta^Tx}}\tag{1.4.4}\\ \ln y&=\ln {\frac{e^{\beta^Tx}}{1+e^{\beta^Tx}}}\\ \ln y&=\ln e^{\beta^Tx}-\ln (1+e^{\beta^Tx})\\ \beta^Tx&=\ln y+\ln (1+e^{\beta^Tx}) \end{aligned}$

接下来对公式(1.4.4)进行化简，已知：
$\begin{aligned} y&=\frac{1}{1+e^{-\beta^Tx}}\\ &=\frac{e^{\beta^Tx}}{1+e^{\beta^Tx}} \end{aligned}$
容易得到：
$\begin{aligned} 1-y&=1-\frac{1}{1+e^{-\beta^Tx}}\\ &=\frac{1+e^{-\beta^Tx}}{1+e^{-\beta^Tx}}-\frac{1}{1+e^{-\beta^Tx}}\\ &=\frac{e^{-\beta^Tx}}{1+e^{-\beta^Tx}}\\ &=\frac{1}{1+e^{\beta^Tx}}=(1+e^{\beta^Tx})^{-1} \end{aligned}$
同时对两边取对数：
$\begin{aligned} \ln (1-y)&=\ln (1+e^{\beta^Tx})^{-1}\\ \ln (1-y)&=-\ln (1+e^{\beta^Tx})\\ -\ln(1-y)&=\ln (1+e^{\beta^Tx})\tag{1.4.5} \end{aligned}$
回到公式(1.4.4)，将公式(1.4.5)代入得到：
$\begin{aligned} \beta^Tx&=\ln y+\ln (1+e^{\beta^Tx})\\ \beta^Tx&=\ln y -\ln (1-y)\\ \tag{1.4.6} \end{aligned}$

最终通过化简得到：
$\beta^Tx=\ln {\frac{y}{1-y}}\tag{1.4.7}$
若将 $y$ 视为正实例 $(y = 1)$ 的概率，那么 $1 - y$ 即为负实例 $(y = 0)$ 的概率，此处 $\frac{y}{1-y}$ 称为几率；自然地， $ln\frac{y}{1-y}$ 称为对数几率。

通过式(1.4.7)我们可以观察得到，该模型是通过线性回归模型的预测值逼近真实标记的对数几率，因此称为对数几率回归，确定式中的 $\bold{\beta}$ 是核心问题：

在概率统计中我们知道，对于两个独立事件 $A$ 与 $B$ 有: $P (A ∣ B) = P (A)$
故得到:
$\begin{aligned} y=1的概率&：P(y=1丨\bold{x})=y\\ y=0的概率&：P(y=0丨\bold{x})=1-y \end{aligned}$
将公式(1.4.3)代入容易得到，
$\begin{aligned} P(y=1丨\bold{x})&=\frac{1}{1+e^{-\beta^T\bold{x}}}=\frac{e^{\beta^T\bold{x}}}{1+e^{\beta^T\bold{x}}}=h({\beta^Tx)} \\P(y=0丨\bold{x})&=1-\frac{1}{1+e^{-\beta^T\bold{x}}}=\frac{1}{1+e^{\beta^T\bold{x}}}=1-h({\beta^Tx)}\tag{1.4.8} \end{aligned}$
根据 $0 - 1 分布$ 的公式，我们将上式合并得到：
$P(y=y_i丨\bold{x})=h({\beta^Tx)}^{y_i}[1-h({\beta^Tx)}]^{1-y_i}$
为了求解 $w$ 与 $b$ ，我们采用极大似然估计法来对参数 $w$ 与 $b$ 进行估计：

1. 写出似然函数
$\begin{aligned} L(\beta)&=\prod_{i=1}^{n}p(y_i丨x_i,w,b)\\ &=\prod_{i=1}^{n}h({\beta^Tx)}^{y_i}[1-h({\beta^Tx)}]^{1-y_i}\tag{1.4.9} \end{aligned}$
2. 写出对数似然函数
$\begin{aligned} ln[L(\beta)]&=\sum_{i=1}^{n}lnh({\beta^Tx)}^{y_i}\left \{ [1-h({\beta^Tx)}]^{1-y_i} \right \}\\ &=\sum_{i=1}^{n}lnh({\beta^Tx)}^{y_i}+ln[1-h({\beta^Tx)}]^{1-y_i}\\ &=y_i\sum_{i=1}^{n}lnh(\beta^Tx)+(1-y_i)\sum_{i=1}^{n}ln[1-h({\beta^Tx)}]\\ &=y_i\sum_{i=1}^{n}ln\frac{e^{\beta^Tx_i}}{1+e^{\beta^Tx_i}}+(1-y_i)\sum _{i=1}^{n}ln\frac{1}{1+e^{\beta^Tx_i}}\\ &=y_i\sum_{i=1}^{n}[lne^{\beta^T\bold{x_i}}-ln(1+e^{\beta^T\bold{x_i}})]+(1-y_i)(-1)\sum _{i=1}^{n}ln(1+e^{\beta^Tx_i})\\ &=y_i\sum_{i=1}^{n}lne^{\beta^Tx_i}-y_i\sum _{i=1}^{n}ln(1+e^{\beta^Tx_i})-\sum _{i=1}^{n}ln(1+e^{\beta^Tx_i})+y_i\sum _{i=1}^{n}ln(1+e^{\beta^Tx_i})\\ &=y_i\sum_{i=1}^{n}lne^{\beta^Tx_i}+y_i\sum _{i=1}^{n}ln(1+e^{\beta^Tx_i})\\ &=y_i(\beta^Tx_i)-\sum _{i=1}^{n}\ln(1+e^{\beta^Tx_i})\tag{1.4.10} \end{aligned}$
3. 最大化对数似然函数
$\begin{aligned}\max ln[L(\beta)]=\max \left \{{y_i(\beta^Tx_i)-\sum _{i=1}^{n}\ln(1+e^{\beta^Tx_i})} \right \}\tag{1.4.11} \end{aligned}$
进而，我们对原问题进行转化，将最大化问题转换为最小化问题
$\max ln[L(\beta)]\Longrightarrow \min \left \{ -ln[L(\beta)] \right \}$
令：
$\begin{aligned} \ell (\beta)&=-ln[L(\beta)]\\ &=-y_i(\beta^Tx_i)+\sum _{i=1}^{n}\ln(1+e^{\beta^Tx_i})\tag{1.4.12} \end{aligned}$
于是得到：
$\beta ^*=\arg \underset{\beta}{\min}\ell(\beta)\tag{1.4.13}$
接下来的任务就是利用最优化理论求解其最优解，经典的数值优化算法有牛顿法（Newton method）、梯度下降法(gradient descent method)。

如果内容对各位有帮助的话，麻烦点个赞与关注，后续会不断更新机器学习理论推导与代码实战的相关内容，十分感谢！

亚马逊云科技技术品牌专区

更多推荐

STM32节点移植lorawan协议连接腾讯云物联网开发平台（IoT Explorer）

STM32移植lorawan协议连接腾讯云物联网开发平台（IoT Explorer）前言前言在移植协议之前，先给大家科普一下Lora 和 lorawan 的区别。LoRa 是LPWAN通信技术中的一种，是美国Semtech公司采用和推广的一种基于扩频技术的超远距离无线传输方案。这一方案改变了以往关于传输距离与功耗的折衷考虑方式为用户提供一种简单的能实现远距离、长电池寿命、大容量的系统，进而扩...

亚马逊云科技技术品牌专区

物联网主机E6000引领工业自动化的新篇章

亚马逊云科技技术品牌专区

搞 IoT 物联网，你居然要懂这么多种协议...

物联网协议是指在物联网环境中用于设备间通信和数据传输的协议。根据不同的作用，物联网协议可分为传输协议、通信协议和行业协议。传输协议：一般负责子网内设备间的组网及通信。例如 Wi-Fi、Ethernet、NFC、 Zigbee、Bluetooth、GPRS、3G/4G/5G等。这些协议能够确保在网络上传输的数据的安全性和可靠性。通讯协议：主要是运行在传统互联网TCP/IP协议之上的设备通讯协议，负责