回归问题-逐步回归(Stepwise Regression)

Foneone

78693人浏览 · 2020-02-07 15:56:19

Foneone · 2020-02-07 15:56:19 发布

逐步回归（Stepwise Regression）

逐步回归主要解决的是多变量共线性问题，也就是 $x_{1},x_{2},..,x_{m}$ 不是线性无关的关系，它是基于变量解释性来进行特征提取的一种回归方法。

逐步回归的主要做法有三种：

（一）Forward selection：将自变量逐个引入模型，引入一个自变量后要查看该变量的引入是否使得模型发生显著性变化（F检验），如果发生了显著性变化，那么则将该变量引入模型中，否则忽略该变量，直至所有变量都进行了考虑。即将变量按照贡献度从大到小排列，依次加入。

步骤：

（1）建立每个自变量与因变量的一元回归方程： $y=a_{i}X_{i}+b_{i},i=1,2,..,m$

（2）分别计算m个一元回归方程中的回归系数的检验统计量F，并求出最大值为 $F_{k_{1}}^{1}=\max \left\{F_{1}^{1}, F_{2}^{1}, \cdots, F_{m}^{1}\right\}$ ，

若 $F_{k_{1}}^{1} \leq F_{\alpha}(1, n-2)$ ，停止筛选，否则将 $x_{k_{1}}$ 选入变量集，此时可以将 $x_{k_{1}}$ 看做 $x_{1}$ ，进入步骤（3）

（3）分别将自变量组 $(x_{1},x_{2}),(x_{1},x_{3}),...,(x_{1},x_{m})$ 与因变量建立二元回归方程，（此时 $x_{1}$ 是步骤2中的 $x_{k_{1}}$ ）计算方程中 $x_{2},x_{3},..,x_{m}$ 的回归系数检验统计量F，取 $F_{k_{2}}^{2}=\max \left\{F_{2}^{2}, F_{3}^{2}, \cdots, F_{m}^{2}\right\}$ ，若 $F_{k_{2}}^{2} \leq F_{\alpha}(1, n-2-1)$ 则停止筛选，否则将 $x_{k_{2}}$ 选入变量集，此时将 $x_{k_{2}}$ 看做 $x_{2}$ ....如此迭代直到自变量的最大的F值小于临界值，此时回归方程就是最优的回归方程。

特点：自变量一旦选入，则永远保存在模型中；不能反映自变量选进模型后的模型本身的变化情况。

（2）Backward elimination：与Forward selection选择相反，在这个方法中，将所有变量放入模型，然后尝试将某一变量进行剔除，查看剔除后对整个模型是否有显著性变化（F检验），如果没有显著性变化则剔除，若有则保留，直到留下所有对模型有显著性变化的因素。即将自变量按贡献度从小到大，依次剔除。

步骤：

（1）建立全部 $x_{1},x_{2},..,x_{m}$ 对因变量y的回归方程，对方程中的m个自变量进行F检验，取最小值为： $F_{k_{1}}^{1}=\min \left\{F_{1}^{1}, F_{2}^{1}, \cdots, F_{m}^{1}\right\}$ ，若 $F_{k_{1}}^{1}>F_{\alpha}(1, n-m-1)$ ，则没有自变量可剔除，此时回归方程就是最优的；否则剔除 $x_{k_{1}}$ ，在此时可另 $x_{k_{1}}$ 为 $x_{m}$ ，进入步骤（2）

（2）建立 $x_{1},x_{2},..,x_{m-1}$ 与因变量y的回归方程，对方程中的回归系数进行F检验，取最小值 $F_{k_{2}}^{2}=\min \left\{F_{1}^{2}, F_{2}^{2}, \cdots, F_{m-1}^{2}\right\}$ ，若 $F_{k_{2}}^{2}>F_{\alpha}(1, n-(m-1)-1)$ ，则无变量需要剔除，此时方程就是最优的，否则将 $x_{k_{2}}$ 剔除，此时设 $x_{k_{2}}$ 为 $x_{m-1}$ ，...,一直迭代下去，直到各变量的回归系数F值均大于临界值，即方程中没有变量可以剔除为止，此时的回归方程就是最优的回归方程。

特点：自变量一旦剔除，则不再进入模型；开始把全部自变量引入模型，计算量过大。

（3）Bidirectional elimination：逐步筛选法。是在第一个的基础上做一定的改进，当引入一个变量后，首先查看这个变量是否使得模型发生显著性变化（F检验），若发生显著性变化，再对所有变量进行t检验，当原来引入变量由于后面加入的变量的引入而不再显著变化时，则剔除此变量，确保每次引入新的变量之前回归方程中只包含显著性变量，直到既没有显著的解释变量选入回归方程，也没有不显著的解释变量从回归方程中剔除为止，最终得到一个最优的变量集合。

因为没怎么看懂，所以不在这里写具体的步骤了，具体步骤可以参考：https://wenku.baidu.com/view/0cd259ae69dc5022aaea0043.html这个内容，找了很多这个是叙述比较好的。

AIC准则（Akaike Information Criterion）：是一种是衡量统计模型拟合优良性(Goodness of fit)的一种标准。

参考：

[1] https://en.wikipedia.org/wiki/Covariance_matrix

[2]https://wenku.baidu.com/view/0cd259ae69dc5022aaea0043.html

[3]https://blog.csdn.net/songhao22/article/details/79369986