逐步回归(Stepwise Regression)

逐步回归主要解决的是多变量共线性问题,也就是x_{1},x_{2},..,x_{m}不是线性无关的关系,它是基于变量解释性来进行特征提取的一种回归方法。

逐步回归的主要做法有三种:

(一)Forward selection:将自变量逐个引入模型,引入一个自变量后要查看该变量的引入是否使得模型发生显著性变化(F检验),如果发生了显著性变化,那么则将该变量引入模型中,否则忽略该变量,直至所有变量都进行了考虑。即将变量按照贡献度从大到小排列,依次加入。

步骤

(1)建立每个自变量与因变量的一元回归方程:y=a_{i}X_{i}+b_{i},i=1,2,..,m

(2)分别计算m个一元回归方程中的回归系数的检验统计量F,并求出最大值为F_{k_{1}}^{1}=\max \left\{F_{1}^{1}, F_{2}^{1}, \cdots, F_{m}^{1}\right\}

F_{k_{1}}^{1} \leq F_{\alpha}(1, n-2),停止筛选,否则将x_{k_{1}}选入变量集,此时可以将x_{k_{1}}看做x_{1},进入步骤(3)

(3)分别将自变量组(x_{1},x_{2}),(x_{1},x_{3}),...,(x_{1},x_{m})与因变量建立二元回归方程,(此时x_{1}是步骤2中的x_{k_{1}})计算方程中x_{2},x_{3},..,x_{m}的回归系数检验统计量F,取F_{k_{2}}^{2}=\max \left\{F_{2}^{2}, F_{3}^{2}, \cdots, F_{m}^{2}\right\},若F_{k_{2}}^{2} \leq F_{\alpha}(1, n-2-1)则停止筛选,否则将x_{k_{2}}选入变量集,此时将x_{k_{2}}看做x_{2}....如此迭代直到自变量的最大的F值小于临界值,此时回归方程就是最优的回归方程。

特点:自变量一旦选入,则永远保存在模型中;不能反映自变量选进模型后的模型本身的变化情况。

(2)Backward elimination:与Forward selection选择相反,在这个方法中,将所有变量放入模型,然后尝试将某一变量进行剔除,查看剔除后对整个模型是否有显著性变化(F检验),如果没有显著性变化则剔除,若有则保留,直到留下所有对模型有显著性变化的因素。即将自变量按贡献度从小到大,依次剔除。

步骤:

(1)建立全部x_{1},x_{2},..,x_{m}对因变量y的回归方程,对方程中的m个自变量进行F检验,取最小值为:F_{k_{1}}^{1}=\min \left\{F_{1}^{1}, F_{2}^{1}, \cdots, F_{m}^{1}\right\},若F_{k_{1}}^{1}>F_{\alpha}(1, n-m-1),则没有自变量可剔除,此时回归方程就是最优的;否则剔除x_{k_{1}},在此时可另x_{k_{1}}x_{m},进入步骤(2)

(2)建立x_{1},x_{2},..,x_{m-1}与因变量y的回归方程,对方程中的回归系数进行F检验,取最小值F_{k_{2}}^{2}=\min \left\{F_{1}^{2}, F_{2}^{2}, \cdots, F_{m-1}^{2}\right\},若F_{k_{2}}^{2}>F_{\alpha}(1, n-(m-1)-1),则无变量需要剔除,此时方程就是最优的,否则将x_{k_{2}}剔除,此时设x_{k_{2}}x_{m-1},...,一直迭代下去,直到各变量的回归系数F值均大于临界值,即方程中没有变量可以剔除为止,此时的回归方程就是最优的回归方程。

特点:自变量一旦剔除,则不再进入模型;开始把全部自变量引入模型,计算量过大。

(3)Bidirectional elimination:逐步筛选法。是在第一个的基础上做一定的改进,当引入一个变量后,首先查看这个变量是否使得模型发生显著性变化(F检验),若发生显著性变化,再对所有变量进行t检验,当原来引入变量由于后面加入的变量的引入而不再显著变化时,则剔除此变量,确保每次引入新的变量之前回归方程中只包含显著性变量,直到既没有显著的解释变量选入回归方程,也没有不显著的解释变量从回归方程中剔除为止,最终得到一个最优的变量集合。

因为没怎么看懂,所以不在这里写具体的步骤了,具体步骤可以参考:https://wenku.baidu.com/view/0cd259ae69dc5022aaea0043.html这个内容,找了很多这个是叙述比较好的。

AIC准则(Akaike Information Criterion):是一种是衡量统计模型拟合优良性(Goodness of fit)的一种标准。

 

参考:

[1] https://en.wikipedia.org/wiki/Covariance_matrix

[2]https://wenku.baidu.com/view/0cd259ae69dc5022aaea0043.html

[3]https://blog.csdn.net/songhao22/article/details/79369986

推荐内容
Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐