光谱特征选择---连续投影算法SPA

作为光谱分析的重要环节，如何从冗余、复杂的变量中选取特征变量直接决定了预测模型的性能，在实际特征选择过程中，通常从两方面考虑特征选择的合理性：一是对目标变量y的解释性，二是不同自变量x间的冗余性，前者是考虑变量自身或变量组合的预测性能，后者考虑变量间的冗余问题，如何在保证对模型性能的同时减少变量冗余对于提高模型精度、降低过拟合风险和提高模型泛化性十分重要。本周分享连续投影算法（successive

文章共1,085字 · 阅读需要大约4分钟

一键AI生成摘要，助你高效阅读

问答

一条大咸咸鱼

19206人浏览 · 2022-05-16 11:27:56

一条大咸咸鱼 · 2022-05-16 11:27:56 发布

本周分享连续投影算法（successive projections algorithm，SPA），SPA算法2001年发表在Chemometrics and Intelligent Laboratory Systems期刊上，该算法原理简单，适用性较强，目前还有很多研究应用该方法进行分析。我们首先简单分析一下SPA的分析原理和关键步骤，然后给出代码，最后应用一个实例数据进行分析测试，完整代码及答疑在交流群，不在此展示。

1. SPA算法

SPA是一种前向迭代搜索方法，即从一个波长开始，然后在每次迭代中加入一个新变量，直至所选变量数达到设定值N。SPA的目的是选择光谱信息最少冗余的波长以解决共线性问题，其实现步骤可表示如下：

注意：对于波段数和起始位置的选择问题，可以通过对比不同参数的结果进行分析。

2. 代码分析

function [SelectedW] = SPA(SpecCal,Winitial,totN)% SpecCal 光谱矩阵（行为样品，列为波段）% Winitial 起始波段% totN 选择的波段总数% SelectedW 最终选择的波段[NoSp,Novab] = size(SpecCal);Varibs = 1:Novab;SelectedW = ones(1,totN);Specj = SpecCal;  Specn = SpecCal(:,Winitial);SelectedW(1) = Winitial;for n = 1:totN-1 %待确定变量数的循环    litW =SelectedW(1:n);    Jnotsel = setdiff(Varibs,litW);  %确定未映射变量    APSpecj = zeros(1,length(Jnotsel));    PSpecj = zeros(NoSp,Novab);    stP = 1;    for j = Jnotsel %未确定变量的循环        PSpecj(:,j) = Specj(:,j) - (Specj(:,j)'*Specn)*Specn*(Specn'*Specn)^(-1);                 APSpecj(stP) = norm(PSpecj(:,j));        stP = stP+1;    end    SelectedW(n+1) = Jnotsel(APSpecj==max(APSpecj));    Specn = SpecCal(:,SelectedW(n+1));    Specj = PSpecj;endend