1.数据处理

        在计算权值之前,需要对原始的数据进行一定的处理。

1.1 数据清洗

        数据的清洗是解决问题的第一步,包括缺失值处理和异常值处理两方面。

        对于缺失值,通常有三种可选的操作——删除、插补、不处理。其中插补的方式有很多,例如均值插补、固定值插补、最邻近插补、回归、插值(最常用)等等。

        对于异常值,处理方法与缺失值没有太大区别。相比缺失值,异常值处理最主要的部分在于如何判断数据是否异常。异常值判断可以通过箱型图、小波分析等方式来进行。

1.2 数据变换

        在进行数据变换之前,可以进行一些特征提取的工作,比如用PCA(主成分分析法)进行数据降维,得到独立的指标,这能够提高最终计算出的权值准确性。

        根据不同的需要,数据变换的具体方式也不同,常见的有归一化、标准化等。

        归一化:能够实现指标的一致化以及无量纲化。归一化操作针对不同类型的指标略有差异,但基本的原则是确定的,即把所有的指标转化为效益型指标。经过归一化后的数据相对均匀地分布在[0,1]区间内,相当于把数据压缩到0~1范围内。容易发现这个过程对于异常值是极度敏感的。

        标准化:标准化后的数据,其均值为0,标准差为1。

        个人感觉:归一化几乎是必做的,标准化、中心化等视具体情况而定。

不同方法的简单对比
 

图片来自:数据无量纲化处理(归一化VS标准化)

2. 三种赋权方法的比较

2.1 变异系数法

        变异系数法,也叫标准离差法,基本思想是计算每个指标下数据的方差Si,用Si除以各个Si的总和作为第i个指标的权重值,方差越大者权重也越大

        这种方法的优点是比较简单,也容易实现,能够有效区分各个指标。

        但它的缺点也是显著的——变异系数法的前提是各个指标重要性相当。指标方差越大只能说明该指标对不同方案的区分度很高,事实上并不能等同于指标的重要度。因此使用变异系数法时,对指标的选取有一定要求。

2.2 熵权法

        某种程度上与变异系数法很相似,但熵权法不是使用方差,而是用信息熵。

        可参考这篇博客:熵权法_wenxin_titanium的博客-CSDN博客_熵权法

2.3 CRITIC

        CRITIC的效果优于前两种方法,综合考虑了指标的对比强度与冲突性。但需要注意使用CRITIC则不宜进行标准化。

        可参考这篇博客:客观赋权法——CRITIC权重法_卖山楂啦prss的博客-CSDN博客_critic法

        

Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐