“傻瓜”学计量——熵值法（原理+excel stata python实现）

文章共2,110字 · 阅读需要大约8分钟

一键AI生成摘要，助你高效阅读

问答

nn坚持学stata+matlab

4672人浏览 · 2024-03-16 22:54:25

nn坚持学stata+matlab · 2024-03-16 22:54:25 发布

提纲：

1.熵权法的原理+步骤

2.excel实现 stata实现 python实现

建议先看excel,就是原理公式一步步算出来的

1.熵权法的原理

熵是信息理论中的概念，原本是用来衡量系统的无序程度，现在也可以用于度量数据所提供的有效信息。

熵权法是一种依据各指标值所包含的信息量的多少确定指标权重的客观赋权法。某个指标的熵越小，说明该指标值的变异程度越大，提供的信息量也就越多，在综合评价中起的作用越大，则该指标的权重也应越大。

2.熵值法步骤

（只需要知道步骤即可，无需理解所有数学公式的含义）

假设：存在i个样本观测值，最大值为n，j个评价指标，最大值为m。

1	数据标准化(归一法)	不同指标的衡量单位可能不一样，不能直接拿过来一起做运算，所以需要去除单位的影响，也就是所谓的消除量纲。正向指标的数值越大评价就越好，例如旅游外汇收入越高，城市的旅游竞争力就越强；反之，逆向（负向）指标的数值越大评价就越差。	第一步：区分正向指标与负向指标第二步：处理指标(极差法)：正向指标： $X^{'}_{ij}=\frac{X_{ij}-minX_{ij}}{maxX_{ij}-minX_{ij}}$ 负向指标： $X^{'}_{ij}=\frac{maxX_{ij}-X_{ij}}{maxX_{ij-minX_{ij}}}$
2	计算第j项指标下第i个样本值占该指标所有样本值之和的比重 $p_{ij}$	公式如右，分子为第j项指标下第i个样本值(标准化后的指标值)，分母为第j项指标下所有样本值之和。	$p_{ij}=\frac{X^{'}_{ij}}{\sum_{i=1}^{n}X^{'}_{ij}}$ $0 \leqslant p_{ij}\leqslant 1, i=1,...n, j=1,...m$
3	计算第j项指标的信息熵 $e_{j}$	计算公式如右→ 计算信息熵时会用到lnpij，这里需要保证pij大于0，所以用于计算pij的X′ij 不能为0（见第二步），而上述标准化处理的X′ij 可能会出现0值，所以需要对0值做平移变换，一般改为0.000001这样的很小的数值。 k的取值可以根据数据类型来确定，如果是面板数据可以取评价年份。	$e_{j}=-\frac{1}{lnk}\sum_{i=1}^{n}p_{ij}lnp_{ij}$ $0\leqslant e_{j}\leqslant 1, i=1...n, j=1...m$
4	计算信息熵冗余度dj	信息熵冗余度（差异性系数），用 $d_{j}$ 表示由于3中，熵值越小，该指标所携带的信息越多，熵值越大，该指标所携带的信息就越少。因此，第三步计算出来的熵值与信息含量成反比。为了更好观测数据含义，我们选择用1减去熵值，表示有用的信息含量，此时数值越大，信息含量就越多。	$d_{j}=1-e_{j}$ $0\leqslant d_{j}\leqslant 1,j=1,...m$
5	计算评价指标权重 $w_{j}$	每个指标的权重=信息熵冗余度/所有指标的信息熵冗余度之和利用信息熵冗余度来确定指标权重大小，信息熵冗余度越大，则指标权重越大。指标权重之和为1。	$w_{j}=\frac{d_{j}}{\sum_{j=1}^{m}d_{j} }$ $0\leqslant d_{j}\leqslant 1,j=1,...m$ $w_{1}+w_{2}+w_{3}+...w_{i}=1$
6	计算综合得分	基于标准化后的指标X′ij 及测算的指标权重wj，使用多重线性函数的加权求出综合得分S，综合得分的大小介于0到1之间。计算公式如右→	$S_{i}=\sum_{j=1}^{m}w_{j}X^{'}_{ij}$ $0\leqslant S_{i}\leqslant1, i=1,...n, j=1,...m$