1.介绍      

      在大型项目的数据分析中,由于数据来源的不同通常会导致数据的量纲、数据的量级产生差异,为了让这些数据具备可比性,需要采用标准化方法来消除这些差异。数据的标准化(normalization)就是指将原始各指标数据按比例缩放,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较加权数据标准化最典型的就是数据的归一化处理,即将数据统一映射到[0,1]区间上

      目前数据标准化方法有多种,归结起来可以分为直线型方法(如极值法、标准差法)、折线型方法(如三折线法)、曲线型方法(如半正态性分布)。不同的标准化方法,对系统的评价结果会产生不同的影响,然而不幸的是,在数据标准化方法的选择上,还没有通用的法则可以遵循。常见的方法有:min-max标准化(min-max normalization)log函数转换atan函数转换z-score标准化(zero-mena normalization,此方法比较常用)、模糊量化法。

      min-max标准化(min-max normalization)也叫离差标准化,是对原始数据的线性变换,使结果落到[0,1]区间,转换函数如下:其中max为样本数据的最大值,min为样本数据的最小值。这种方法有一个缺陷就是当有新数据加入时,可能导致max和min的变化,需要重新定义。log函数转换是通过以10为底的log函数转换以实现归一下,具体方法如下:y=log10(x)/log10(max),max为样本数据最大值,并且所有的数据都要大于等于1。atan函数转换用反正切函数实现数据的归一化:需要注意的是如果想使用这个方法映射到[0,1]的区间,则数据都应该大于等于0,小于0的数据将被映射到[-1,0]区间上。当然并非所有数据标准化的结果都需要映射到[0,1]区间上,这时就可以使用z-score标准化方法,该方法是SPSS中最为常用的标准化方法:z-score 标准化(zero-mean normalization)也叫标准差标准化,该方法使得经过处理的数据符合标准正态分布,即均值为0,标准差为1,其转化函数为:y=(x−μ)/σ,其中μ为所有样本数据的均值,σ为所有样本数据的标准差。 


2.三种最常用方法

下面介绍三种最常用的标准化方法:min-max法(规范化方法),z-score法(正规化方法),比例法。

方法1:min-max法(规范化方法)

      min-max法也叫离差标准化,是对原始数据的线性变换,使结果映射到[0,1]区间。

方法2:z-score法(正规化方法)

  • 这种方法基于原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。将A的原始值x使用z-score标准化到y。
  • z-score标准化方法适用于属性A的最大值和最小值未知的情况,或有超出取值范围的离群数据的情况。
  • SPSS默认的标准化方法就是z-score标准化。
  • z-score的简单化模型:y=1/(1+x) ,x越大证明y越小,这样就可以把很大的数规范在[0-1]之间了。

      在Excel中进行z-score标准化的步骤如下:
            1.求出各变量(指标)的算术平均值(数学期望)xi和标准差si ;
            2.进行标准化处理:zij=(xij-xi)/si
               其中:zij为标准化后的变量值;xij为实际变量值。
            3.将逆指标前的正负号对调。
      标准化后的变量值围绕0上下波动,大于0说明高于平均水平,小于0说明低于平均水平。

方法3:比例法(归一化方法)

  • 注意该方法是针对全部数据为正值的序列。
Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐