偏态分布

频数分布有正态分布和偏态分布之分。
正态分布是指多数频数集中在中央位置,两端的频数分布大致对称。统计数据峰值与平均值相等的频率分布。
偏态分布是指频数分布不对称,集中位置偏向一侧。统计数据峰值与平均值不相等的频率分布。
若集中位置偏向数值小的一侧,称为正偏态分布;集中位置偏向数值大的一侧,称为负偏态分布。如果频数分布的高峰向左偏移,长尾向右侧延伸称为正偏态分布,也称右偏态分布;同样的,如果频数分布的高峰向右偏移,长尾向左延伸则成为负偏态分布,也称左偏态分布

总结为:

  • 峰左移,右偏,正偏。
  • 峰右移,左偏,负偏。
    在这里插入图片描述

偏态分布平均数、中位数、众数的关系

左偏分布(负偏态)中:mean(平均数)<median(中位数)<mode(众数)

右偏分布(正偏态)中:mode(众数)<median(中位数)<mean(平均数)
这个关系是什么出来的呢,其实不太好理解,我也是想了很久才想出来的一个能让自己理解的方法,在这里分享一下。
首先我们看正态分布,正态分布的情况下,mode(众数)== median(中位数)== mean(平均数)
然后我们来看右偏,就是右边有尾巴的。相当于在正太分布的基础上右边增加了很大的异常值,我们知道异常值对均值影响大,对中位数影响小、对众数无影响。在正态分布的基础上在右边加上异常值,对众数没有影响,所以可以认为众数不变,还是正态分布的众数。由于异常值对均值和中位数都有影响,所以他们都会右移。但是平均值对异常值更敏感,右移更多,中位数对异常值不敏感(因为中位数是排序后在中间的数),右移更少。所以mode(众数)<median(中位数)<mean(平均数)。左偏是同样的道理。
注意这个解释只在大量的统计上有意义,如果就几个样本点,可能会出现反例。

参考博客:

  1. 左偏和右偏
  2. 一、何为数据的偏态分布?
Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐