箱线图(Box-plot)又称盒须图、盒式图或箱形图,用来反映一组或多组连续型定量数据分布的中心位置和散布范围,因形状如箱子而得名,在数据分析中经常被使用到,可以被用于异常值的检测。

(注:连续型数据:在一定区间内可以任意取值的变量叫连续变量,其数值是连续不断的。例如,生产零件的规格尺寸,人体测量的身高、体重等,其数值只能用测量或计量的方法取得。可视化这类数据的图表主要有箱形图和直方图。离散型数据:数值只能用自然数或整数单位计算的则为离散变量。例如,企业个数,职工人数,设备台数等,只能按计量单位数计数,数值一般用计数方法取得。大多数图表可视化的都是这类数据,比如柱状图、折线图等。针对离散型变量的两种重要图形是:柱状图和饼图。)

  1. 中位数(Q2 / 50th百分位数):数据集的中间值;代表了样本数据的平均水平。

  1. 第一个四分位数(Q1 / 25百分位数):最小数(不是“最小值”)和数据集的中位数之间的中间数;

  1. 第三四分位数(Q3 / 75th Percentile):数据集的中位数和最大值之间的中间值(不是“最大值”);

  1. 四分位间距(IQR):第25至第75个百分点的距离;也即盒子的大小/箱体长度,四分位差IQR=Q3-Q1,箱子包含了50%的数据,箱子的高度在一定程度上反映了数据的波动程度,箱体越扁说明数据越集中。

  1. 在箱子的上方和下方的线代表最大最小值,端线(也就是“须”)越短也说明数据集中。

上边缘:Q3+1.5IQR=max{xi:xi≤Q3+1.5IQR}

下边缘:Q1-1.5IQR=min{xi:xi≥Q1-1.5IQR}

  1. 如果数据有存在离群点即异常值,他们超出上下边缘,此时将离群点以“圆点”形式进行展示;异常值的确定是根据上下边缘来的,是先有的上下边缘,再有的异常值,超过上下边缘的点被称为异常值点。

  1. 极差=最大观测值-最小观测值(是那两条线,最值不包含异常值)

特别说明:箱盒图里面的最大观测值(上边缘值)并不一定是数据中的最大值,最小观测值(下边缘值)也不一定是最小值。

通过计算这些统计量,生成一个箱体图,箱体包含了大部分的正常数据,而在箱体上边界和下边界之外的,就是异常数据。

箱线图在数据异常值监测、数据偏态与尾态检测和多组数据对比方面均有优势,可以宏观的展示数据是否具有对称性和数据的分散程度。箱线图不绘制实际的数值,通常是展示分布的统计概况,可以从宏观上展现总体样本的整体分布信息,并且发现异常值点。

例1:上边缘公式计算值大于等于数据集最大值,并且下边缘公式计算值小于等于公式最小值,那么此时就没有异常值。

例2:上边缘公式计算值小于数据集最大值,并且下边缘公式计算值大于公式最小值,那么此时上下边缘外均存在异常值。

四分位数

一组数据按照从小到大顺序排列后,把该组数据四等分的数,称为四分位数。第一四分位数 (Q1)、第二四分位数 (Q2,也叫“中位数”)和第三四分位数 (Q3)分别等于该样本中所有数值由小到大排列后第25%、第50%和第75%的数字。第三四分位数与第一四分位数的差距又称四分位距(interquartile range, IQR)。

偏态

与正态分布相对,指的是非对称分布的偏斜状态。在统计学上,众数和平均数之差可作为分配偏态的指标之一:如平均数大于众数,称为正偏态(或右偏态);相反,则称为负偏态(或左偏态)。

对于标准正态分布的样本,中位数位于上下四分位数的中央,只有极少值为异常值,箱形图的方盒关于中位线对称。异常值越多说明尾部越重,自由度越小(即自由变动的量的个数)。

而偏态表示偏离程度,中位数越偏离上下四分位数的中心位置,分布偏态性越强。异常值集中在较大值一侧,则分布呈现右偏态;异常值集中在较小值一侧,则分布呈现左偏态。

分别画出数据集A 1、2、2、2、3、4、6、10、20和数据集B 1、2、3、3、5、6、6、7、8两组数据的箱线图(EXCEL计算四分位数方法不同,以下图示供参考)

中位数越靠近下四分位数,说明数据在左端(小数目数)集中,如数据集A,中位数越靠近上四分位数,说明数据在右端(大数目数)集中,如数据集B。

中位数在平均数下部时,说明数据呈“右偏”分布,中位数在平均数上部时,说明数据呈“左偏”分布。

异常值:根据具体实验分析异常值对事实的真相是起到扭曲作用,还是其重要组成部分。

要知道
  1. 不是所有的数据都适合画箱线图

这几组箱线图看着不舒服,主要原因是,箱子被压得很扁,甚至只剩下一条线,同时还存在着很多刺眼的异常值。这种情况的出现,有两个常见的原因。第一是,样本数据中,存在特别大或者特别小的异常值,这种离群的表现,导致箱子整体被压缩,反而凸显出来这些异常;第二是,样本数据特别少,数据一少,就有可能出现各种诡异的情况,导致统计图长得对不起观众。

如果你画出的箱线图是这样的,那么有两个解决办法。第一,如果数据取值为正数,那么可以尝试做对数变换。对数变换必须墙裂推荐,称得上画图界的整容神器,专治各种不对称分布、非正态分布和异方差现象等。下图就是整容前后的一组箱线图。不想做变换,那么可以采取第二种解决办法,那就是,不画箱线图。

  1. 箱线图应该怎么用。答案是,配合着定性变量画分组箱线图,作比较

如果只有一个定量变量,很少用一个箱线图去展示其分布,而是更多的选择直方图。箱线图更有效的使用方法,是作比较。

第一个例子,假设我现在要比较男女教师的教学评估得分,用什么工具最好。答案是箱线图。没有比较就没有伤害,看下图能够明显感觉到箱线图是更有效的工具,能够从平均水平(中位数),波动程度(箱子宽度)以及异常值对男女教师的教学评估得分进行比较,而直方图却做不到。

第二个例子,来自R语言里面的boxplot的example。这个箱线图共涉及3个变量。定量变量是牙齿生长长度,体现在图形的纵坐标,也就是箱子展示的内容。第一个定性变量是维他命C的剂量,三个水平(0.5mg,1mg和2mg),体现在横坐标,所以一共有3组箱线图;第二个定性变量是食用的食物,是维C还是橙汁,分别用黄色和橙色展现,所以每组箱线图里又包含两个箱子。

从上图当中,可以得到这些结论:

  • 随着使用剂量的增加,不管食用的是哪种食物,牙齿生长长度的平均水平(中位数)都在增加。

  • 当使用剂量为0.5mg和1mg时,食用橙汁带来的牙齿生长的平均长度(中位数)要比食用维C高,波动程度也相应更大。

  • 当使用剂量为2mg时,食用两种食物带来的牙齿生长平均水平(中位数)相当,食用维C的牙齿生长长度波动相对更大。

总结

  • 箱线图是针对连续型变量的,解读时候重点关注平均水平、波动程度和异常值。

  • 当箱子被压得很扁,或者有很多异常的时候,试着做对数变换。

  • 当只有一个连续型变量时,并不适合画箱线图,直方图是更常见的选择。

  • 箱线图最有效的使用途径是作比较,配合一个或者多个定性数据,画分组箱线图。

分析

利用箱线图可以粗略地看出数据是否具有对称性、中心位置和分布范围等信息。此外,对同一性质的多组数据在同一坐标下分别作箱线图,可以直观地进行多组数据比较。

  • 观察各个箱体样本数据的中位数水平,中位数高低表现了各组数据的平均数高低

  • 箱体高度较高,说明数据浮动较大,不稳定,箱子的长短体现了各组数据的集中程度(12即表明中位数与箱体的位置表现了各组数据的分布状态)

  • 上四分位和下四分位距离特别近,说明其数据较为集中

  • 选出分布集中且分布值在我们理想的位置的箱子

案例

图中的红线显然是各个城市中游水平的数据分析师能够获得的薪资标准,上边的蓝线区间为中上游,下边的蓝线区间为中下游,以此类推。简而言之,样本人群被四等分了。

上海、北京、深圳的数据分析师,薪资范围接近,但是中上游水平的人,北京地区能获得更高的薪资,因为中位数(Q2)的位置更高。西安、长沙、天津则不利于数据分析师的发展。杭州的水平接近北上深,但是薪资上限受到一定限制。

分析不同学年、不同科目的学生成绩也是箱线图的常见应用场景。下图中我们可以看到学生的英语成绩相对其它科目普遍较好,而数学则大部分都出于80分以下。

有时候我们会发现箱形图的某一部分仿佛被隐藏了,比如下图的第一个箱子。

除此之外还有一些极端情况,箱子被压得很扁,甚至只剩下一条线,同时还存在着很多异常值。这些情况的出现,有两个常见的原因。第一,样本数据中,存在特别大或者特别小的异常值,这种离群的表现,导致箱子整体被压缩,反而凸显出来这些异常;第二,样本数据特别少,因此箱体受单个数据的影响被放大了。

一些柱状图中作者会添加误差线来给数值增加误差范围,看起来和箱线图有点相似。

论文中箱形图的描述方法

参考:什么是箱线图,箱线图要怎么做? - 知乎 (zhihu.com)

https://m.sohu.com/a/134414348_455817/?pvid=000115_3w_a

https://blog.csdn.net/gulie8/article/details/102793937?app_version=5.15.0&code=app_1562916241&csdn_share_tail=%7B%22type%22%3A%22blog%22%2C%22rType%22%3A%22article%22%2C%22rId%22%3A%22102793937%22%2C%22source%22%3A%22qq_52700357%22%7D&uLinkId=usr1mkqgl919blen&utm_source=app

https://mp.weixin.qq.com/s?src=11&timestamp=1678771891&ver=4405&signature=HZri1AFtb0eAyU4IqEMqg*TB-x3-zXxEclqFceIbQfxpcQU18-l7xltPFnsJG9-M1xcHzCT4ezbq41gdSpVLc91H2yOeJ*WTISQYwbH-8nBEW1-EYaYe0x0eCNbK-T1b&new=1

(SCI)论文中箱线图的描述方法_哔哩哔哩_bilibili

如何理解并比较箱型图(box-plot)_哔哩哔哩_bilibili

Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐