问题:matplotlib 中的箱线图:标记和异常值

我对matplotlib中的箱线图有一些疑问:

问题 A。我在下面用 Q1Q2Q3 突出显示的标记代表什么?我相信 Q1 是最大值,Q3 是异常值,但是 Q2 是什么?

在此处输入图像描述

问题 B matplotlib 如何识别异常值? (即它怎么知道它们不是真正的maxmin值?)

解答

这是一个图表,说明了来自stats.stackexchange 答案的盒子的组件。请注意,如果您未在 Pandas 中提供whis关键字,则 ku003d1.5。

箱线图中带注释的框

Pandas 中的 boxplot 函数是matplotlib.pyplot.boxplot的包装器。matplotlib docs详细解释了框的组成部分:

问题一:

方框从数据的下四分位数延伸到上四分位数,中间有一条线。

即四分之一的输入数据值位于框下方,四分之一的数据位于框的每个部分,其余四分之一位于框上方。

问题 B:

whis:浮点数、序列或字符串(默认 u003d 1.5)

作为浮点数,确定胡须的范围超出第一和第三四分位数。换句话说,如果 IQR 是四分位数范围 (Q3-Q1),则上须线将延伸到小于 Q3 + whis*IQR 的最后一个数据。同样,下须线将延伸到大于 Q1 的第一个数据 - whis*IQR。除了胡须,数据被认为是异常值,并被绘制为单个点。

Matplotlib(和 Pandas)还为您提供了很多选项来更改胡须的默认定义:

将此设置为不合理的高值,以强制胡须显示最小值和最大值。或者,将其设置为百分位数的升序(例如,[5, 95])以将须线设置在数据的特定百分位数。最后,whis 可以是字符串“范围”,以强制胡须达到数据的最小值和最大值。

Logo

Python社区为您提供最前沿的新闻资讯和知识内容

更多推荐