matplotlib 中的箱线图:标记和异常值
·
问题:matplotlib 中的箱线图:标记和异常值
我对matplotlib中的箱线图有一些疑问:
问题 A。我在下面用 Q1、Q2 和 Q3 突出显示的标记代表什么?我相信 Q1 是最大值,Q3 是异常值,但是 Q2 是什么?

问题 B matplotlib 如何识别异常值? (即它怎么知道它们不是真正的max和min值?)
解答
这是一个图表,说明了来自stats.stackexchange 答案的盒子的组件。请注意,如果您未在 Pandas 中提供whis关键字,则 ku003d1.5。

Pandas 中的 boxplot 函数是matplotlib.pyplot.boxplot的包装器。matplotlib docs详细解释了框的组成部分:
问题一:
方框从数据的下四分位数延伸到上四分位数,中间有一条线。
即四分之一的输入数据值位于框下方,四分之一的数据位于框的每个部分,其余四分之一位于框上方。
问题 B:
whis:浮点数、序列或字符串(默认 u003d 1.5)
作为浮点数,确定胡须的范围超出第一和第三四分位数。换句话说,如果 IQR 是四分位数范围 (Q3-Q1),则上须线将延伸到小于 Q3 + whis*IQR 的最后一个数据。同样,下须线将延伸到大于 Q1 的第一个数据 - whis*IQR。除了胡须,数据被认为是异常值,并被绘制为单个点。
Matplotlib(和 Pandas)还为您提供了很多选项来更改胡须的默认定义:
将此设置为不合理的高值,以强制胡须显示最小值和最大值。或者,将其设置为百分位数的升序(例如,[5, 95])以将须线设置在数据的特定百分位数。最后,whis 可以是字符串“范围”,以强制胡须达到数据的最小值和最大值。
更多推荐

所有评论(0)