最简单的说法是用一张图对应了两个数据,还是一样的画,但是X轴变成了另一个数据,这种图的作用是写出来两种数据的不同的地方,观测是否发生了漂移

2.2.3 数据的基本统计描述的图形显示(1)

本节我们研究基本统计描述的图形显示,包括分位数图、分位数-分位数图、直方图和散点图。这些图形有助于可视化地审视数据,对于数据预处理是有用的。前三种图显示一元分布(即,一个属性的数据),而散点图显示二元分布(即,涉及两个属性)。

1.分位数图

这里和以下几小节我们介绍常用的数据分布的图形显示。分位数图(quantile plot)是一种观察单变量数据分布的简单有效方法。首先,51它显示给定属性的所有数据(允许用户评估总的情况和不寻常的出现)。其次,它绘出了分位数信息(见2.2.2节)。对于某序数或数值属性X,设xi(i=1,…,N)是按递增序排序的数据,使得x1是最小的观测值,而xN是最大的。每个观测值xi与一个百分数fi配对,指出大约fi×100%的数据小于值xi。我们说“大约”,因为可能没有一个精确的小数值fi,使得数据的fi×100%小于值xi。注意,百分比0.25对应于四分位数Q1,百分比0.50对应于中位数,而百分比0.75对应于Q3。

 

这些数从12N(稍大于0)到1-12N(稍小于1),以相同的步长1/N递增。在分位数图中,xi对应fi画出。这使得我们可以基于分位数比较不同的分布。例如,给定两个不同时间段的销售数据的分位数图,我们一眼就可以比较它们的Q1、中位数、Q3以及其他fi值。

例2.13 分位数图。图2.4显示了表2.1的单价数据的分位数图。

表2.1 AllElectronics的一个部门销售的

 
 
图2.4 表2.1的单价数据的分位数图

2.分位数-分位数图

分位数-分位数图(quantile-quantile plot)或q-q图对着另一个对应的分位数,绘制一个单变量分布的分位数。它是一种强有力的可视化工具,使得用户可以观察从一个分布到另一个分布是否有漂移。

假定对于属性或变量unit price(单价),我们有两个观测集,取自两个不同的部门。设x1,…,xN是取自第一个部门的数据,y1,…,yM是取自第二个部门的数据,其中每组数据都已按递增序排序。如果M=N(即每个集合中的点数相等),则我们简单地对着xi画yi,其中yi和xi都是它们的对应数据集的第(i-0.5)/N个分位数。如果M<N(即第二个部门的观测值比第一个少),则可能只有M个点在q-q图中。这里,yi是y数据的第(i-0.5)/M个分位数,52对着x数据的第(i-0.5)/M个分位数画。在典型情况下,该计算涉及插值。

例2.14 分位数-分位数图。图2.5显示在给定的时间段AllElectronics的两个不同部门销售的商品的单价数据的分位数-分位数图。每个点对应于每个数据集的相同的分位数,并对该分位数显示部门1与部门2的销售商品单价。(为帮助比较,我们也画了一条直线,它代表对于给定的分位数,两个部门的单价相同的情况。此外,加黑的点分别对应于Q1、中位数和Q3。)

 
图2.4 表2.1的单价数据的分位数图

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐