集中趋势

均值

panda.mean()

分位数

panda.quantile(q)

q = 0.25 Q1 = (n+1)0.25

q = 0.5 中位数 Q1 = (n+1)0.5

q = 0.75 Q1 = (n+1)*0.75

众数

panda.value_counts()

离中趋势

标准差和方差

去掉根号是方差,不去根号是标准差

标准差越大则数据余越离散,反之则数据越聚拢

注意:对于正态分布的数据来说,数据落在均值±1倍标准差的概率是69%,数据落在均值±1.96倍标准差的概率是95%,数据落在均值±2.58倍标准差的概率是99%

数据分布

偏态与峰态

偏态系数:panda.skew()

数据平均值偏离平均状态的一种衡量

S为正,均值较大,反之均值较小

峰态系数:panda.kurt()

一般K会减去3,来跟标准正态分布比较

K越大,曲线图顶越尖,反之则越平缓

一般说与正态分布的峰态系数相差超过2,则认为该分布不是正态分布

正态分布与三大分布

抽样理论

抽样误差与精度

N:总体数量

n:抽样数量

Z:69%时为1,95%为1.96…具体看标准差和方差

Δ2: 抽样方差

δ2:总体方差

σ2:总体方差

数据分类

定类数据:

根据事物离散,无差别属性进行的分类

定序数据:

可以界定数据的大小,但不能测定差值

定距数据:

可以界定数据大小的同时,可以测定差值,但无绝对零点

定比数据:

可以界定数据的大小,可以测定差值,有绝对零点

异常值分析:

连续异常值

离散异常值

离散属性定义范围外的所有制均为异常值

例如:只有男女时,出现了其他的情况

知识异常值

在限定知识与常识范围外的所有值均为异常值

例如:身高出现10米

点击阅读全文
Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐