python因子分析案例_python数据分析单因子分析
集中趋势均值panda.mean()分位数panda.quantile(q)q = 0.25Q1 = (n+1)0.25q = 0.5中位数Q1 = (n+1)0.5q = 0.75Q1 = (n+1)*0.75众数panda.value_counts()离中趋势标准差和方差去掉根号是方差,不去根号是标准差标准差越大...
集中趋势
均值
panda.mean()
分位数
panda.quantile(q)
q = 0.25 Q1 = (n+1)0.25
q = 0.5 中位数 Q1 = (n+1)0.5
q = 0.75 Q1 = (n+1)*0.75
众数
panda.value_counts()
离中趋势
标准差和方差
去掉根号是方差,不去根号是标准差
标准差越大则数据余越离散,反之则数据越聚拢
注意:对于正态分布的数据来说,数据落在均值±1倍标准差的概率是69%,数据落在均值±1.96倍标准差的概率是95%,数据落在均值±2.58倍标准差的概率是99%
数据分布
偏态与峰态
偏态系数:panda.skew()
数据平均值偏离平均状态的一种衡量
S为正,均值较大,反之均值较小
峰态系数:panda.kurt()
一般K会减去3,来跟标准正态分布比较
K越大,曲线图顶越尖,反之则越平缓
一般说与正态分布的峰态系数相差超过2,则认为该分布不是正态分布
正态分布与三大分布
抽样理论
抽样误差与精度
N:总体数量
n:抽样数量
Z:69%时为1,95%为1.96…具体看标准差和方差
Δ2: 抽样方差
δ2:总体方差
σ2:总体方差
数据分类
定类数据:
根据事物离散,无差别属性进行的分类
定序数据:
可以界定数据的大小,但不能测定差值
定距数据:
可以界定数据大小的同时,可以测定差值,但无绝对零点
定比数据:
可以界定数据的大小,可以测定差值,有绝对零点
异常值分析:
连续异常值
离散异常值
离散属性定义范围外的所有制均为异常值
例如:只有男女时,出现了其他的情况
知识异常值
在限定知识与常识范围外的所有值均为异常值
例如:身高出现10米
更多推荐
所有评论(0)