(一)数据质量分析
在数据挖掘的过程中,数据的预处理过程往往是十分重要的一环,而数据质量分析是数据预处理的前提,也是数据挖掘的基础。数据挖掘的过程要建立在数据可靠的基础之上。常见的“脏数据”有

  • 缺失值
    概念:记录的缺失或者是记录中某个字段的缺失
    原因:数据无法获取;信息在统计时被遗漏等
    影响:增加数据挖掘过程中的不确定性、不可靠输出
    处理:可采用填补(均值,众数,机器学习等方法)、删除等

  • 异常值
    概念:录入错误以及含有不合理的数据,其数据明显偏离正常值,异常值也称“离群点”
    原因:数据统计过程中的错误统计等
    影响:降低数据挖掘的质量
    处理:采用离群点检测算法来检测离群点

  • 不一致值
    概念: 不同数据源之间肯存在的相关字段,数据口径不一致的现象
    原因:数据采集失误;数据建表不一致,数据关联形式不一致等
    影响:增加了数据实验的困难度,使得数据挖掘的结果偏离

(二)数据统计量
统计量是统计理论中用来对数据进行分析、检验的变量。通过统计量可以借助样本数据区推断总体的特征。假设x1,x2,…,xn是从总体X中抽取容量为n的一个样本,如果由此样本构造一个函数F(x1,x2,…,xn),称这个函数为一个统计量。
常用统计量

  • 均值、方差、偏度、峰度
  • 最小值、中位数、众数、最大值
  • 卡方统计量

(三)相关性分析

推荐内容
Logo

永洪科技,致力于打造全球领先的数据技术厂商,具备从数据应用方案咨询、BI、AIGC智能分析、数字孪生、数据资产、数据治理、数据实施的端到端大数据价值服务能力。

更多推荐