数据挖掘

在日益爆炸的信息量中挖掘出有价值的信息的技术.
挖掘之前先看看数据准备.
在这里插入图片描述

数据挖掘基本方法

分类
聚类
关联规则
异常检测

本篇主要总结关联规则以及数据预处理的方法

关联规则

关联规则(Association Rule),旨在分析事务型数据(事务型数据(Transaction Data)是一类特殊的数据记录, 一条记录往往对应着一个项目(Item)的集合)
从而根据一部分项目的存在记录,来判断另一部分项目是否同时存在于事务中.

关联规则的基本形式:A → B,A、B均为集合形式

指标

支持度support:{A+B}在全体事务中的比重
s ( X − > Y ) = σ ( X ∪ Y ) N s(X->Y) = \frac{\sigma(X\cup Y)}{N} s(X>Y)=Nσ(XY)
置信度confidence: {A+B}占A出现的事务中的比重
c ( X − > Y ) = σ ( X ∪ Y ) σ ( X ) c(X->Y) = \frac{\sigma(X\cup Y)}{\sigma(X)} c(X>Y)=σ(X)σ(XY)

可以对比理解我的另一篇博客


基本的频繁项集生成方法

频繁项集(Frequent Itemset), 即支持度高于阈值的项目集合A
生成频繁项集是指数型复杂度, 需要优化.

Apriori算法

先验原理:如果一个项集是频繁的,那么它的所有子集也是频繁的
非频繁的项集,其所有超集也是非频繁的
基本思想:
逐步减去所有的非频繁项集,然后基于频繁项集生成其超集

进一步减少空间开支,同时直接从结构中提取频繁项集

FP-Growth算法

首先,对各个项(Item)按照支持度进行排序
其次,将排序后的项集逐步读入并建立树状结构(在建树的过程中,对相同项节点采用指针连接,方便快速访问
基于FP树,生成频繁项集


数据预处理方法
数据聚合

将两个或多个对象合并成为单个对象
目的在于归并多个数据源的数据到统一格式下
可以在一定程度上解决重复数据的问题

数据采样

简单随机采样
分层采样

数据离散

二元化离散
有监督离散
无监督离散

数据归约

删除不具有区分度的特征,同时可能降低噪声, 有助于避免维度灾难(指随着数据维度的增加,数据分析困难程度大幅上升的现象, 计算量呈指数级增长,难以处理; 数据稀疏,没有足够数据可建模)
同时模型更容易理解,也更易于可视化
主成分分析(Principal Component Analysis,PCA)

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐