数据挖掘的数据准备
数据挖掘在日益爆炸的信息量中挖掘出有价值的信息的技术.挖掘之前先看看数据准备.数据挖掘基本方法分类聚类关联规则异常检测本篇主要总结关联规则以及数据预处理的方法关联规则关联规则(Association Rule),旨在分析事务型数据(事务型数据(Transaction Data)是一类特殊的数据记录, 一条记录往往对应着一个项目(Item)的集合)从而根据一部分项目的存在记录,来判断另一部分项目是否
数据挖掘
在日益爆炸的信息量中挖掘出有价值的信息的技术.
挖掘之前先看看数据准备.
数据挖掘基本方法
分类
聚类
关联规则
异常检测
本篇主要总结关联规则以及数据预处理的方法
关联规则
关联规则(Association Rule),旨在分析事务型数据(事务型数据(Transaction Data)是一类特殊的数据记录, 一条记录往往对应着一个项目(Item)的集合)
从而根据一部分项目的存在记录,来判断另一部分项目是否同时存在于事务中.
关联规则的基本形式:A → B,A、B均为集合形式
指标
支持度support:{A+B}在全体事务中的比重
s
(
X
−
>
Y
)
=
σ
(
X
∪
Y
)
N
s(X->Y) = \frac{\sigma(X\cup Y)}{N}
s(X−>Y)=Nσ(X∪Y)
置信度confidence: {A+B}占A出现的事务中的比重
c
(
X
−
>
Y
)
=
σ
(
X
∪
Y
)
σ
(
X
)
c(X->Y) = \frac{\sigma(X\cup Y)}{\sigma(X)}
c(X−>Y)=σ(X)σ(X∪Y)
可以对比理解我的另一篇博客
基本的频繁项集生成方法
频繁项集(Frequent Itemset), 即支持度高于阈值的项目集合A
生成频繁项集是指数型复杂度, 需要优化.
Apriori算法
先验原理:如果一个项集是频繁的,那么它的所有子集也是频繁的
非频繁的项集,其所有超集也是非频繁的
基本思想:
逐步减去所有的非频繁项集,然后基于频繁项集生成其超集
进一步减少空间开支,同时直接从结构中提取频繁项集
FP-Growth算法
首先,对各个项(Item)按照支持度进行排序
其次,将排序后的项集逐步读入并建立树状结构(在建树的过程中,对相同项节点采用指针连接,方便快速访问
基于FP树,生成频繁项集
数据预处理方法
数据聚合
将两个或多个对象合并成为单个对象
目的在于归并多个数据源的数据到统一格式下
可以在一定程度上解决重复数据的问题
数据采样
简单随机采样
分层采样
数据离散
二元化离散
有监督离散
无监督离散
数据归约
删除不具有区分度的特征,同时可能降低噪声, 有助于避免维度灾难(指随着数据维度的增加,数据分析困难程度大幅上升的现象, 计算量呈指数级增长,难以处理; 数据稀疏,没有足够数据可建模)
同时模型更容易理解,也更易于可视化
主成分分析(Principal Component Analysis,PCA)
更多推荐
所有评论(0)