学习笔记之数据挖掘 FP-tree 算法

FP-tree 算法和 Apriori 算法都被用作关联规则挖掘。
FP-tree 算法只进行 2 次数据库扫描。相比于 Apriori 算法,她没有候选集,直接压缩数据库成一个频繁模式树,通过这棵树生成关联规则。两个主要步骤:
1. 利用事务数据库中的数据构造 FP-tree;
2. 从 FP-tree 中挖掘频繁模式。

步骤一: 构建 FP-tree 树

  1. 扫描数据库一次,得到频繁 1-项集;
  2. 把项按支持度递减排序;

    真实项目中,支持度一般设置的都不会太低。如定义 minsup = 20%, 即最小支持度为 2;

  3. 再一次扫描数据库,建立 FP-tree;

FP-tree 结构的好处

这里写图片描述

步骤二:频繁模式的挖掘

  1. 根据事务数据库 D 和最小支持度 min_sup,调用建树过程,建立 FP-tree;
  2. if FP-tree 为简单路径:
    将路径上支持度计数大于 min_sup 的节点任意组合,得到所需的频繁模式
    else
    初始化最大频繁模式集合为空
  3. 按照支持频率升序,以每个 1-频繁项为后缀,调用为挖掘算法挖掘最大频繁模式集;
  4. 根据最大频繁模式集合中最大频繁模式,输出全部的频繁模式。

例子

数据

这里写图片描述

构造 FP-tree

这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述

FP-growth

这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述

FP-tree 算法的优缺点

优点

  1. FP-tree 算法只需对事务数据库进行二次扫描;
  2. 避免产生大量候选集;

缺点

  1. 要递归生成条件数据库和条件 FP-tree,所以内存开销大;
  2. 只能用于挖掘单维的布尔关联规则;
Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐