利用mlxtend进行数据关联分析

今天本该是个剁手的日子，只可惜余额不足高攀不起那台i7-8565，只有再写一篇文章聊以慰籍~~前言：之前很少做关于数据关联分析的题，而当初学关联分析时也是自己写代码来实现底层转换与运算，粗略一点的整体代码量也达到150行左右，所以没有高级的开源工具使用是很费时间的，由此阻碍了一颗想学习的心。后来遇到相关问题便Google了一些解决办法，其中有一个集成很优秀，使用也很方便的GitHub开源项目，..

文章共1,941字 · 阅读需要大约7分钟

一键AI生成摘要，助你高效阅读

问答

不论如何未来很美好

22590人浏览 · 2018-11-11 21:57:02

不论如何未来很美好 · 2018-11-11 21:57:02 发布

今天本该是个剁手的日子，只可惜余额不足高攀不起那台i7-8565，只有再写一篇文章聊以慰籍~~

前言：之前很少做关于数据关联分析的题，而当初学关联分析时也是自己写代码来实现底层转换与运算，粗略一点的整体代码量也达到150行左右，所以没有高级的开源工具使用是很费时间的，由此阻碍了一颗想学习的心。后来遇到相关问题便Google了一些解决办法，其中有一个集成很优秀，使用也很方便的GitHub开源项目，也是本篇文章的重点——mlxtend

首先简单介绍一下关联分析的三个相关知识点：

频繁项集：

频繁项集是指那些经常出现在一起的物品，例如上图的{葡萄酒、尿布、豆奶}，从上面的数据集中也可以找到尿布->葡萄酒的关联规则，这意味着有人买了尿布，那很有可能他也会购买葡萄酒。那如何定义和表示频繁项集和关联规则呢？这里引入支持度和可信度（置信度）。

支持度：

支持度：一个项集的支持度被定义为数据集中包含该项集的记录所占的比例，上图中，豆奶的支持度为4/5，（豆奶、尿布）为3/5。支持度是针对项集来说的，因此可以定义一个最小支持度，只保留最小支持度的项集。

置信度：

可信度（置信度）：针对如{尿布}->{葡萄酒}这样的关联规则来定义的。计算为支持度{尿布，葡萄酒}/支持度{尿布}，其中{尿布，葡萄酒}的支持度为3/5，{尿布}的支持度为4/5，所以“尿布->葡萄酒”的可行度为3/4=0.75，这意味着尿布的记录中，我们的规则有75%都适用（买了尿布的顾客有75%还会买葡萄酒）。

上面简单介绍三个基本概念，下面我们就来利用 mlxtend 完整简单的实现上面购物表单的关联分析问题。

关联分析示例：

首先创建数据：

转换为DataFrame格式，然后再教一个后续转换回来的方法。

import pandas as pd

shopping_list = [['豆奶','莴苣'],
	        ['莴苣','尿布','葡萄酒','甜菜'],
	        ['豆奶','尿布','葡萄酒','橙汁'],
	        ['莴苣','豆奶','尿布','葡萄酒'],
	        ['莴苣','豆奶','尿布','橙汁']]

shopping_df = pd.DataFrame(shopping_list)

转换数据列表：

接着转换DataFrame数据为包含数据的列表。（由于我们接触到的可能是DataFrame数据所以这里介绍了两个转换为上面列表的方法）

# df_arr = shopping_df.stack().groupby(level=0).apply(list).tolist()	# 方法一

def deal(data):
	return data.dropna().tolist()
df_arr = shopping_df.apply(deal,axis=1).tolist()		        # 方法二

转换为模型可接受数据：

由于mlxtend的模型只接受特定的数据格式。（TransactionEncoder类似于独热编码，每个值转换为一个唯一的bool值）

from mlxtend.preprocessing import TransactionEncoder	# 传入模型的数据需要满足特定的格式，可以用这种方法来转换为bool值，也可以用函数转换为0、1

te = TransactionEncoder()	# 定义模型
df_tf = te.fit_transform(df_arr)
# df_01 = df_tf.astype('int')			# 将 True、False 转换为 0、1 # 官方给的其它方法
# df_name = te.inverse_transform(df_tf)		# 将编码值再次转化为原来的商品名
df = pd.DataFrame(df_tf,columns=te.columns_)

求频繁项集：

导入apriori方法设置最小支持度min_support=0.05求频繁项集，还能选择出长度大于x的频繁项集。

from mlxtend.frequent_patterns import apriori

frequent_itemsets = apriori(df,min_support=0.05,use_colnames=True)	# use_colnames=True表示使用元素名字，默认的False使用列名代表元素
# frequent_itemsets = apriori(df,min_support=0.05)
frequent_itemsets.sort_values(by='support',ascending=False,inplace=True)	# 频繁项集可以按支持度排序
# print(frequent_itemsets[frequent_itemsets.itemsets.apply(lambda x: len(x)) >= 2])  # 选择长度 >=2 的频繁项集

求关联规则：

导入association_rules方法判断'confidence'大于0.9，求关联规则。

from mlxtend.frequent_patterns import association_rules

association_rule = association_rules(frequent_itemsets,metric='confidence',min_threshold=0.9)	# metric可以有很多的度量选项，返回的表列名都可以作为参数
association_rule.sort_values(by='leverage',ascending=False,inplace=True)    #关联规则可以按leverage排序
# print(association_rule)

下面便得到了上表中满足设置条件的关联规则