2、A Multi-Core Approach to Efficiently Mining High-Utility Itemsets in Dynamic Profit Databases

1、论文希望解决的问题：Transactional data changes over time，Many algorithms for mining high-utility itemsets (HUI) ignore this important property and thus are inapplicable or generate inaccurate results on real

没有人比我更懂暴力算法

147人浏览 · 2021-03-28 18:25:46

没有人比我更懂暴力算法 · 2021-03-28 18:25:46 发布

在这里插入图片描述

1、论文希望解决的问题：

Transactional data changes over time，Many algorithms for mining high-utility itemsets (HUI) ignore this important property and thus are inapplicable or generate inaccurate results on real data.

2、作者的目标：

Proposes a novel algorithm Multi-Core HUI Miner (MCH-Miner), It adapts techniques introduced in the iMEFIM algorithm to run on a parallel multi-core architecture(并行多核体系结构) to effificiently mine HUIs in dynamic transaction databases.

3、问题定义：

High-utility Itemset (HUI)：
在这里插入图片描述
High-utility Itemset Mining(HUIM)：

4、关键技术：

（1）more compact representation of the dynamic database D [12]

在这里插入图片描述

(2) the MCH-MINER algorithm

现如今，多处理器现在以multi-core processors的形式被广泛应用，将数据库分成几个部分，并存储在分布式服务器上。但不适用于在单核处理器上执行串行数据挖掘算法的情况。采用当前的并行执行数据挖掘方法带来了新的挑战，如负载平衡、通信最小化和同步。三种支持并行的方式：task parallelism, data parallelism, and hybrid task/data parallelism
本文着重于任务并行性（task parallelism），通过拓展iMEFIM，设计了一个新的算法MCH-Miner algorithm, 采用分治策略，利用当多核处理器来加快模式挖掘过程。MCH-Miner 将搜索划分为子空间，每一个1-item作为独立的任务进行DFS，所有子空间不重叠。

(3) 解决负载平衡问题（load balancing problem）

负载平衡就是为每个进程分配大约相同数量的任务（处理器），保证每个处理器都在工作，尽量减少空闲时间。
在这里插入图片描述
采用多核并行计算模型，任务在单个多核处理器上执行。因此，负载平衡非常简单，由于所有核共享相同的内存空间（使用共享内存系统），所有需要执行的任务都是分开的，其搜索空间不一致。因此，些任务被放到一个大小等于可用处理器核数量的任务池中。然后，任务由处理器的核同时执行，使用先到先服务(FCFS)调度策略，直到所有任务完成。
（这部分看不太懂。）

5、相关文献

Two-Phase [8], IHUP [9], UP Growth [10], EFIM [11].
iMEFIM [12]: extends the EFIM algorithm, combines the newly introduced framework, a novel data structure named P-set is utilized to signifificantly reduce the cost of database scans.