基于云平台的并行关联规则挖掘算法研究
华东理工大学 毛卫俊
首先,本文详细研究了云计算、Hadoop的分布式文件系统HDFS以及MapReduce并行编程框架,阐述了基于Hadoop的数据挖掘系统的设计架构。然后,在深入研究传统关联规则挖掘算法Apriori的基础上,给出了将Apriori算法并行化处理的策略,提出了一种改进的并行算法AprioriMR。接着,在先前研究的基础上,引入幂集和矩阵的概念,提出了基于Hadoop和幂集的关联规则挖掘改进算法AprioriPMR以及基于Hadoop和矩阵的关联规则挖掘改进算法AprioriMMR。最后,搭建了结合Hadoop和HBase的实验环境,用Java完成改进算法的编写,并采用不同的实验数据集和实验条件测试了改进算法的正确性,通过实验结果的对比分析,得出改进算法具有更高的性能。
基于云平台的并行关联规则挖掘算法研究