PDMiner_基于云计算的并行分布式数据挖掘工具平台
何清 庄福振 曾立 赵卫
本文中我们研究开发一个基于大规模数据处理平台Hadoop的并行分布式数据挖掘工具平台PDMiner.在PDMiner中, 开发实现了各种并行数据挖掘算法, 比如数据预处理、关联规则分析以及分类、聚类等算法. 实验结果表明, 并行分布式数据挖掘工具平台PDMiner中实现的并行算法: 1) 能够处理大规模数据集, 达到TB级别 2) 具有很好的加速比性能 3) 大大整合利用已有的计算资源, 因为这些算法可以在由这些商用机器构建的并行平台上稳定运行, 提高了计算资源的利用效率 4) 可以有效地应用到实际海量数据挖掘中. 此外, 在PDMiner中还开发了工作流子系统,提供友好统一的接口界面方便用户定义数据挖掘任务. 更重要的是, 我们开放了灵活的接口方便用户开发集成新的并行数据挖掘算法.
PDMiner_基于云计算的并行分布式数据挖掘工具平台