专业支持:(0512) 63016160 / 销售热线:(0512)63016068
当前在线: 288 今日上线: 1384 今日新增: 3

[期刊]PDMiner_基于云计算的并行分布式数据挖掘工具平台

文章来源:  中国云计算 发布时间: 2014年08月19日   浏览: 1652   作者:中国云计算

PDMiner_基于云计算的并行分布式数据挖掘工具平台

何清 庄福振 曾立 赵卫

本文中我们研究开发一个基于大规模数据处理平台Hadoop的并行分布式数据挖掘工具平台PDMiner.在PDMiner中, 开发实现了各种并行数据挖掘算法, 比如数据预处理、关联规则分析以及分类、聚类等算法. 实验结果表明, 并行分布式数据挖掘工具平台PDMiner中实现的并行算法: 1) 能够处理大规模数据集, 达到TB级别 2) 具有很好的加速比性能 3) 大大整合利用已有的计算资源, 因为这些算法可以在由这些商用机器构建的并行平台上稳定运行, 提高了计算资源的利用效率 4) 可以有效地应用到实际海量数据挖掘中. 此外, 在PDMiner中还开发了工作流子系统,提供友好统一的接口界面方便用户定义数据挖掘任务. 更重要的是, 我们开放了灵活的接口方便用户开发集成新的并行数据挖掘算法.


PDMiner_基于云计算的并行分布式数据挖掘工具平台


一键分享:

在线客服