专业支持:(0512) 63016160 / 销售热线:(0512)63016068
当前在线: 288 今日上线: 1384 今日新增: 3

[硕士论文]基于云平台的数据挖掘算法的研究与实现

文章来源:  中国云计算 发布时间: 2014年01月17日   浏览: 1480   作者:中国云计算

基于云平台的数据挖掘算法的研究与实现

电子科技大学  颜巍

在本文中,针对聚类算法K-Means依赖于k值和初始中心点的缺陷,提出了基于采样和密度的改进K-Means算法。通过采样和密度来确定K-Means算法初始k值和初始中心点,并且基于Hadoop平台进行并行化改进。通过实验验证,改进后的K-Means算法具有很好的并行性。(2)协同过滤算法是目前用的最多的一种项目推荐算法,通过计算用户之间的相似性找到具有最高相似度的k个邻居,然后通过邻居对项目的评分为用户推荐项目。在本文中,针对用户评分的稀疏性,提出了一种基于用户相似度和属性权值的混合推荐算法。通过对用户评分记录的学习,求出项目属性的权值,通过属性的权值并结合用户相似度来推荐项目,最后将算法移植到Hadoop平台。通过实验验证,改进后的协同过滤算法比原始算法具有更好的精准度和并行性。(3)目前,Hadoop平台主要通过命令行进行操作,这对普通用户具有一定的难度。本文设计实现了基于Hadoop平台的数据挖掘系统。该系统将数据挖掘算法和Hadoop平台细节进行封装,对外提供Rest接口,用户通过Rest接口调用并行化的数据挖掘算法进行数据分析,无需了解底层的具体实现。


基于云平台的数据挖掘算法的研究与实现


一键分享:

在线客服