专业支持:(0512) 63016160 / 销售热线:(0512)63016068
当前在线: 288 今日上线: 1384 今日新增: 3

[硕士论文]基于云计算的文本聚类算法研究

文章来源:  中国云计算 发布时间: 2014年07月16日   浏览: 1693   作者:中国云计算

基于云计算的文本聚类算法研究

南京理工大学  冯晓云

在本论文中,我们首先实现了一种基于HIVE的分布式k-means算法的设计,先在Hadoop的分布式平台上利用HIVE对结构化的文本数据进行整合,然后对K-means聚类算法进行分析,发现分布式计算对于K-means算法的加速比是有一定的提高的,这也是近年来很多论文进行研究的算法。接着我们设计了基于Google实验室开发的一个分布式系统架构------HadoopCURE聚类算法,实验分成四部分进行,分别利用分布式平台来计算实验参数值、TFIDF值、文本间余弦距离和具体聚类算法,然后将不同大小数据集在不同个数的slave节点上运行的结果进行了对比,发现这种算法的伸缩性比较良好,更加适合大数据。在进行了两个实验后,论文又将CURE聚类算法的实验结果与基于HIVE的K-means算法的实验结果进行了对比,发现对于小数据,两者相差不大,但是对于大数据集,CURE聚类算法在数据伸缩性上明显优于基于HIVE的K-means算法,因此,我们发现前者更加地适用于大文本集的分布式研究。综上所述,我们通过分析利用UCI数据集进行实验得到的测评结果,发现在分布式平台上利用CURE算法进行聚类计算对于海量数据还是有很好的应用前景。


基于云计算的文本聚类算法研究 


一键分享:

在线客服