[硕士论文]基于云计算的文本聚类算法研究- 云胜算官网

[硕士论文]基于云计算的文本聚类算法研究

文章来源: 中国云计算发布时间: 2014年07月16日浏览: 1693 作者:中国云计算

基于云计算的文本聚类算法研究

南京理工大学冯晓云

在本论文中,我们首先实现了一种基于HIVE的分布式k-means算法的设计,先在Hadoop的分布式平台上利用HIVE对结构化的文本数据进行整合,然后对K-means聚类算法进行分析,发现分布式计算对于K-means算法的加速比是有一定的提高的,这也是近年来很多论文进行研究的算法。接着我们设计了基于Google实验室开发的一个分布式系统架构------HadoopCURE聚类算法,实验分成四部分进行,分别利用分布式平台来计算实验参数值、TFIDF值、文本间余弦距离和具体聚类算法,然后将不同大小数据集在不同个数的slave节点上运行的结果进行了对比,发现这种算法的伸缩性比较良好,更加适合大数据。在进行了两个实验后,论文又将CURE聚类算法的实验结果与基于HIVE的K-means算法的实验结果进行了对比,发现对于小数据,两者相差不大,但是对于大数据集,CURE聚类算法在数据伸缩性上明显优于基于HIVE的K-means算法,因此,我们发现前者更加地适用于大文本集的分布式研究。综上所述,我们通过分析利用UCI数据集进行实验得到的测评结果,发现在分布式平台上利用CURE算法进行聚类计算对于海量数据还是有很好的应用前景。

基于云计算的文本聚类算法研究

打印此页关闭此页

标签: 论文 , 计算 , 文本 , 研究 , 硕士 , 基于 , 算法

上一页微软的差异化构想：为任意设备带来一整套“使用体验”下一页基于SPB技术的云计算数据中心互联实现

一键分享:

[硕士论文]基于云计算的文本聚类算法研究

在线客服