专业支持:(0512) 63016160 / 销售热线:(0512)63016068
当前在线: 288 今日上线: 1384 今日新增: 3

基于Spark 的抄袭检测云计算框架研究

文章来源:  中国云计算 发布时间: 2014年09月16日   浏览: 1569   作者:中国云计算

基于Spark 的抄袭检测云计算框架研究

于海浩

抄袭检测从根本上说是一个文本相似度的计算问题,需要迅速准确的在海量文集中对文本的原创性进行检测,耗费大量时间和资源,是计算密集和数据密集的复杂过程。采用分布式计算是是提高检测效率的有有效手段之一。本文提出了一套基于Spark的分布式抄袭检测云计算框架该框架使用由集群资源管理器Apache Mesos,支持内存驻留的 MapReduce计算框架,分布式 Hadooop 文件系统构成的分布式计算集群。测试结果表明,此框架比Hadooop传统分
布式计算框架在效率上有较大提升。


基于Spark 的抄袭检测云计算框架研究


一键分享:

在线客服