专业支持:(0512) 63016160 / 销售热线:(0512)63016068
当前在线: 288 今日上线: 1384 今日新增: 3

[硕士论文]云环境下基于RIHDBSCAN的微博事件检测及跟踪

文章来源:  中国云计算 发布时间: 2015年03月30日   浏览: 2175   作者:中国云计算

云环境下基于RIHDBSCAN的微博事件检测及跟踪 

重庆大学 韩楠

云计算技术是未来的趋势,它能够高效的完成海量数据的存储和计算任务,将云计算技术和微博挖掘结合起来势在必行。论文设计了一套完整的云环境下的微博事件检测跟踪模型。主要研究及创新点如下: ①制定机械化过滤规则,将抓取的微博文本按规则进行过滤,有效提高后续处理的效率。 ②在传统TF-IDF算法的基础上,提出动态权值计算方法FCF-DIDF。该算法基于微博转发数和评论数,能够有效改善TF-IDF算法的不足,并考虑到微博文本集规模的不断增加,适合处理微博短文本。 ③基于DBSCAN算法,提出基于代表点的增量层次密度聚类算法(RIHDBSCAN)。该算法分为三个步骤:生成初始簇、初始簇合并、选出代表点。算法执行过程中只需要选取部分对象进行核心点检测,大大降低了I/O开销,屏蔽了数据输入顺序敏感性。RIHDBSAN算法在每轮事件检测聚类算法执行结束后,选出代表点组参与下轮的增量聚类,并通过增量聚类中簇结构和关键词变化追踪事件的发展轨迹。 ④针对单一节点处理海量微博数据面临困境,将算法部署在Hadoop云计算平台上。


云环境下基于RIHDBSCAN的微博事件检测及跟踪


一键分享:

在线客服