专业支持:(0512) 63016160 / 销售热线:(0512)63016068
当前在线: 288 今日上线: 1384 今日新增: 3

[硕士论文]云计算环境下的多数据集连接优化

文章来源:  中国云计算 发布时间: 2014年02月23日   浏览: 1687   作者:中国云计算

云计算环境下的多数据集连接优化

郑州大学   周梦雪  

大数据时代的到来,加快了云计算技术的发展和推广,众多涉及海量数据处理的云平台蓬勃涌现。云计算技术已逐步发展成熟,并深入人们生活、工业和研究的各个方面。MapReduce是一种已广泛运用到云计算数据处理的并行编程模型,如何使得MapReduce支持关系模型数据库进行复杂的数据处理已吸引不少企业界和学术界的研究。 在大规模数据分析中,复杂处理要求越来越多,数据连接、查询信息往往跨越多个数据集。现有的基于MapReduce的多表连接机制多采用串行级联方式实现,将多表连接分为多次两表连接。该模式产生大量的中间数据,需要进行多次数据传输,效率较低。因此,改善多表连接方式、提高多表连接效率成为基于MapReduce数据处理研究的一个亟待解决的问题。 本文首先介绍了云计算的相关技术、Hadoop平台、HDFS和MapReduce编程模型,然后在此基础上分析云环境中多数据集连接的实现和研究现状,并提出基于二维节点矩阵的分级多表连接模型TD-HMJ (Two-Dimension node matrix based Hierarchized Multi-Join)。 TD-HMJ首先设置key, value对中key为元组结构,通过一次Map过程处理所有连接属性;然后建立二维Reduce节点矩阵,以一对一或一对多的方式传输中间结果;再进行多组3(2)表并行连接;最后通过多级Reduce过程实现多组间连接。实验表明:TD-HMJ有效减少了多表并行连接时的数据传输量,缩短了多表连接时间,提高了连接效率。


云计算环境下的多数据集连接优化


一键分享:

在线客服