量测大集信息的无损云压缩与仓库存储研究
华东交通大学 郭亮
本课题针对智能调度系统中的大数据集信息压缩处理问题,利用Hadoop框架和Map/Reduce分布式编程模型,进一步结合数据仓库Hive框架技术,提出了一种基于云架构的分布式集群无损压缩新方法。首先利用公共信息的关联关系,建立调度监控的公共信息对象实体及其关键数据业务信息流,解决海量关键数据业务信息集成问题;然后研究和比较目前四种主流无损压缩算法差异性,利用云计算节点的网络配置方式部署调度主机和监控服务器的集群环境,在集群数据节点中融入无损压缩格式,建立调度监控信息的集群无损压缩实验环境。将Deflate、GZip、BZip2和Lzo四类无损压缩编码融入Map/Reduce云计算任务,利用调度端的断面量测记录集进行测试研究。 以调度监控系统中的量测值存取为例进行研究,结果表明:针对四种无损压缩格式,在断面记录超过3百万以上时,BZip2集群压缩效果更好,可达到约81.1%,通过逐步增加断面记录数,利用Hive数据仓库,使压缩比进一步达到约85%,因此,分布压缩方法适合在监控历史信息压缩处理中应用。相比而言,Lzo集群压缩速度快,约为BZip2的5倍,对500万记录数据的处理时间达28秒左右,即平均每秒能压缩17.8万个量测信息,满足工程应用中2s动态刷新量测数据的应用需求。
量测大集信息的无损云压缩与仓库存储研究