专业支持:(0512) 63016160 / 销售热线:(0512)63016068
当前在线: 288 今日上线: 1384 今日新增: 3

直播33:中国人民大学信息学院副院长孟小峰《云数据管理技术》

文章来源:  中国云计算 发布时间: 2010年05月24日   浏览: 1569   作者:中国云计算

孟小峰:
   
大家好,很高兴今天来到第二届中国云计算大会给大家做一个交流。
   
我们从去年开始在关注这样的数据库技术,做了一些初步的探索,今天借这个机会和大家探索。下面是我报告的内容。
   
首先我们来看信息技术人们总结一下,有这样的一个规律,每15年发生一次重大的计算模式变革,我听专家介绍的,我发现确实很符合这个规律,从50年到65年大型计算机时代,80年进行个人电脑计算模式时代,对学术界带来新的一场革命,研究新的出现。95年互联网出现到现在又给我们带来很多机会。
   
今天我们仍然面临重大变革,由于处于初期萌芽,我们无法定义和说清楚到底是什么新的计算模式开始出现,已经隐约在思考这个问题,否则不会像今天这样的场合聚集这么多人,我想每个人看到这个时间点,为了不被历史落下积极的寻求。
   
这个时候思考问题,像95年思考互联网是模糊不清的,对未来看不透的,但是恰恰这个时候一个机会。
   
云计算大家从概念上和其他技术比较,这些都不重要,因为他正处在初始的萌芽阶段,如果什么都被人们准确刻划和定义不可能成为新模式出现,我们可以看到存在一些挑战,就是说能够给人们提供低廉的一种计算资源,尤其是在云计算上至少要聚集几十万,几百万甚至几千万计算机人,我们传统研究分布式数据库,128节点,这是我们支持最大的。显然这样的几万几百万的规模下,我相信量变到质变存在,我虽然说不清楚,几十几百万万节点出现给我们带来什么挑战,但存在问题。
   
最近看到一个例子,我或许对他有所转变,是讲美国一个房地产公司计算一个67万家庭,12年间的房产数据,按照传统的做法去搭自己的平台,购买自己的软件产品,要做周期和投入是6个月数百万美元的一个开销,但是在云计算初始阶段我们看到带给我们的直接便利,最后这个公司租用亚马逊的弹性计算云的计算能力,通过强大的数据分析,用3个星期不到5万美元解决了这样的问题。我在想如果我们真的能够构筑这样的计算资源,给人们提供满足他们需要又如此廉价的服务,我想没有任何人拒绝,一是我愿意探讨这个技术的原由。
   
简单看我们面对的一个形式是什么样的?信息爆炸大家已经感觉到,IDC统计每年有57%的数据增长,意味着每18个月数据将被Double(音)一次,我们面对数据量对我们提出严峻挑战,使我们目前数据库技术已经不能应对这些蜂拥而至的数据的浪潮。在各个领域都呈现严峻的挑战形式,这是为什么人们积极寻找构建新的云存储,云数据库来应付这样海量数据到来。
   
数据不断从前端向后端聚集,PERVASIVE COMPUTING的普及形成了THIN  DEVICE的模式,大部分数据被聚集到了一个中心服务的地带,因此这两项趋势造成我们面临一个巨大的数据集合。
   
目前数据管理面临挑战性方面包括我们如何去应对不断开展的数据规模,如何提供一种好的可扩展性,如何提供一种好的成本效益的一种服务,如何去支持在这种模式下一种好的容错能力,以及如何有持续研发的机制。这是新的系统面对的,这是传统的不能解决的问题。
   
未来的数据库,云数据管理系统,我们设想一下应该在这几方面得到很好的体现,在可扩展性和成本效益方面和容错性方面持续的简化能力方面和易于管理方面等等,更重要的是构造新云数据管理要能支持多种形式的应用,这是一个很复杂的问题,因为每种应用需求都不一样,目前我们在构造云存储是针对某种应用或者某种情况设置的,显得有局限性,要构造一个在60年代面对企业所推出的RDBMS,必须要考虑对多种应用的支持,这是很难的问题。
   
为了继续这样的一个研究,我们做的BENCHMARK有全面性,我们看到雅虎一个小组做了对现有的云数据库系统的一个分析评测,和我们相比很有限。目前来看,在云数据管理上出现的一些技术,大家已经很清楚,主要是有一些企业,由于内部面临刚才我们呈现的这样一个海量数据管理问题,限制了DBMS不能支持,根据他们业务情况和需要构造了一些我认为是专属的一些所谓的DBMS的雏形,像60年代初数据库技术没有出现的时候,第一个数据系统是一个文件存储系统,在对数据管理方面做了一些能力的加强,目前这个情况大致可以类比当时3040年前的情况。
   
这些系统如果从划分来看,典型两类,一个是基于Google的一个系统,结构用了储存的方式,此外DYNAMO为主体采用P2P处理结构。
   
以上这些系统主要应用在如下的一些企业,在构筑自己的一些专有的应用系统。对现有的云数据库系统我们做一个大致的分类,总的来看,目前我们从市面上可以看到的有开元的,有企业自主开发的,我们认为总的分两类。一类是DFS为基础的,在每个节点上管理数据借助现有的DMS管理,在这上借助云计算平台构建一个云数据库系统,大致有这样两类。两类中能支持SQL的是这样的集合。
   
我们为了做系统评测选取以下有代表性的四个系统。前三个系统大家熟悉,HADOOPDB是耶鲁大学一个研究小组开发的一个系统,是基于MYSQL基础上。
   
下面简单给大家介绍这方面情况,HBASE是基于HDFS做存储,是不支持SQL的,目前HBASE应用很广泛,在雅虎等等领域得到应用,可以做分析型的处理。CASSANDRA是另外一个代表,支持P2P,不支持SQL魏源清:,另外也很红火,独立一支,试图在数据库领域创出另外一派,号称以他为基础的标志,目前在这些系统上得到很好的应用和体现。
    HIVE
是支持SQL的。HADOOPDB是基于MYSQL的一个方式,在节点是靠MYSQL,可以支持SQL。从简单以上几类系统做一个分析看,按这样三个分类,在DFS这得的云数据库方面,他们在以下方面有优势,在可扩展性,容错性,数据复制等等方面是非常好的,但是这些系统目前不支持SQL
    DBMS
这类云数据库系统可以比较容易支持SQL,可以容易利用一些优化方法,但是瓶颈仍然在数据存储上面。此外,在数据复制能力上有限。HADOOPDB结合两种特性的DBMS,总体看似乎是未来趋势,但是性能是一个主要问题,这是目前我们需要积极解决的。
   
我们做了一个很周密的一个BENCHMARK,看他们的性能对比怎么样,我们的目标是想测不同的存储云存储系统在各种条件下的性能对比情况,以及他们在各种学院情况下技术差异性。这是我们搭建的一个平台,有20个节点,采用的操作系统是LINX系统,测试系统基本用最新版本,HADOOPDB是一个学者自己开发的,并不是很完善。
    BENCHMARK
我们做第一个方面是看各个系统在读写能力的差异,和可扩展性方面的表现,数据集采用的是一个5G大小的一个DABO(音),有个测试系统有两个系统,主要是想测试主从机构和P2P结构呈现什么优势。这是一个基本结构,HBASE的执行情况,总的来看,HBASE读的性能要好于写性能,我们在写的方面初始顺序写和正常顺序写方面,初始顺序写的代价很高,之后性能会稳定下来,这是由于他的结构造成的,这是我们得到的一些基本的一些结论。顺序读很快。
   
这是HBASE扩展性的表现,在101519个节点,因为有一个节点作为MAST,我们是看这样的情况下,他们的读写性能的一些表示,总的趋势还是增长的。这条线很奇怪,在51015个节点还好,但是到19个节点,SCAN下降,原因怎么样,这些结构刚刚得到我们没有做详细分析。这个图和上面一样,是看每一个节点上的性能表现,在5个节点的时候我们看每个节点的量的情况。这是CASSANDRA的情况,和HBASE比,写性能明显有优势,但读性能相应的要差一些,这是两个系统的根本区别。
   
这是CASSANDRA的一个能力,在51020个节点性能表现。这方面实验很多,这组实验主要是做测试,他们在SQL支持的能力,我们构筑三个表,测试系统有4个系统。我们看能力表现是什么形式。
   
这是第一个图,从这里可以看到四个系统读写能力情况,目前来看,我们说在红色这块的性能最好。这是对SELECT的查询,的一个测试情况。这是对GREP查询是一种模糊查询,数据库中是一个LIKE查询,效率比较差。
   
还有一个有意思的结论,这是一个容错的测试,我们在系统运行过程中,制造一个故障点,看系统重新执行的性能表现,从这个图看CASSANDRA容错能力强,蓝图是正常时间,红图是故障情况下的执行时间。这个测试我们说很困难,我们也是费很大尽做的。
   
我们介绍我们实验室基于上述分析和考虑,以及对系统对比我们给出一个原形系统架构,我们基本考虑提到的,我们希望设计一个云数据库系统支持多种应用形式,能够针对分析型的应用,也能够针对流媒体的应用,也能针对频繁访问的WEB2.0的应用,包括需要很强移植性的应用,这样的情况下我们怎么样构筑高效的可靠的容错的系统。
   
我们项目目标是要去开发一种新的数据库系统,能够支持下一代的数据存储和管理,可以应用到一些领域上。为此我们设计了一种叫双核结构的太极,命名为太极系统,主体思想是力图把HBASECASSANDRA优势结合起来,构造一个有效的体系能够支持多种应用的一个需要,为什么用太极,因为很能够反应我们这个思想,太极是阴阳两态能够和谐一致共存。太极更重要体现了由混沌到有序的思想,因此这正是我们要构筑我们的太极DB的核心理念,整个系统架构很简单,三个层次,在数据存储层,这个侧讯是能够支持SQL
   
这是这个结构的具体架构,是对刚才结构的细化,包括了前端的用户接口,可以支持SQL支持一些API,我们架构一个查询处理层,有一些管理。
   
我们在存储层和查询处理层间构筑了一个统一的执行引擎,使得能够把我们所谓的双核结构有效统一起来,支持SQL执行的需要。
   
这是一个总体结构,这面我们也有相应的一些管理工具配合整个系统执行,这是我们目前初步有了一个系统,在这个系统里,用户在我们系统里可以支持两种存储结构,用户可以致用用SQL用,这样的数据出来为我们应用开发带来多大的便利。这是一个很长远的目标。
   
归纳一下我们的工作,就是试图去构造一个更优化的存储的系统来支持数据库的查询技术,最主要是我们能够支持多种应用这里有很多研究问题,包括双核结构如何共存,怎么样能够有效支持用户应用,需要用户自己选择。在这方面有一个很重要的工作需要开发,一个云模拟环境,我们在实验室里构筑20节点我的实验室构造不出几万几十万节点环境,真实云计算环境没有几万几十万规模不能谈,如何开发出一个可为大家共用的云模拟平台,能够在20100节点上开发一个模拟出几万几十万的一个云仿真系统是非常现实的课题,谁先做出来,企业界和学术界都会为他拍手。
   
这是我们目前小组开发团队。谢谢大家。

提问:您提到很多数据库,数据库比较大的是Oracle没有提到,你认为云计算数据库,Oracle冲击是什么?以前我们很多应用,现在要转到云数据库方面你们有什么建议?

孟小峰:
   
技术趋势变革是无人能比的,目前我们在云数据库方面研究完全在一种新的平台和新架构,新应用模式上开发,Oracle是那个时代,找到机会并且开发了这个平台,Oracle有能力把握现在一个新的挑战。至于现有的基于传统数据库是不是适用于未来,这需要两方面努力,我们其实在开发系统就想达到这样的目的,使得原有的应用能够平滑的移植到云平台架构上,为什么我们着力开发一种这种存储能力,能够支持SQL,就是使原有技术能够方便移植。


一键分享:

在线客服