专业支持:(0512) 63016160 / 销售热线:(0512)63016068
当前在线: 288 今日上线: 1384 今日新增: 3

一周云热点:Google打造云中Hadoop便捷版,强势对抗AWS

文章来源:  中国云计算 发布时间: 2014年01月18日   浏览: 1508   作者:中国云计算

1. Google打造云中Hadoop便捷版,强势对抗AWS

上周,Google为其Google Cloud Platform增加了Hadoop 连接器,这样开发人员现在已经能够很轻松的在Google计算虚拟机上进行Hadoop操作了,Google Cloud Storage Hadoop的预览版将使开发人员不用再花大力气去管理集群和文件系统。在此领域,Google和AWS的竞争将更加激烈。

 

下图是Hadoop在Google Cloud Platform上的图解。在Google Cloud Storage上存储数据时HDFS、NameNode是可选的。 

 

 

下面是用Google Cloud Storage运行Hadoop的优势:

兼容性:Google Cloud Storage connector for Hadoop 代码兼容Hadoop。 
快速启动:当数据复制到HDFS以及NameNode,你不必等待过长时间来结束安全模式。 
更高的可用性和可扩展性: Google Cloud Storage比HDFS具有更高的可用性。 
低成本:包括存储和计算两方面都节省成本,同时,它是以分钟计费。 
没有存储管理开销:Google Cloud Storage只需要为计算付费。 
互通性:通过在Google Cloud Storage保管数据,你可以从Google上其它的服务中获益。 
性能:由于有了Google Cloud Storage,Google的基础设施将会比HDFS提供更高的性能

 

 

 

2. 平均比Hive快24倍,Impala剑指Stinger

在YARN之前,Hadoop仅适用于离线处理场景。基于实时性的需求,各个机构纷纷研发了自己的流处理框架,这次我们说的是两SQL-on-Hadoop项目的对决,同时也是两家知名Hadoop解决方案提供商的比拼Impala vs. Stinger。

 

测试对比版本是 Impala 1.1.1与 Hive 0.12(集成了Stinger),Hive运行在ORCFile 数据集之上,Impala 则使用了Parquet存储相同的数据。为了让Hive得到最佳性能,Cloudera还将TPC-DS查询转换成SQL-92 join,并且手动优化了join顺序,指定了分区字段,Impala也做了同样的优化。数据大小是3TB,使用了典型的5 Hadoop数据节点配置。查询也使用了多种类型,也包含了多种标准join及聚合,还使用了复杂的多级聚合和子查询。

 

测试得出的结果是Impala比Hive快6-69倍不等,类型包括以下几种: 

 

3. Netflix开源S3一致性提升利器S3mper Fi

 

上周,Netflix开源了S3mper,这对那些在使用AWS S3存储服务,而且想要更高数据一致性的用户来说,绝对是个好消息。这一次,它的开源S3mper库已经经过优化和测试,这样可以确保在AWS巨大的S3存储服务里有更好的数据存储一致性。S3mper遵循Apache License 2.0。这对利用S3进行大量批处理以及对一致性要求很苛刻的金融或医疗领域会非常有用。

需要更好的一致性可以采用二次索引在S3上支持原始数据的同时编制文件元数据目录, Weeks 写道。但他同时表示这可能有问题。他说,在小范围里,你可以通过使用一致的、二次索引在S3上支持原始数据的同时为文件元数据编制目录得到你需要的一致性。但随着规模增大,情况会变得越来越棘手。一般来说,只要二次索引能够处理所有的请求,它就会正常工作。不过,当你依赖两个独立系统时,数据丢失和性能冲击的风险会随之上升,他说。 

4. 开放式创新改变世界OpenStack生态系统将重新洗牌

OpenStack基础软件开发周期长、投入大、技术创新转化成产品需要更多时间,超越公司的开放协作才有利于和促进产业繁荣发展。OpenStack能否成为继Linux之后开放式创新的又一成功案例呢?这个成立之初仅有两个基础模块的OpenStack,如今已发展成为拥有9个核心子项目(Havana)一系列孵化项目的庞大开源组织。吸引到了众多开源领域的专家加入,还有厂商们的大力追捧。

 

 

但是OpenStack确实给一些初创公司带来了很高的知名度以及投资机会,但基础软件开发周期长,投入大、见效慢,技术创新转化成产品需要更多时间,而现在还搞不清楚用户在哪里的初创公司已经逐渐失去往日的光辉。

 

5. 【产业观察】金山云总裁王育林:星星之火 可以燎原

AWS近期的入华,使得业界对于云计算服务的关注度飙升到了最高点,国内云计算供应商也纷纷祭出了价格战这尊法宝。然而王育林认为,在企业级市场,价格战很难真正奏效,让用户亲身体验服务的质量才是王道。

 

 

我并不看好亚马逊AWS在国内的发展情况。抛开数据安全和保密性不说,其根本不能真正适应国内的市场发展情况。在这方面,本地化资源成为了左右战局的胜负手。说到底,云计算服务是一种资源整合的快速反应能力。这些资源包括了用户资源和产业资源。在中国,实践证明金山云的开发者资源、阿里云的金融资源已经强大到足以助推整个平台的发展。 

 

 

 

 

6. 回顾2013:HBase的提升与挑战

 

回顾2013年,总结下这一年HBase在这么一年中发生的主要变化。影响最大的事件就是HBase 0.96的发布。代码结构已经按照模块化发布了,而且提供了许多大家迫切需求的特点:

 

 

1. Compaction优化
2. Mean Time To Recovery/MTTR优化 
3. Bucket Cache (L2 cache on HBase)
4. Java GC改进 
5. HBase的企业级数据库特性(Secondary Index、Join和Transaction)
6. PrefixTreeCompression 
7. 其他变化

 

展望2014年,HBase即将release 1.0版本,更好的支持multi-tenancy, 支持Cell级别的ACL控制。

 

7. 利用ElasticSearch和Redis检索和存储十亿信息

 

如果从企业应用的生存率来看,选择企业团队信息作为主要业务,HipChat的起点绝非主流;但是如果从赚钱的角度上看,企业市场的高收益确实值得任何公司追逐,这也正是像JIRA和Confluence这样的智能工具制造商Atlassian于2012年收购HipChat的原因。

同时,或许你不知道的是,在Atlassian资源和人脉的帮助下,HipChat已经进入了一个指数增长周期。12亿的信息存储意味着他们现在每隔几个月的信息发送、存储和索引量都会翻一番。全文从统计、平台、产品、XMPP服务器架构、存储架构、常规、未来、经验教训等方面对HipChat做了全方位的介绍,即使HipChat没有谷歌那么大规模,我们仍能从中学到好东西,比如他们如何及时索引和搜索十亿信息。

8. 【CSDN云计算俱乐部】九城及携程的Hadoop大数据平台

 

 

随着移动互联网的发展,中国的手机网民已经接近6亿之巨,如此多设备带来的价值不言而喻,因此大家一直在谈论大数据,也一直在寻找更好的Hadoop使用途径,本期CSDN云计算俱乐部的主题就是围绕Hadoop展开的大数据掘金之路。2014年1月4日,CSDN云计算俱乐部在上海市第九城市信息技术有限公司培训室举办活动,本次活动的主题是从Hadoop实践到基于业务的分析,开启你的数据掘金之路。


来自九城技术部负责Hadoop的架构师,周诚带来的主题是Hadoop大数据分析,主要分享九城搭建的一个以Hadoop为基础的大数据平台,同时还分享了相关的具体案例。最后他还分享了九城的商品定向推荐功能。 

下来进行主题分享的是来自于携程旅行网负责网站运营中心容量平台的周海燕,她带来的主题分享是ctrip的web容量分析办法。主要介绍了ctrip的容量规划任务,通过使用当前性能作为基线数据,评估以及预测系统需要什么资源,什么时候需要更多的资源。其中包括,基于周期性季节指数预测法的业务量预测,基于回归分析的web容量预测等。详细的PPT分享请点击原文链接。 

 

9-10. AWS会赢、OpenStack会消亡、Connected Cars可防僵尸攻击Pivotal聘用eBay前副总裁,继续发力云计算市场,更多云计算热点,请继续关注CSDN云计算。


一键分享:

在线客服