专业支持:(0512) 63016160 / 销售热线:(0512)63016068
当前在线: 288 今日上线: 1384 今日新增: 3

阿里云唐洪:三大关键技术挑战

文章来源:  中国云计算 发布时间: 2014年10月17日   浏览: 1861   作者:中国云计算

  10月16-17日,2014阿里云开发者大会在杭州云栖小镇举行。16日下午,2014阿里云开发者大会的主会主题是;服务不是口号,是承诺;。在阿里云计算有限公司总裁菲青;不忘初心,知难而进;与阿里云计算有限公司研究员张东晖;阿里云要打造稳定易用的产品体验;之后,阿里云计算有限公司资深总监唐洪详细分享了阿里云所面对的三大关键技术挑战:小概率故障成为常态;人是最薄弱的环节;多租户环境的性能隔离。并重点介绍了飞天平台的通用运维系统;华佗;,以及当下正在研发的所有云产品最小化的测试环境;麻雀;。最后,他用;困知,勉行;来总结云计算技术的发展历程。

  

 

  阿里云计算有限公司资深总监 唐洪

  以下为现场速记整理:

  今天的分享主要围绕技术展开,首先着眼飞天的架构。飞天的最底层是架构在Linux集群上,并没有使用任何高端的存储及服务器。同时,飞天使用服务的方式来提供功能,也就是通过Web API来提供,下图为部分功能,其中虚线标注的为即将添加的功能:

  

 

  飞天为阿里云产品和应用的通用平台,同时需要强调的是飞天是个多租户平台,也是当下能减少成本的唯一方式。这样一来,鉴于飞天的特性,我们将面临以下挑战:

  小概率故障成为常态。分布式计算中,当服务器规模达到一定程度时,任何小概率故障都有可能成为常态;

  人是最薄弱的环节。在重复事件执行上,机器是比人可靠,然而在当下飞天的运营环节中,还存在大量的人为因素,那么降低人在服务链条中的副作用也必须提上日程;

  多租户环境的性能隔离。多租户隔离可以帮助提升弹性和成本效益,但是同样存在着反面的因素,如果平台做不到不同用户之间的隔离,一个用户的应用可能就会影响到另外的用户。

  小概率故障成为常态

  磁盘的故障:磁盘是服务里面最容易发生故障的问题,SATA磁盘的年故障率是3%,这样一来,5K机器每天坏4块,100K机器每小时坏4块。

  机器的故障:一些常见的问题有内存ECC错误,根分区只读问题等等。如果有5K机器,每天会坏一台,100K机器每小时坏一台。

  网络故障:虽然比较可靠,但是还会发生丢包、时断时连等故障,阿里云集群受影响时间大约是每年每集群1小时。

  然而用户受影响的程度并不能用概率或受影响的时间来衡量,举个例子,比如联想企业网盘,从分钟到秒的距离就是生与死的界限。下图讲解为什么1台机器故障会造成1分钟左右的延时:

  

 

  图中M为主节点,P为从节点,女娲为分布式锁服务组件

  OSS使用了标准的分布式计算主从架构,M负责元数据管理,P1,P2通过数据分片的方式,负责一部分数据存和取的工作,它们和主节点通过心跳保持联系。当P2与主节点段连时,M节点会告诉P1进行处理,由于数据范围的不同,P1则会要求女娲交付P2负责的锁,然而女娲还需要等待P2锁的超时,随后才会告诉P1,同时P1需要在磁盘上取得P2的内存状态,从而进行构建。因此整个不可用区间包括了两个部分:1,到女娲取锁的时间;2,状态恢复的时间。

  为了去掉两个延时,特意为P1、P2、P3等配置2个辅助的进程,所有P1、P2、P3所做的决定都会和根从同步。因此,当P2发生故障时,其中一个跟从者即会转化为主(即P2的位置),这样不仅避免了取锁的时间,也去掉了状态同步时间。

  慢,也是一种故障

  作为云计算来说,性能就是一个很重要的功能点。这里我们看海康威视,他们的业务是一个家庭监控摄像头,他们使用云端在画面变化时进行数据分析,以发现入侵或其他问题。对于他们来说,当IO大于3秒时,必然会丢失数据。慢IO的解决并不容易,其原因千奇百怪不可预知,可能包括:光纤和硬盘等硬件老化、操作系统bug(莫名其妙负载增高)、瞬时热点等。为了解决这个问题,系统做了多个优化,在海康威视中使用的则是OSS Backup Bucket。

  

 

  最后,在小概率故障上,阿里特别开发了华佗进行快速甄别和自动化处理,详情可见《走近华佗,解析自动化故障处理系统 背后的秘密》。

  人是最薄弱的环节

  人工操作是故障的重要来源,其中主要包括5点:配置错误;代码修改后,操作流程没有同步更新;操作流程二义性;非常规操作流缺少验证;人为操作失误。在这个方面主要通过两个方面完成;;热升级和;麻雀;。前者主要解决人为参与比率、工作量,后者则是减少变更流的测试盲区,即包含了所有云产品的最小化测试环境;麻雀;。

  飞天打造经验总结

  唐洪以;困知,勉行;4个字进行了总结:困知,云计算的技术是书本上学不到的,只有分析一张张工单,一个个事故,分析每个问题产生的根本原因,从而慢慢学会;勉行,使用200%的努力去实践和积累。


标签: 技术 , 三大 , 挑战 , 关键 , 阿里
一键分享:

在线客服