技术
首页  >  云计算  >  热点专题  >  2016 ODCC技术分享和成果宣贯会  >  要闻

ODCC委员、ODCC服务器工作组项目经理刘礼寅介绍天蝎关键技术新进展

2016-04-14  来源:中国信息产业网  作者:

CNII网讯  4月14日,2016 ODCC技术分享和成果宣贯会在深圳召开。开放数据中心委员会的技术专家分享了各自研究领域的最新进展及部分已公开成果。ODCC委员、ODCC服务器工作组项目经理、阿里巴巴-服务器研发高级产品经理刘礼寅围绕天蝎关键技术新进展进行了主题演讲。

以下是演讲全文:

ODCC委员、ODCC服务器工作组项目经理、阿里巴巴-服务器研发高级产品经理 刘礼寅

首先感谢大家过来。今天真的非常荣幸有这么多人过来参加这个会议。

我叫刘礼寅,阿里巴巴的花名叫卓九,目前是负责阿里巴巴整机柜产品经理,同时负责阿里巴巴服务器的演进、规划和产品定义。我在这里就天蝎2.5关键技术的进展和成果,以及我们具体细节和大家做的一些沟通。

我主要讲个三个:一是DT时代基础设施的挑战和机遇;二是天蝎整机柜服务器的发展回顾;三是当前情况下,哪些新的方向我们要走。

我们非常幸运在DT时代、数据时代,越来越多的互联网+的公司在蓬勃发展,这背后其实孕育着非常多的商机,不仅是对最终用户,也对服务器厂商,周边生态系统的环境都有非常大的影响。

从业界角度来讲,从大的超级计算机到小的UNIX小机再到X86服务器,再到近期,业界正在从X86服务器本身转到云上的X86服务器,云服务越来越成为基础生活的一部分。从业界的角度来讲,不仅是亚马逊,包括微软、face book,技术的更新换代是越来越快,这种快的收益成为我们做技术变革的非常大的推动力。中国其实是在很多产业是落后于美国或者落后于全球的,唯独互联网区域现在有BAT三家,在某种程度上是可以和北美的四家,亚马逊、微软、face book、Google有一定程度的竞争。所以,在互联网领域,我们其实是有机会能够做一些事情,能够把二三十年的技术差距缩小,甚至弯道超车。我们要一起把技术的生态做起来,一起把新技术推进来。比如在阿里,咱们做去IOE,去掉IBM、EMC,这背后有非常多的人的努力在里面。同时以阿里云为首的互联网公司,其实也在非常积极的探索技术的革新,推动产业发展,减少我们用户的成本。

数据中心我们也面临很多挑战,同时也是机遇。一是规模。我们的厂商也好,行业也好,其实在之前没有看到的情况是,需要在非常短的时间把供应链搞定,把交付搞定,这是非常大的挑战。对于互联网公司本身来讲,它的拥有规模是很大的,以前管几百台服务器就够了,现在管理的服务器以万起步。我们最近看到的数据是Google已经在它内部讨论如何管理千万级的服务器,这个量实际上是非常大的。真的等你到管理万级之后,你就会发现,以前管百台、千台的经验都不够用,是不行的,你要考虑更多的东西去满足你的百万级甚至千万级的运维需求。

二是成本。在任何公司或者盈利机构里面都对成本非常看重,包括采购成本、运营成本,运营成本里面又包含网络成本、带宽成本、人力成本,还包括机柜的租金,这都是非常大的投资。

三是创新。现在的问题是别人给咱们什么东西,咱们用什么东西。实际上很多东西对我们来说没用,比如公司给我7个服务器,我的配置里面只差一块PIC卡,这说明我多花了钱反而没有得到收益。互联网公司对定制化的东西越来越敏感,希望能够从最底层掌控自己的硬件设施,让它更加准确、更加灵活、更加有效的为上层服务。从上层到底层的链条来讲,还会更加往前一步,从软件层面再到数据中心,再到机房再到服务器层面做整个链条的优化,包括软件适陪服务器的硬件,还包含服务器硬件如何做定制去适配软件。这部分的能力可能是整个行业,包括北美四大巨头,包括我们三家都在探索的地方。而且目前已经有了相对比较规模的部署方案。

我们其实早期就有了天蝎这个项目,我们的目标是应对大环境里面应对的挑战。交付效率、成本、能耗等问题都是我们需要看的点。

天蝎1.0的初衷是要做到省成本,要做到管理、交付速度。我们为所有大规模的客户提供服务,要满足要求才会有模块化设计。我们的机柜、电源、散热、集中管理、多节点子模块,形成自己的要求。当时考虑最大规模要适用现有技术,标准的服务器机柜的高度是19寸。电源做集中管理,做N+N的冗余,然后给每个服务器取电,集中管理,RMC独立控制。节点有完全独立的设计,每个用户根据自己的应用需求设计自己的节点,然后再基于节点的配置做测试。我们首要解决部署、速率、节能、管理的问题。

天蝎2.0做的事情是分成两种规格,2.1米、2.3米,适配现在的机房。我们拓宽宽度,从19寸到21寸。19寸是标准化的事情,21寸更宽,有更大的舞台发挥,能做更多的事。天蝎的U叫SU,高度是46.5毫米。我们还做了机柜的背板升级,做了热插拔功能。散热方面统一风扇的规格,优化散热策略。这几个做的事情表达的策略是天蝎1.0上我们要做的更极致,更加满足业务的需求,更加定义化,更加的节电,更加注重管理。

天蝎2.5在去年峰会发布,有两个比较大的变更,一是做机柜BBS,电池的UPS,做到双路和单路的市电直供,两个SU的高度。宽度538毫米,深度小于850毫米,提供220V输出,容量是2.2KWH,8.8KW的15分钟恢复,12KW10分钟可以恢复。电池本身能力比较强,通过RMC统一管理。我们还做了节点的混插互换,这部分是BAT甚至运营商都非常看重的。RMC IPMI命令规范做了相对规范的定义。大家如果有兴趣可以参考天蝎2.5的技术规范,里面有详细的技术细节。

在讲存储前我要先讲一个数据,这个数据证明了存储的重要性,其实我没办法去看百度、腾讯、阿里自己内部的存储趋势,我以亚马逊自己公开的数据来给大家分享。这幅图是去亚马逊参加峰会的时候拍的图,这个是亚马逊提供给用户的一个公有云的存储趋势,2012年到2015年每年都是有翻番的增长,这个增长量非常大。对于BAT来讲,增长趋势和这个非常类似,这证明用户越来越多上云,越来越多把数据放到云上面放到存储里面去。因为有这样存储的需求去催生自己在设计存储服务器的时候,需要考虑更多的事情,因为每GB的成本对我们来说是非常、非常重要的。

这就有了天蝎存储型服务器的设计。这是基于天蝎2.0系统,为什么天蝎2.0从19寸到21寸?也是有这个考量,因为21寸里面DU可以放12块可热插拔的空间。存储密度相对标准的服务器12块插拔硬盘是提升了200%,一个机柜能做到的存储密度是相当高的。它的用户场景其实是在我们广泛定义的冷存,包括温存储,18块盘里面其实是可以自己定义配置的,18块盘可以全部是SMR,可以是一部分近线盘,一部分SMR,可以基于用户的应用场景做比较好的适配,这是应用用途非常广泛的高密度存储架构。细节方面,SOC的主板非常简单,设计简洁,可以做到低功耗、低成本,问题在于SOC可能没有外面的接口,CPU能力相对比较弱。

最后稍微讲讲我们在过程中还碰到的挑战。其实互联网公司的FOX都不准,这对我们厂商都造成一些影响,我要给你备料,但是一旦你要的东西和我备的东西要少了,多的东西给我造成财务的影响,这怎么解决?需要把生态做的更好,这确实是我们的最终用户要考虑的事情。我的部署颗粒度,也许在很多场景上,天蝎的密度很高,但是可能在一次部署里面也有可能出现我的某些应用上,一个应用可能只要几台服务器,怎么做?另外搬迁,互联网机房搬迁是非常频繁的,搬迁的问题怎么解决?搬迁之后天蝎服务器怎么利用,这也是我们会考虑的非常重要的问题。因为有这些挑战,有些思路可以跟大家共享。

一是想做一个Purley公板,这不仅是给百度,也可以给阿里,也可以给腾讯,也可以给电信、移动同时使用。这个做出之后,可以一定程度解决厂商供应链问题,我的备料可以放心大胆的备,即使百度不要这批服务器,也许阿里要,也许腾讯要。这可能会是帮助大家解决生态系统供应链的问题。二是节点混插,从A站点搬到B站点,B站点服务器厂商不是A的厂商,那一些节点可能需要插到B厂商的机柜里面,这种情况下,一定要支持节点混插,给用户、给运营形成灵活性。三是会开放天蝎存储服务器SPEC给业界,可以帮助大家做非常好的差异化,能够做到非常高的存储密度,把GB的成本尽量压低。

我今天的分享到此结束。谢谢!

 

 

 

关键词:odcc技术分享和成果宣贯会 阿里巴巴 刘礼寅