基础软件能力撑起绿色计算未来
访中国信通院云大所副总工郭亮、蚂蚁集团绿色计算负责人何征宇

发稿时间: 2023-01-13 09:55 来源:人民邮电报 作者:本报记者 吴双 2023-01-13
分享X

春运期间12306抢票、“双11”优惠秒杀、医院就诊预约名医……针对类似的服务场景,不仅需要考虑如何提供足够的算力,还需要系统考虑如何高效利用算力。

当前算力的利用效率如何?为什么基础软件能力对于算力能效提升至关重要?提高能源利用效率的关键点在哪?针对以上问题,《人民邮电》报记者采访了中国信息通信研究院云计算与大数据研究所副总工郭亮和蚂蚁集团基础设施委员会主席、绿色计算负责人何征宇。

关注服务器算力碳效合理分配计算资源

党的二十大报告提出:“加快发展方式绿色转型。推动经济社会发展绿色化、低碳化是实现高质量发展的关键环节。”“双碳”目标驱动下,兼顾算力提升与绿色低碳已成为大势所趋,作为算力承载平台,数据中心正从高速发展向高质量发展方向演进。

如何统筹算力提升与节能减排?提高能源利用效率的关键点在哪?何征宇认为,算力背后的核心是能源,从发电到机房,再到通过软件提供计算服务。从碳的角度来看,能源转化为算力可分为三个阶段:第一阶段是从能源到电力的转换,为服务器提供电力;第二阶段是从电力变成服务器的算力,即硬件算力;第三阶段是通过软件技术,从硬件算力转换为计算服务,比如高性能计算等。何征宇指出,服务器的利用效率对于算力绿色发展而言至关重要,但目前关注度较低。根据相关数据,全球数据中心服务器CPU利用率只有6%~12%,这意味着90%的硬件算力是被浪费的。何征宇认为,绿色计算其实要解决的就是在算力需求高速增长下,如何提升算力利用效率的问题,根本上也就是能源的问题。我们讲绿色计算,这三个阶段都需要涵盖,但是最后一个阶段是被忽视了很久、大有潜力可挖的地方。何征宇谈到,实践上,绿色计算主要分为两个方面:在物理层面,降低数据中心PUE值;在算力层面,合理分配计算资源。

建设数据中心时多在强调PUE值,即数据中心消耗的所有能源与IT负载消耗的能源的比值,是全球通用的评价数据中心能源效率的指标。《贯彻落实碳达峰碳中和目标要求推动数据中心和5G等新型基础设施绿色高质量发展实施方案》明确要求,到2025年,数据中心和5G基本形成绿色集约的一体化运行格局。数据中心运行电能利用效率和可再生能源利用率明显提升,全国新建大型、超大型数据中心平均电能利用效率降到1.3以下,国家枢纽节点进一步降到1.25以下,绿色低碳等级达到4A级以上。

数据中心中,服务器是最主要的业务耗能设备。郭亮谈到,伴随产业蓬勃发展,促使行业从单纯关注PUE指标延伸到用水使用效率(WUE)、基础设施使用效率(IUE)、碳使用效率(CUE)等指标,进而到关注服务器层面的计算效率,是行业发展的必由之路,也是未来绿色计算发展的核心。去年年底,中国信息通信研究院云计算与大数据研究所牵头撰写的《数据中心算力碳效白皮书》发布,该白皮书首次定义了服务器算力碳效(CEPS)的概念,并构建了碳效模型,根据测试结果得出:随着服务器性能的提升,碳排放总量呈上升趋势,但性能提升的速度超过碳排放增加的速度,单位算力的相对碳排放在降低。

锻造基础软件能力赋能算力绿色发展

算力调度能力对于算力产业高质量发展至关重要。郭亮谈到,区别于水和电,算力无法存储,服务器不用过时作废。按照位置来分,算力可分为云算力、边缘算力。以计算能力为分类标准,算力可分为通用算力(通常由x86服务器提供)、智算算力(由各种AI芯片提供的算力)以及超算算力。各种算力适合处理的计算业务各不相同,根据业务特点来匹配计算资源,做好算力调度至关重要。郭亮提到,目前业内对算力调度也在做大量的尝试,包括标准化的工作、DEMO版的研发等,对于后续算力产业高质量绿色低碳发展具有重要意义。

在不同时段、不同场景下按需提供相应算力,复用物理计算资源是提高算力利用效率的核心。大量的算力集中在云端,何征宇谈到,云数据中心的算力可分为三类:一是提供在线实时服务的算力,比如在线交易、查询。二是提供离线服务的算力,也就是我们通常所说的大数据,这部分业务对实时性要求不高,在服务器闲时提供计算服务。三是智能算力,AI相关的以GPU或者大模型训练为主的算力。何征宇认为,这三种算力实际上代表三种不同的工作负载,过去会把这三种算力分开对待,分别有不同的集群,比如计算集群、服务集群、存储集群甚至单独的AI集群。但如果底层系统软件做得足够好,能够在更深层面比如操作系统层面做好任务区隔,使得不同计算任务能够按照相应优先级去调配处理,并在短时间内进行任务切换,这三种算力甚至更多的算力能够融合在一起,从而让同一台服务器在不同时段、不同场景下按需提供相应算力,复用物理计算资源,有效提升服务器资源的利用效率。

以蚂蚁集团的绿色计算技术实践为例,何征宇介绍,蚂蚁绿色计算技术体系包含“在离线混合部署”“云原生分时调度”“AI智能容量”“绿色AI”,其中,“在离线混合部署”通过自研的Kata云原生安全容器,将离线任务混合部署于在线任务的服务器之上,可以避免在线和离线业务独立部署造成的浪费;“云原生分时调度”能够根据负载数据编排调配计算资源,把计算资源灵活合理地分配给不同任务,从而提高服务器的利用效率。在2022年“双11”期间,依靠这套绿色计算技术,蚂蚁集团节电153.8万千瓦时,减排947吨二氧化碳当量。

提高服务器利用效率,对于算力绿色发展具有重要意义。郭亮谈到,中国信通院将继续做好相关政策规划的制定支撑工作,持续完善兼顾性能和能耗的相关标准体系建设,从政策层面引导行业绿色低碳发展。从用户角度,郭亮建议用户方能够更加重视产品的绿色低碳化,在关注产品价格、性能的同时,增加对碳效、算效的关注度。对于算力的利用,郭亮建议综合考虑不同业务对于计算能力、存储能力、网络能力的个性化需求,将应用模型与硬件能力紧密结合,使得能源使用效率达到最优。

绿色计算的发展,本质上是软件行业的高质量发展,因此加快培养软件人才势在必行。何征宇介绍,2022年末蚂蚁集团主办了国内首个以“绿色计算”为主题的软件赛事——绿色计算大赛,在参赛选手中,六成来自清华大学、北京大学、中山大学等高校,四成来自华为、字节跳动、Shopee等企业。蚂蚁集团开放了自己的真实业务场景作为大赛赛题,比如把集群中的调度trace拉出来让大家设计调度算法等。何征宇说,非常欣喜地看到,通过科技大赛,有更多对软件行业感兴趣的学生以及工程师关注软件的高质量开发,其中不少人提出了相当高质量的解题方案。蚂蚁希望通过真实场景的赛题设置,让各类人才的聪明才智充分涌流,利用软件技术去解决实际问题。何征宇谈到,这个比赛蚂蚁将持续办下去,希望和高校以及行业一起努力,借助赛事、技术社区等方式传播绿色计算的理念,汇聚科技人才,为持续探索利用软件技术推动社会绿色与数字化双转型贡献力量。

请扫码观看视频内容

新闻附件:

《工业节能监察办法》今日起实施,2分钟视频快速了解

特别推荐

相关新闻