在大数据之下如何降低数据机房监控控的PUE

     有数十万人在欧洲各地走上街头游行,抗议各国政客因在环保方面的不作为而引发的全球性环境危机,为将在旧金山召开的全球气候行动峰会拉开了序幕。

九月第二个周末横跨欧洲的示威拉开旧金山全球气候行动峰会的序幕

为什么会有这样规模的抗议,是什么引发了大多数人如此强烈的危机意识?日前腾讯《大家》所刊发的一篇英国学者罗杰·克劳利的文章《感受热浪》是很好的一个总结。文中关于数据中心的讲述,可以从另一个角度来稍作分析。数据中心的能耗和温控问题非常严峻,业界也早有共识。数字技术、科技巨头是否通过数据绑架了社会,进而威胁到人类文明的根基,不是我这篇文章要讨论的目的。数字化生存之前的日子,是否真如俗话说的“good old days”那般美好?每个人有不同的看法,但有一点可以肯定,我们回不去了。那么立足于现实,气候问题已经是数据问题!

话题既是从数据中心说起,那就先看看数据中心的近况,以谷歌为例。

上个月,2018年8月,“数据中心知识”网站刊登了一篇文章《谷歌正在切换至自驾驭数据中心管理系统》,报道谷歌数据中心的最新进展,刷新了我们2015年初对谷歌“基于AI的建议引擎”的数据中心温控系统的认知:它从提出建议,然后人工调节,升级至自动调节。

谷歌芬兰数据中心的冷却设备

举个例,大多数的数据中心操作人员并不认为台风预警期是进行温控微调以获得零星节能效果的好时机,这是很自然的反应,这个时期的优先级是什么?自然是加固系统,以求不被台风搞断电。

AI算法不一样,它就是被设计来寻找每一个可能省掉每一度电的机会,然而它并不将外界气候作为参数。在来自美国中西部一个数据中心的最新情况汇编中,AI对系统的调控起初让管理人员觉得匪夷所思,乱来。但经过仔细考察,AI所进行的每一个细微调控,在当时特定的参数环境下,都令人叹服。导致严重的风暴例如台风的气候条件,往往会形成气压和温度的戏剧性变化,这些在复杂的数据中心制冷系统中都是需要对参数进行调节的重要因素,在这种时候软件可以通过微校准来获得极细微的收效。然而,这样的微调是一个持续、实时的过程,人工不可能做到,并且人力的耗费和每一次调节的收效之间的比例也并不高效,与此同时,持续和实时的累积效应却又是巨大的。令业界惊叹的40%能耗节省报道,仰仗的正是DeepMind AI团队所开发的智能温控系统,它考察包括室外温度、气压、湿球温度、干球温度、露点、数据中心负载、热空气出口的服务器背部气压等21个变量,以达到实时优化数据中心PUE(Power Usage Effectiveness,数据中心设备能耗)的目的。

经过这么一段时期人工智能知识的普及,我们普通人也大致理解了,所谓“智能”,它是通过一个叫“学习”的过程来得以达成,而“学习”这一打磨人工智能的智商的过程所用到的材料,正是数据。也就是说,服务器的每一次运转,提供给智能体的数据越充分,它变得更高效而聪明的机会就更大。

从这个简单的例子,我们依稀感到,那些庞大的巨兽般散发着热量的服务器厂房,并非导致环境恶化的敌人。时至今日,计算机已经是我们能够利用的最高效武器,来抵御环境的恶化。

2016年发生了772起气候灾害,是1980年的三倍;20%的现有物种在面临灭绝的边缘,到2100年这个数字可能达到50%。即便全球所有的国家都遵循巴黎气候协定,到2100年,全球平均温度将上升3摄氏度。我们显然不能把地球的未来交给上面通过一个例子得来的“依稀”感觉,我们得认真看一看AI在这件事上究竟能怎么帮我们。

2018年1月世界经济论坛发表的有关未来的环境和自然资源报告《整合人工智能来维护地球》将AI称为影响环境的游戏改变者,列举了与气候和环境相关的例证,比如,印度的农民在AI的协助下,将豆子的产量提高了30%,AI所做的是,提供播种前准备土地、施肥以及选择播种日期的信息。而挪威电网则利用AI生成了更灵活的自动配置,集成了更多可再生能源……所以,如今研究气候,归根结底已经变成研究大数据。随着观测卫星越来越多,研究气候变暖的科学家们缺乏的不是数据,而是利用这些数据的工具。

他们很显然转向AI求助,机器学习的本性与环境科学十分匹配:运行一次高精准率的气候模型所产生的数据是PB级别的,PB有多大?1PB大约是1000个TB,而英国气象局所保存的气象数据大约有45个PB,并且以每天0.085PB的速度在增加,由此产生了一个新的交叉学科,叫“气象信息学”(climate informatics)。去年《自然》杂志上一篇文章提到:环境领域至少有三个方面证明得益于这一新学科在AI应用上的发展。首先,利用极端气候事件数据训练出来的机器学习算法,成功识别了热带台风与大气河流,后者常常为局部地区带来灾难性降水,且很难人工预测。其次,AI还被用于分析政府间气候变化专门委员会IPCC用来调研气候变化的几十个模型之间的优劣,算法将每一个模型所得出的独立结果赋予权重后再集成起来,所得到的分析结果远远好过单独的模型。再次,气象学家越来越多地利用AI来预测风暴持续时间。

然而,令这些专门致力于环境研究的科学家们真正担心的,不是数据中心的服务器散发出的热量,而是AI像个黑盒子,它表现优异,但你不知道它究竟是怎么学出来的,在我们更了解它之前,我们不敢彻底去信任它。

回到谷歌数据中心,针对类似问题,他们有个护栏机制。有人半开玩笑地说,如果你就告诉机器,去,将PUE优化了,因为PUE是总能耗与IT设备能耗间的一个比率,它很可能就把所有服务器给你关了。当然,以数据科学安身立命的谷歌工程师,与环境科学家在对AI的信任程度上是截然不同的。谷歌的策略是慢慢来,慢慢训练,但“我们绝对相信它”。气象学家不一样,他们更倾向于利用AI来帮助测试他们所创建的气候模型,需要一个建模的指路明星,机器学习是最好的工具。

2100年时,我们需要把墙修到多高才能抵御海水的入侵?下一个十年的热浪将会比现在糟糕多少倍?2030年的北极海运路线会是什么样?我们依然没有答案。在人类现有的认知情况下,AI最有可能是出路。连商业企业最怕的绿色和平组织也承认,没有回头路。能做的只是加大研究力度,并且在能源使用方面对企业进行跟进监督,鼓励“干净点击”(clicking clean)的“绿色互联网”竞赛。

专业文档是百度文库认证用户/机构上传的专业性文档,文库VIP用户或购买专业文档下载特权礼包的其他会员用户可用专业文档下载特权免费下载专业文档。只要带有以下“专业文档”标识的文档便是该类文档。

VIP免费文档是特定的一类共享文档,会员用户可以免费随意获取,非会员用户需要消耗下载券/积分获取。只要带有以下“VIP免费文档”标识的文档便是该类文档。

VIP专享8折文档是特定的一类付费文档,会员用户可以通过设定价的8折获取,非会员用户需要原价获取。只要带有以下“VIP专享8折优惠”标识的文档便是该类文档。

付费文档是百度文库认证用户/机构上传的专业性文档,需要文库用户支付人民币获取,具体价格由上传人自由设定。只要带有以下“付费文档”标识的文档便是该类文档。

共享文档是百度文库用户免费上传的可与其他用户免费共享的文档,具体共享方式由上传人自由设定。只要带有以下“共享文档”标识的文档便是该类文档。

腾讯到底有没有梦想?可能不会有个统一答案,但是腾讯肯定是一家产品驱动的互联网公司。腾讯公司董事会主席兼首席执行官马化腾曾表示,“中国的互联网很多是靠应用来驱动的,而不是靠技术”,而要承载如此之多的业务种类,正是数据中心这个大部分人都不会注意到的基础设施支撑着现代社会。

今年腾讯建设贵安七星数据中心的消息刷屏而过,贵安七星数据中心总占地面积约为770亩,隧洞面积超过3万平方米,一期项目建筑面积就达到了90618.57平方米,马化腾此前提到,“贵安七星绿色数据中心是中国乃至世界最安全的大数据中心,未来将用于存储腾讯最核心的大数据“。

在贵安数据中心的承载的业务量增长起来之前,雷锋网跟随数字中国万里行团队本次探访的腾讯天津数据中心仍是目前腾讯业务承载量最大的数据中心。就在2018年5月,腾讯天津数据中心服务器数量突破10万台,成为国内第一个单园区服务器数量突破10万的数据中心。

腾讯天津数据中心投产于2010年11月,是腾讯第一个全自建超大规模数据中心,也是目前中国规模最大的已建成数据中心,腾讯天津数据中心共四栋大楼,总建筑面积约92777平方米,其中2号楼为办公楼,另外三栋楼均为机房楼,建设时间和采用的技术均有差异。

1号楼投产于2010年,建筑面积约20446平方米,设计机架数1300个,设计总用电量18MW,单机架功耗8KW;

3号楼投产于2014年,建筑面积约38971平方米,设计机架数2300个,设计总用电量36MW,单机架功耗6.5KW;

4号楼投产于2017年,建筑面积约22516平方米,设计机架数1200个,设计总用电量18MW,单机架功耗6.5KW。

腾讯前三代数据中心经历了由厂房改建(传统方式)→自建园区(高压直流+free cooling)→模块化数据中心(采用MDC)的变化,2010年投产的1号楼是腾讯的第二代数据中心,实际负载在四年前已达9MW。2014年投产的3号楼属于腾讯的第三代数据中心。

单说10万台服务器服务器可能不太直观,我们以“数据存储”或“数据备份”来看,考虑到腾讯天津数据中心服役时间比较长,服务器新旧不一,假定硬盘的平均容量为4TB,每台2U服务器12个硬盘计算,可提供总容量480万TB,或者4800PB,或者4.8EB的数据。

再以该园区2号办公楼运营着的腾讯视频业务举例,倘若一部2个小时的蓝光高清电影按30GB来计算,相当于1.6亿部电影,要看3.2亿个小时,一个人36530年才能看完,这还只是一个数据中心的数据存储量。

如果把这些硬盘都换成12TB的希捷Exos X12氦气密封企业级硬盘,这个总存储容量会达到上面所说的三倍,功耗还可以下降10%-20%,甚至更多。如果折算成单位容量的功耗,那就可以低至三分之一以下。

作为腾讯如今最大的数据中心,如此之大的数据保有量,保证物理安全十分重要,为此,腾讯设立了五个防护圈,分别是红外周界、园区出入控制、大楼出入控制、楼内门禁控制以及生物识别控制,保护腾讯数据中心的数据。

从一号楼和三号楼数据中心的平面布局图可以看出,三号楼的功能区域分类明显比一号楼少,因为三号楼使用了MDC技术,在设计最初就把空调间、UPS间和电池间全都砍掉,相应的功能分布到MDC中,更为灵活、高效。

何谓MDC?据腾讯官方资料,模块化数据中心(Modular Data Center)是以微模块(Micro Module)为独立单位进行工厂预制、快速部署的数据中心,其中可包含多个不同功能、功率的微模块(Micro Module)配合使用,满足业务需求。

腾讯定制的TMDC=Frame&机柜(框架及机柜)+RPP(电源头柜)+HVDC(高压直流系统)+Inrow(精密空调),占地不过15平米的微模块却高度集成化,减少现场施工环节。

腾讯天津数据中心经理栗权告诉雷锋网,传统数据中心存在不少弊端,比如节能系统依靠建筑设计,很难更改;整体交付周期冗长(最快6-9个月),机架资源的储备度往往不能跟上业务增长的速度;施工单位众多,施工质量难以控制;由于一次性完成设计,后续较难适应因服务器侧的快速变化带来的变更需求,灵活性差;土建和IT建设紧耦合。拿地后需要立即启动土建设计和IT设计,两部分设计往往进度不匹配;UPS系统等存在事故隐患,也降低了电力转换效率。

采用TMDC技术的数据中心在很大程度上就能解决以上问题:

节能方面:TMDC颗粒度相对较小,便于综合多种节能措施,从而很好起到节能效果;

快速交付:微模块最快4周交付,快速的IT部署能力使低成本方式储备大量资源成为可能;

质量可控:通过在工厂预制,大幅度减少工程建设环节,减少安全事故风险;

生命周期:以微模块为单位,可灵活调整功耗、容量等配置;服务器生命周期结束后,也可以微模块为单位整体退役;

土建和IT建设分离。第一阶段只做土建部分,按简单厂房报建,预留标准接口给IT部分;

初期投资土建(不到20%)小,IT部分按需分期投入,分段验收;

高压直流彻底取代UPS,确保安全且效率高。

微模块技术最大的优势还在于节能,TMDC同时采用了通道封闭(5%-10%)、行间制冷(>4%)、HVDC+市电直供(8%)以及配电架构简化技术(4%),括号内数字即为该技术可节能比例。传统数据中心封闭冷通道或者热通道以提升效率,腾讯采用TMDC实现全通道封闭形成自循环,行间制冷可缩短内部送风距离,HVDC+市电直供减少了两次电力转换,效率更高,配电架构简化可减少前端线损1%,配电部分能耗已无需配套制冷,相应制冷能耗节约3%。

栗权表示,若一个传统数据中心,原来PUE(PowerUsageEffectiveness,电源使用效率)=2.0,合理使用MDC后技术综合节能约24%,理论PUE可以降低至约1.5。

10万台服务器供电和散热是很大的一笔开销,这就要求各厂商们都在追求更低的PUE。以一台配备2个英特尔至强金牌5118处理器(至强可扩展处理器家族在中国企业级市场上销量最好的一款)的双路服务器作为参考模型,满载功耗约400瓦,那么,10万台服务器一年的电费就是3.5亿度

如果PUE=1.5,每年电费支出就是5.25亿度;如果PUE降到1.2,每年就可以节约超过1亿度电。

栗权展示出了腾讯天津数据中心1号楼和3号楼的实际PUE数据对比,可以明显的看出,一年周期内采用了MDC技术的数据中心节能效果明显优于上一代,3号楼冬天关闭冷机是PUE低至1.2。

1号楼和3号楼实际PUE对比

在2015年腾讯云召开了“腾讯云2015年渠道伙伴大会”,会议地点正是腾讯天津数据中心,此举也被业界理解为秀肌肉的表现,毕竟一家公有云厂商如果连自建数据中心都没有,说话气势都要比其他云厂商弱一截。

腾讯在数据中心领域起步比较早,早在2006年就在深圳租了一栋楼开始尝试数据中心的建设和创新,2007年便开始了第一个20万规模数据中心的设计与建设,也就是现在天津数据中心的原型。2014年开始腾讯在深汕合作区和上海青浦也同时在建两个10万量级的数据中心。天津数据中心为腾讯独立建设与运营,深汕和青浦数据中心则是和运营商合作建设的大规模数据中心。

据国际行业研究&咨询机构Forrester发布的《2018年中国全栈公有云开发平台Wave报告》,腾讯云凭借优秀的产品服务能力、前瞻性战略视野,突出的市场表现,以3.76分的综合评分位列中国厂商第二名;此外IDC数据显示,腾讯云在2017年中国公有云IaaS厂商中稳居第二,市场份额超过10%。

腾讯云的市场表现离不开全球范围内数据中心的支撑,腾讯云在全球 25 个地理区域内运营着 48 个可用区,地理区域扩张是腾讯云全球化布局的首要任务,今年腾讯云还计划陆续上线多个区域和可用区。

如果腾讯天津数据中心的10万台服务器全部用于腾讯云业务,考虑到腾讯云已经在至强可扩展处理器这一代开始向英特尔定制规格较高的至强金牌61系列处理器,用于云计算的服务器存储、网络等配置又普遍较高,一台服务器的功耗可以达到600瓦,前述所列的支出还要增加一半。

在动辄上亿的开销下,哪怕“只是”1%的效率改善也意味着上百万的成本节省,这也是腾讯仍在深化数据中心自研道路的缘由所在。

贵安七星数据中心将采用T-block技术,T-block是由腾讯历时两年自主研发的第四代数据中心技术,外观是形似集装箱体的“方仓”,由办公箱、供电模块箱、两个IT模块箱、制冷模块箱A和制冷模块箱B六大模块组成。而通过这些方仓的标准化对外接口,可以实现便捷快速的大规模拼装对接。采用“搭积木”方式,全数据中心建设实现模块化配置及快速拼装,贵安七星数据中心施工周期还要更短。

与传统集装箱数据中心不同的是,T-block可以采用集装箱并柜或是钢架结构拼接等多个方式实现,拓宽了T-block的应用场景。2016年4月26日工信部电信研究院对腾讯T-block进行了24小时不间断带载测试,测得日电度PUE=1.0955,当然实际PUE存在偏差。

马化腾在各种公开场合曾经不止一次的谈及腾讯的数据中心和云计算,其最被广泛传播的话是在2010年的深圳IT峰会上,马化腾表示云计算要几百年后、一千年后才有可能到达阿凡达那种现象,这时候做云计算还显得过早。说归说,做归做,腾讯云的快速转变让业界柞措手不及,云计算业务在马化腾的支持下站在腾讯集团中央,要钱有钱要人有人,五到十年内投入100亿,这还不算前期投资。

马化腾两次为腾讯天津数据中心站台,腾讯全国各地数据中心落地仪式他也多次出席,腾讯其实早已有一个关于数据中心的“梦想”。

(本文作者为雷锋网张帅)

我要回帖

更多关于 数据机房监控 的文章

 

随机推荐