当前位置: CompoTech China > 专题 > 专题报道 >
 

数据中心计算力攀升 “体温“降低

本文作者:徐俊毅 马兰娟       点击: 2021-12-31 17:23
前言:
    ccid数据显示,自2016年以来,全球数据中心的总量呈下降趋势,2016年全球数据中心数量是45万座,到2019年下降到42.9万座。这并不意味着数据中心投资放缓,恰恰相反,全球服务器和服务器机架的出货数量一直在上升,大型(机架数量3000~10000)和超大型数据中心(机架数量大于10000个)的数量在持续增长。被淘汰的主要集中在机架数量小于500个的小型、微型数据中心,这些小微型数据中心在算力和运营成本上无法与大型数据中心匹敌,因此数量逐年减少。

    在2020年,全球超大型数据中心服务占比首次超过50%,提供了65%的数据计算能力,55%的数据存储空间,计算力量占比也超过50%。由于拥有全球顶尖的互联网公司,北美地区拥有全球最多的数据中心和计算力,起数据中心规模占全球44.5%。根据美国能源署的资料,全美数据中心耗电量约占总发电量的2%左右,以2020年全美发电总量为4.4万亿度来算,2020年年全美数据中心消耗的能源大约在800亿度左右。而这还是美国政府及相关机构经过不懈努力的结果,在2010年到2019年的10年时间,FDCCI(联邦数据中心整合计划)、FITARA(联邦政府信息技术采购改革法案)、以及DCOI(数据中心优化建议)等一系列措施,减少优化了7000个数据中心,否则,能源消耗至少再多一倍。

降低数据中心PUE值
    为了让数据中心更加有效地使用能源,人们提出数据中心PUE值的概念。

   PUE(Power Usage Effectiveness),电源使用效率,是衡量数据中心能耗水平的重要标志,具体算法是数据中心消耗的所有能源与IT负载消耗的能源之比,理想值是1,也就是全部能源都用在了数据中心的计算设备上。在低碳大环境要求下,各地都在努力降低数据中心的PUE值,低碳数据中心的标志就是PUE值接能够尽可能接近1。

    早期的数据中心PUE平均值在2以上,也就是说有一半电量是消耗在计算设备以外的,比如空调、服务器风扇、电力线路损耗等等,近10年来,随着人们对能源效率的认知提升,相关技术和产品的更新升级,数据中心的能耗强度自2010年以来,以20%的速度递减,能源利用率大幅度提升。目前,数据中心的PUE平均值控制在1.5左右,一些大型数据中心甚至更低。

    大量使用数据中心的美国科技公司,纷纷提出了碳中和时间目标,Google在2007年已经达成碳中和,Microsoft是2012年实现碳中和,已经更名为Meta 的Facebook宣布在2020年已经实现了碳中和,苹果设定的目标是2030年,亚马逊则是2040年,均比本国指定的2050年目标提前。

   Google在去年9月提出了到2030年,起全球所有数据中心都将使用可再生能源供电。Microsoft提出了优化储能系统的技术方案,并测试了氢燃料电池。Facebook一方面在全球采购各种可再生能源,另一方面在加紧优化其数据中心的能源效率,根据Facebook公布的资料,其数据中心的PUE值已经控制在1.1附近,正接近于理想水平。

数据中心功率密度不断攀升

   包括AI、物联网应用在内的各种应用纷纷上到云端,对数据中心的算力需求也越来越高,因此数据中心的功率密度在不断提升。从2020年的平均单机架功率2.4KW上升到8.4千瓦。

    Vicor公司指出:2015年之后,包括CPU、GPU、AI芯片纷纷进入数据中心,有些机架的功率甚至高达200千瓦,对电源供货商来说是非常大的挑战。Vicror使用更高功率密度的模块重新摆放机架上电源,并配合做好相应的散热措施,来应对更高功率密度的挑战。
 
数据中心单机架功率密度迅速攀升  图片来源: Uptime Institute Gloal Data Center Survey 2020

    根据Uptime Institute《2020全球数据中心调查报告统计》目前全球71%的数据中心平均功率密度小于10KW/机架,约16%的数据中心平均功率密度上升到了20kW/机架,数据中心的功率密度还在不断上升,这对机房建设、运营维护,供电系统、冷却系统都提出了新的挑战。

   随着功率密度的上升,数据中心的供电方式也发生了很大变化。

    传统数据中心采用UPS向服务器供电,服务器电源PSU将机房UPS电降压成12V,然后再通过服务器主板上的VR 降压模块分别降压到1.8V或者1.2V等不同电压给到内存和CPU等。但从电网经过机房级UPS、再经过服务器级PSU,以及主板级VR降压模块的多级转换,从电网到CPU和内存的全路径供电效率只有60%到70%左右,这样巨大的损耗是没法令人接受的,尽管电源产品转换效率已经提升到94% 。

    新的供电方式被提出,比如google选择的的48V直流供电,还有380V高压直流,240高压直流,以及中国提出的巴拿马电源,采用240V/336V直流供电技术,目标相同,都是解决功率密度和使用效率的问题。
 
理想的负载点电源系统。稳压器在 Vin = Vout 时提供最高效率。大电流供电最接近负载点时效率最高,从而可最大限度降低 I2R 损耗  图片来源:Vicor

    48V直流供电源于通信行业广泛成熟的应用,相比传统供电方式,可以提供97%以上的能源使用效率。同时由于48V锂电池应用也非常普及,在综合考虑各种因素之后,48V供电成为Google选择。

    240V高压直流电源技术基于常规的220V交流电源,并利用了48V通信电源的各种优势。具有简单可行的特点,正替代以UPS为主导,在中国正在替代传统数据中心电源市场。

   380V高压直流供电,更加适应未来数据中心功率密度演进的趋势,效率更加出色,但由于涉及的电源供应链的配套,因此普及程度不及48V供电。
 
新材料起到关键作用
   基于宽禁带(WBG)材料如氮化镓(GaN)和碳化硅(SiC)的半导体,对服务器电源系统的尺寸、可靠性、能效和运行成本具有重大的意义。WBG器件设计比硅基器件具有更高的能效,还能在更高的频率和更高的温度下工作。
 
宽禁带材料比较 图片来源 onsemi

    在服务器电源应用中常见的5kW升压转换器中,用SiC开关代替Si开关可在80kHz左右的频率下降低73%的损耗,从而显著提高系统能效。这有助于使系统更小,因为需要的热管理更少,还可使系统运行温度更低,从而提高可靠性和实现更高的器件和系统密度。

    虽然SiC MOSFET比同等IGBT更贵,但在无源器件如电感和电容方面的相关成本节省了75%,这导致SiC设计比Si设计的总物料单(BOM)成本低。更重要的是,在服务器安装的整个生命周期中,节省的能源成本总计可达数万甚至数百万美元。
 
SiC MOSEFT:接近理想的开关 图片来源:onsemi

浸入式液冷让PUE接近1.0
 
浸泡在液体中的服务器 图片来源:3m.com

  面对不断攀升的功率密度,传统的风冷模式已经开始力不从心,使用液态冷却替代空气冷却,正在改变数据中心的散热技术发展。研究机构的数据表明,到2023年,全球液冷数据中心的市场规模将达到45.5亿美元,年复合增长率高达27.7%.
 
液冷相比传统的风冷模式的巨大优势 图片来源:3m.com

在传统的冷却方式中,热量必须通过多层热接口材料、空气、换热器和工作液体进行传递。数据中心浸没式冷却通过直接将IT硬件浸没在液体中,帮助改进其散热设计。电子组件产生的热量直接高效地传递到液体中,从而减少了对导热界面材料、散热器和风扇等主动冷却组件的需求。这些改进提高了能源效率同时允许采用更高的封装密度。采用浸入式液冷的数据中心,PUE值轻松做到1.02一下,是目前最接近理想状态的散热方式。

冷却能力的提升意味着设计人员可以将硬件设计得更近 — 所以在既定空间内可以实现10倍的计算密度。这为缩小数据中心的空间规模创造了可能。通过提高热效率,可以提升处理器能力并减少空气冷却极限所造成的延迟影响。液体浸没式冷却技术消除了气载污染物并减少活动部件来简化散热设计,电子设备满负荷运行电子设备且不必担心磨损。
 
操作人员正在从液冷设备中拿出服务器机架 图片来源:3m.com