思想领袖

数据中心冷却的三代——以及为什么大多数运营商正在建造昨天的基础设施

mm

三年前,数据中心行业正在辩论是否需要液体冷却。两年前,大多数运营商认为单相水冷却将是解决方案。今天,领先的设施正在转向下一代冷却架构,而许多新建项目正在锁定将在几年内过时的系统。

这种分歧是由物理和处理器路线图驱动的,这些路线图已经可以预见到2027年。它们一起创造了一个分裂,运营商们要么理解冷却正在进入一个新时代,要么可能很快发现他们已经投资了数亿美元的基础设施,但这些基础设施无法支持下一波AI处理器。

冷却的三代

数据中心冷却已经经历了三个不同的架构时代,每个时代都有一个新的障碍需要克服和需要经济支持的机架密度。

  • 第一代:空气冷却(2000-2023):峰值为每机架10-15千瓦。经济开始在2020年左右崩溃,因为AI工作负载超过20千瓦。到2023年,空气冷却对于新的高密度部署基本上已经过时。

  • 第二代:单相液体(2020-2027):最初的液体冷却方法。使用水或PG25以高流速来去除热量。适用于每机架20-120千瓦,但在150千瓦以上开始显示出紧张。预计到2027年,处理器超过2000瓦时,将达到其实际限制。

  • 第三代:两相+高级热排放(2024-2035+):采用通过相变而不是温度变化来吸收热量的制冷剂。可扩展从每机架150千瓦及以上。实现从芯片到大气的新热排放策略。已经被领先的运营商部署,并预计到2027-2028年将占主导地位。

每次转变都标志着一个断点——当物理和经济同时达到极限时。

第二代的物理问题

第一波第二代部署开始揭示单相冷却的局限性。

基于水的系统需要每千瓦大约1.5升/分钟的流速。120千瓦机架需要大约180升/分钟;在250千瓦时,需要375升/分钟,通过冷板上的毫米级孔径。

在今年的GTC上,连接到消防水管大小的管线的机架使挑战变得可见。高流速会产生连锁问题。水与甘油混合会氧化微型结构,腐蚀会因流速而加剧,流速会削弱微型结构。维护需求让许多运营商感到惊讶:每月更换过滤器,而不是每季度或每两年一次,持续监测化学性质,并将甘油“静脉注射袋”连接到机架上。

故障率同样令人担忧。内部现场数据表明,大约4%的水冷GPU在三年的生命周期内由于泄漏而故障。机架中有价值300万至500万美元的设备,这种损失从根本上打破了第二代的经济效益。

Jacobs Engineering对10兆瓦设施的分析突出了另一个低效率。单相系统需要比第三代系统更冷的水温度。第二代所需的更冷的水温度会增加冷却器容量要求和能耗。

第三代的独特之处

第三代代表着真正的架构转变。两相制冷剂通过相变捕获热量,减少了四到九倍的流速。减少的流速显著降低了基础设施的压力,减少了冷板的侵蚀,并消除了第二代的维护负担。

制冷剂还使得新的热排放设计成为可能,例如制冷剂到二氧化碳和制冷剂到制冷剂的系统,从芯片到大气优化冷却。这些设计已经在生产中,展示了第三代的可扩展性和经济效率。

当Jacobs Engineering——负责全球80%以上的数据中心MEP设计——创建了并排的10兆瓦参考模型时,他们从比较中去除了供应商偏见。

发现:

  • 资本支出:单相10.39百万美元,两相10.38百万美元

  • 年度运营支出:单相104万美元,两相67.9万美元(减少35%)

  • 五年总拥有成本:单相15.6百万美元,两相13.8百万美元(节省12%)

资本支出持平令许多人感到惊讶,他们原本预计两相系统会有溢价。当前的两相系统需要更多的CDU,但单相设计需要复杂的行管道、强大的泄漏检测和谐波滤波——这些复杂性可以通过当前的两相CDU避免。2026年推出的下一代CDU将进一步降低成本,使第三代更具经济效益。

运营支出优势来自于热力学。两相系统在使用较暖的设施水(平均高出8°C)时保持相同的芯片温度。每降低一度温度,年度能耗就会减少大约4%,这转化为Jacobs记录的35%的运营支出减少,涵盖从凤凰城到斯德哥尔摩的所有气候。

具有前瞻性思维的运营商正在进一步将该热量裕度转化为相同功率封顶内的计算能力增加约5%。在一个GPU代表收入、功率受限的世界中,这种优势成为了一种竞争差异。

硅路线图迫使问题浮现

转向第三代并不是由冷却供应商驱动的——这是由处理器设计决定的。

NVIDIA的Rubin架构预计将超过2000瓦。AMD的MI450也处于类似的轨迹上。每个主要芯片制造商都将更多的性能打包到更小的尺寸中,从而使热密度急剧增加。

关键挑战是热通量——以每平方厘米的瓦特为单位测量的热量。随着热通量的增加,第二代解决方案遇到了物理和经济限制。流速变得具有破坏性,温度差变得难以承受,系统成本变得不可持续。

第三代是为这一现实而设计的。领先的运营商已经在指定250千瓦机架,并且有明确的路径到1兆瓦以上。等待“看看谁会赢”可能看起来很保守,但这是最具风险的方法。硅路线图是固定的;物理学不会弯曲。唯一的决定是何时采取行动。

棕地困境

目前正在投资数十亿美元用于第二代基础设施,这将在36个月内受到限制。今天设计的设施将围绕单相水进行设计,并将难以支持2027年级处理器。稍后进行改造的成本将远远高于今天使用第三代基础设施进行建设。

对于现有场地,制冷剂到空气的系统可以作为桥梁,但它们不是长期解决方案。该行业的方向很明确:第三代架构将成为未来十年的新建项目的基础。

一代选择

每次冷却转变都看起来足够,直到下一代使其过时。早期采用液体冷却的运营商——在2020-2021年采用,而不是2023年——获得了近两年的部署优势。

同样的转折点正在再次发生。物理学已经被证明。经济学已经通过独立分析得到验证。处理器路线图使转变变得不可避免。

问题不是变化是否会发生——而是你是否会引领它,还是会被迫在第二代达到其限制后才行动。

今天设计的数据中心将在2030年代继续运行。使用第三代架构进行建设可以确保它们在AI时代保持可行性,而不是在它们甚至稳定之前就成为受限资产。

数据中心冷却的未来是一种代际转变——第三代已经到来。

Josh Claman 是 Accelsius 的 CEO,Accelsius 是直接对芯片的两相冷却技术的制造商。在他 30 年的职业生涯中,克拉曼先生一直是变革性技术的倡导者,他在戴尔、NCR 和 AT&T 公司扩大和重新定位了业务。