数据中心冷却的三代演进——为何多数运营商仍在建设昨日的基础设施
三年前,数据中心行业还在争论液冷是否必要。两年前,大多数运营商认为单相水冷将是解决方案。如今,领先的设施正在转向下一代冷却架构,而许多新建项目却锁定在几年内就将过时的系统。这种分歧是由物理学和处理器路线图驱动的,这些路线图已经清晰可见直至2027年。它们共同在运营商之间造成了分裂:一方理解冷却正进入一个新的架构时代,另一方可能很快就会发现,他们投资了数亿美元的基础设施却无法支持下一波AI处理器。冷却的三代演进数据中心冷却已经历了三个截然不同的架构时代,每个时代都由需要克服的新障碍以及需要经济性支持的机柜功率密度所定义。 第一代:风冷(2000–2023年):峰值功率为每机柜10–15kW。随着AI工作负载超过20kW,其经济性在2020年左右开始崩溃。到2023年,对于新的高密度部署,风冷基本上已经过时。 第二代:单相液冷(2020–2027年):最初的液冷方法。使用水或PG25,通过高流速和温度变化来带走热量。适用于每机柜20–120kW,但在150kW以上开始显现压力。预计到2027年,随着处理器功率超过2,000W,将达到其实际极限。 第三代:两相+先进排热(2024–2035年+):使用通过相变而非温变来吸收热量的制冷剂。可从每机柜150kW及以上进行扩展。实现了从芯片到大气的新排热策略。已被领先运营商部署,预计将在2027–2028年占据主导地位。 每一次过渡都标志着一个转折点——当物理学和经济性同时达到其上限时。第二代的物理难题第一波第二代部署开始暴露出单相冷却的局限性。水基系统需要的流速大约为每千瓦1.5升/分钟。一个120kW的机柜需要约180升/分钟;对于250kW的机柜,通过孔径以毫米计的冷板的水流将跃升至375升/分钟。在今年GTC大会上,连接到消防水管般大小管线的机柜使这一挑战变得显而易见。高流速会引发连锁问题。水与乙二醇混合会氧化微翅片结构,而流速会侵蚀已弱化的翅片,加剧腐蚀。维护需求令许多运营商感到意外:每月更换过滤器而非每季度或每半年一次,需要持续监测化学性质,以及连接到机柜的乙二醇“输液袋”。故障率同样令人担忧。内部现场数据表明,大约4%的水冷GPU在三年生命周期内因泄漏而故障。考虑到机柜内设备价值300万至500万美元,这种损失从根本上破坏了第二代的经济性。Jacobs Engineering 对一座10MW设施的分析突显了另一项低效之处。单相系统需要比第三代系统更低的进水温度。第二代所要求的更低水温增加了冷水机组容量需求和能耗。第三代的不同之处第三代代表了一次真正的架构转变。两相制冷剂通过相变捕获热量,将流速降低四到九倍。降低的流体速度显著减轻了基础设施压力,最大限度地减少了冷板侵蚀,并消除了困扰第二代的大部分维护负担。制冷剂还支持新的排热设计——例如制冷剂到CO₂以及制冷剂到制冷剂的系统——优化了从芯片到大气的冷却过程。这些设计已投入生产,证明了第三代的可扩展性和经济效率。当负责全球数据中心超过80% MEP设计的Jacobs Engineering创建并排的10MW参考模型时,他们消除了供应商偏见对比较的影响。研究发现: 资本支出:单相1,039万美元 vs. 两相1,038万美元 年度运营支出:104万美元 vs. 67.9万美元(降低35%) 五年总拥有成本:1,560万美元 vs. 1,380万美元(节省12%) 资本支出的持平令许多预期两相系统会有溢价的人感到惊讶。当前的两相系统需要更多的冷却液分配单元,但单相设计需要复杂的行级歧管、强大的泄漏检测和谐波过滤——这些复杂性在当前的两相冷却液分配单元中得以避免。将于2026年推出的下一代冷却液分配单元将进一步降低成本,使第三代部署更加经济。运营支出的优势源于热力学。两相系统在保持相同芯片温度的同时,使用温度更高的设施进水——平均高出约8°C。每节省一度,年能耗大约降低4%,这转化为Jacobs在从凤凰城到斯德哥尔摩的各种气候条件下记录的35%的运营支出降低。具有前瞻性的运营商更进一步,将这种热余量转化为在相同功率预算下约5%的额外计算能力。在一个GPU代表收入、电力受限的世界里,这种优势成为一种竞争差异点。硅芯片路线图迫使变革向第三代的转变并非由冷却供应商驱动——而是由处理器设计决定的。NVIDIA的Rubin架构预计将超过2,000W 每处理器。AMD的MI450也遵循类似的轨迹。每个主要的芯片制造商都在将更多性能封装到更小的面积中,从而急剧推高热密度。关键挑战是热通量——以每平方厘米瓦特为单位测量的热量集中度。随着热通量上升,第二代解决方案将达到物理和经济极限。流速变得具有破坏性,温差变得难以维持,系统成本变得不可持续。第三代正是为这一现实而构建的。领先的运营商已经在规划250kW的机柜,并有清晰的路径达到1MW以上。等待“看谁胜出”可能感觉保守,但这是风险最高的做法。硅芯片路线图是固定的;物理学不会弯曲。剩下的唯一决定是何时行动。现有设施的困境目前正有数十亿美元投资于将在36个月内受限的第二代基础设施。今天围绕单相水冷设计的设施将难以支持2027级别的处理器。日后改造的成本远高于今天就用第三代技术建设。对于现有站点,制冷剂到空气的系统可以作为一种过渡方案,但它们不是长期解决方案。行业的方向很明确:第三代架构将成为未来十年新建项目的基石。一个时代性的选择每一次冷却过渡在下一代技术使其过时之前,看起来都足够用。那些早期拥抱液冷的运营商——在2020–2021年而非2023年采用——获得了近两年的部署优势。同样的拐点正在再次发生。物理学原理已得到验证。经济性已通过独立分析得到确认。处理器路线图使这一转变不可避免。问题不在于变化是否会发生——而在于你是引领它,还是在第二代达到极限时被迫接受它。今天设计的数据中心将运营到2030年代。采用第三代架构建设,可确保它们在AI时代保持生命力,而不是在稳定运行之前就成为受限资产。数据中心冷却的未来是一场时代性的变革——而第三代已经到来。