思想领袖

数据中心冷却的三代——以及为什么大多数运营商正在建造昨天的基础设施

发布于 2025年12月4日

更新于 2026年5月17日

作者

Josh Claman, CEO, Accelsius

三年前，数据中心行业正在辩论是否需要液体冷却。两年前，大多数运营商认为单相水冷却将是解决方案。今天，领先的设施正在转向下一代冷却架构，而许多新建项目正在锁定将在几年内过时的系统。

这种分歧是由物理和处理器路线图驱动的，这些路线图已经可以预见到2027年。它们一起创造了一个分裂，运营商们要么理解冷却正在进入一个新时代，要么可能很快发现他们已经投资了数亿美元的基础设施，但这些基础设施无法支持下一波AI处理器。

冷却的三代

数据中心冷却已经经历了三个不同的架构时代，每个时代都有一个新的障碍需要克服和需要经济支持的机架密度。

第一代：空气冷却（2000-2023）：峰值为每机架10-15千瓦。经济开始在2020年左右崩溃，因为AI工作负载超过20千瓦。到2023年，空气冷却对于新的高密度部署基本上已经过时。
第二代：单相液体（2020-2027）：最初的液体冷却方法。使用水或PG25以高流速来去除热量。适用于每机架20-120千瓦，但在150千瓦以上开始显示出紧张。预计到2027年，处理器超过2000瓦时，将达到其实际限制。
第三代：两相+高级热排放（2024-2035+）：采用通过相变而不是温度变化来吸收热量的制冷剂。可扩展从每机架150千瓦及以上。实现从芯片到大气的新热排放策略。已经被领先的运营商部署，并预计到2027-2028年将占主导地位。

每次转变都标志着一个断点——当物理和经济同时达到极限时。

第二代的物理问题

第一波第二代部署开始揭示单相冷却的局限性。

基于水的系统需要每千瓦大约1.5升/分钟的流速。120千瓦机架需要大约180升/分钟；在250千瓦时，需要375升/分钟，通过冷板上的毫米级孔径。

在今年的GTC上，连接到消防水管大小的管线的机架使挑战变得可见。高流速会产生连锁问题。水与甘油混合会氧化微型结构，腐蚀会因流速而加剧，流速会削弱微型结构。维护需求让许多运营商感到惊讶：每月更换过滤器，而不是每季度或每两年一次，持续监测化学性质，并将甘油“静脉注射袋”连接到机架上。

故障率同样令人担忧。内部现场数据表明，大约4%的水冷GPU在三年的生命周期内由于泄漏而故障。机架中有价值300万至500万美元的设备，这种损失从根本上打破了第二代的经济效益。

Jacobs Engineering对10兆瓦设施的分析突出了另一个低效率。单相系统需要比第三代系统更冷的水温度。第二代所需的更冷的水温度会增加冷却器容量要求和能耗。

第三代的独特之处

第三代代表着真正的架构转变。两相制冷剂通过相变捕获热量，减少了四到九倍的流速。减少的流速显著降低了基础设施的压力，减少了冷板的侵蚀，并消除了第二代的维护负担。

制冷剂还使得新的热排放设计成为可能，例如制冷剂到二氧化碳和制冷剂到制冷剂的系统，从芯片到大气优化冷却。这些设计已经在生产中，展示了第三代的可扩展性和经济效率。

当Jacobs Engineering——负责全球80%以上的数据中心MEP设计——创建了并排的10兆瓦参考模型时，他们从比较中去除了供应商偏见。

发现：

资本支出：单相10.39百万美元，两相10.38百万美元
年度运营支出：单相104万美元，两相67.9万美元（减少35%）
五年总拥有成本：单相15.6百万美元，两相13.8百万美元（节省12%）

资本支出持平令许多人感到惊讶，他们原本预计两相系统会有溢价。当前的两相系统需要更多的CDU，但单相设计需要复杂的行管道、强大的泄漏检测和谐波滤波——这些复杂性可以通过当前的两相CDU避免。2026年推出的下一代CDU将进一步降低成本，使第三代更具经济效益。

运营支出优势来自于热力学。两相系统在使用较暖的设施水（平均高出8°C）时保持相同的芯片温度。每降低一度温度，年度能耗就会减少大约4%，这转化为Jacobs记录的35%的运营支出减少，涵盖从凤凰城到斯德哥尔摩的所有气候。

具有前瞻性思维的运营商正在进一步将该热量裕度转化为相同功率封顶内的计算能力增加约5%。在一个GPU代表收入、功率受限的世界中，这种优势成为了一种竞争差异。

硅路线图迫使问题浮现

转向第三代并不是由冷却供应商驱动的——这是由处理器设计决定的。

NVIDIA的Rubin架构预计将超过2000瓦。AMD的MI450也处于类似的轨迹上。每个主要芯片制造商都将更多的性能打包到更小的尺寸中，从而使热密度急剧增加。

关键挑战是热通量——以每平方厘米的瓦特为单位测量的热量。随着热通量的增加，第二代解决方案遇到了物理和经济限制。流速变得具有破坏性，温度差变得难以承受，系统成本变得不可持续。

第三代是为这一现实而设计的。领先的运营商已经在指定250千瓦机架，并且有明确的路径到1兆瓦以上。等待“看看谁会赢”可能看起来很保守，但这是最具风险的方法。硅路线图是固定的；物理学不会弯曲。唯一的决定是何时采取行动。

棕地困境

目前正在投资数十亿美元用于第二代基础设施，这将在36个月内受到限制。今天设计的设施将围绕单相水进行设计，并将难以支持2027年级处理器。稍后进行改造的成本将远远高于今天使用第三代基础设施进行建设。

对于现有场地，制冷剂到空气的系统可以作为桥梁，但它们不是长期解决方案。该行业的方向很明确：第三代架构将成为未来十年的新建项目的基础。

一代选择

每次冷却转变都看起来足够，直到下一代使其过时。早期采用液体冷却的运营商——在2020-2021年采用，而不是2023年——获得了近两年的部署优势。

同样的转折点正在再次发生。物理学已经被证明。经济学已经通过独立分析得到验证。处理器路线图使转变变得不可避免。

问题不是变化是否会发生——而是你是否会引领它，还是会被迫在第二代达到其限制后才行动。

今天设计的数据中心将在2030年代继续运行。使用第三代架构进行建设可以确保它们在AI时代保持可行性，而不是在它们甚至稳定之前就成为受限资产。

数据中心冷却的未来是一种代际转变——第三代已经到来。

Josh Claman, CEO, Accelsius

乔什·克拉曼（Josh Claman）是Accelsius的执行董事长和创始CEO，Accelsius是一家全球领先的AI数据中心两相直接到芯片液体冷却技术公司。他于2022年联合创立了Accelsius，以解决该行业面临的最紧迫挑战之一：AI基础设施对社区的巨大能量和水资源需求。在他的领导下，公司开发了NeuCool，一种为下一代AI芯片的热量需求而设计的闭环无水冷却平台，相比传统的空气冷却，能节省多达50%的能量，同时消除了对当地水供应的依赖。

克拉曼带来了超过30年的全球技术领导经验。他此前曾担任Dell Technologies美洲地区公共和大型企业副总裁，负责北美和南美的多亿美元业务单位，并曾担任Dell UK的总经理，这是他跨越五大洲的职业生涯的一部分，包括在AT&T和NCR担任高级职务。他后来担任ReachLocal的总裁，Stratasys 3D打印先驱的首席商务官，以及数字健康公司Rimidi的首席执行官。

克拉曼在伊利诺伊大学厄巴纳-香槟分校获得历史和政府学士学位，并在南卡罗来纳大学达拉·摩尔商学院获得MBA。他经常撰写和发表关于技术、能源和公共政策交叉点的文章，并在北美和欧洲的论坛上发表了关于数据中心可持续性的演讲。他认为该行业的长期经营许可与技术性能一样取决于社区的信任。

Unite.AI