Connect with us

思想领袖

保护您的 AI 投资:为什么冷却策略比以往任何时候都更重要

mm

数据中心运营商正在用数百万美元押注过时的冷却技术。围绕数据中心冷却的讨论不仅正在改变——它正被 AI 的经济学彻底重新定义。风险从未如此之高。

AI 的快速发展以人们意想不到的方式改变了数据中心的经济。 当一台 AI 服务器的价格约为 300 万美元——相当于一栋豪宅的价格——风险计算从根本上改变了。 正如 Andreessen Horowitz 的联合创始人 Ben Horowitz最近警告,数据中心如果不仔细管理其基础设施策略,就可能“迅速陷入困境”,因为他们正在为这些巨大的硬件投资提供资金。

这种新现实要求对冷却方法进行根本性的重新思考。虽然传统的指标,如 PUE 和运行成本仍然很重要,但它们次于保护这些数百万美元的硬件投资。数据中心运营商应该问的问题是:我们如何最好地保护我们的 AI 基础设施投资?

传统冷却的隐患

行业对单相、水基冷却解决方案的历史依赖带来了在 AI 时代日益不可接受的风险。虽然它多年来为数据中心服务良好,但 AI 工作负载的热需求已经将这种技术推到了其实际极限。原因很简单:单相系统需要更高的流速来管理今天的热负载,增加了泄漏和灾难性故障的风险。

这不是一个假设的风险。一个单一的水泄漏可以瞬间摧毁数百万美元的 AI 硬件——在今天的供应受限市场中,这些硬件通常需要数月的更换时间。即使一次灾难性的故障的成本也可能超过数据中心整个年度的冷却基础设施预算。然而,许多运营商继续依赖这些系统,实际上是在用过时的技术来赌博他们的 AI 投资。

在 Data Center World 2024 上,NVIDIA 的数据中心机械工程经理 Dr. Mohammad Tradat 问道,“单相冷却将会持续多久?它很快就会被淘汰……然后需要两相、制冷剂基冷却。”这不仅仅是一个日益增长的意见——它是一种正在成为行业共识的观点,得到物理和财务现实的支持。

保护投资的新方法

两相冷却技术使用介电制冷剂而不是水,从根本上改变了这种风险方程。实施两相冷却系统的成本——通常约为每个机架 20 万美元——应该被视为保护 500 万美元 AI 硬件投资的保险。从这个角度来看,这是一种 4% 的保费来保护您的资产——比其他数百万美元的商业投资的保险费率要低得多。当您考虑到 AI 训练中断和计划外停机期间空闲基础设施的潜在成本时,商业案例变得更加明确。

对于数据中心运营商和财务利益相关者,投资两相冷却的决定应该通过风险管理和投资保护的视角来评估。相关指标不仅应该包括运行成本或能效,还应该包括所保护的硬件的总价值、潜在故障场景的成本、下一代硬件的未来证明价值以及冷却投资的风险调整后回报率。

随着 AI 持续推动数据中心基础设施的密度和价值的增加,行业必须进化其冷却策略的方法。问题不再是是否转向两相冷却,而是何时和如何在最小化对现有运营和投资的风险的情况下进行转变。

明智的运营商已经开始进行这种转变,而其他人则冒着学习一课的风险。在一个时代里,一台机架的成本超过许多数据中心的年度运营预算,押注过时的冷却技术不仅仅是冒险——它可能是灾难性的。现在是时候采取行动了——在这种风险成为现实之前。

Josh Claman 是 Accelsius 的 CEO,Accelsius 是直接对芯片的两相冷却技术的制造商。在他 30 年的职业生涯中,克拉曼先生一直是变革性技术的倡导者,他在戴尔、NCR 和 AT&T 公司扩大和重新定位了业务。