思想领袖

10 个必须提出的问题,以确保有效的 AI 数据中心冷却部署

mm

随着 AI 和高性能计算的兴起,数据中心以创纪录的速度涌现。事实上,2024 年底数据中心建设中的容量比 2023 年底增加了一倍多(6,350 MW 与 ~3,078 MW)。同时,数据中心使用的硬件和处理的工作负载越来越强大。在这些快速变化的条件下,风险和挑战都在增加。

而且,平均而言,数据中心在其整个能源预算中花费了 40% 的费用用于冷却,热管理很快成为该行业面临的最大挑战之一。好消息是,数据中心运营商比以往任何时候都有更多选择来可靠、有效、经济地冷却他们的设施。

当然,当有选择时,也会有决定要做。当考虑自己的数据中心部署时,以下是 10 个必须回答的问题,以便快速启动操作,同时确保长期的效率、可靠性和可持续性。

问题 1:如何在不损害可靠性的情况下快速将此冷却系统投入使用?

在 AI 竞争中,行业成功的真正决定因素不是谁拥有最多的 GPU,而是谁能最快地将其投入使用。从部署开始到投入使用的时间(即时间到电力)已经成为新的竞争领域,决定了企业如何将 AI 投资转化为业务影响。领导者不仅仅是拥有大量计算资源的人,也是那些首先解锁它们的人,推动创新、收入和竞争优势的发展。

但是,冷却系统的部署如果过于仓促,可能会导致低效、停机或昂贵的改造。运营商必须问自己,他们选择的系统是否可以快速部署并经受住时间的考验。平衡实施速度和稳固性的策略可以提供立即的市场准备和长期的韧性。

问题 2:哪种冷却方法最适合我的项目需求?

没有一种通用解决方案适用于每个数据中心部署。空气冷却长期以来一直是标准,但它在处理 AI 数据中心中典型的高级硬件和高密度机架方面已经接近其物理极限。液体冷却在规模上提供了无与伦比的效率和未来证明的性能,以处理越来越强大的工作负载。混合方法可以弥合差距,但从长远来看,AI 数据中心将依赖于液体冷却解决方案来管理越来越强大的 AI 工作负载。然而,选择合适的液体冷却方法取决于工作负载类型、密度、位置和其他因素。

目前,商业上有两种主要的液体冷却方法:直接到芯片(DTC)和浸没冷却。虽然 DTC 目前更为常见,但随着芯片功率密度的增加,浸没冷却预计将获得更多关注。DTC 系统通过冷板直接将冷却剂引入像 CPU 和 GPU 这样的热产生组件,提供了快速的效率提升和最小的基础设施变化。单相系统更简单、更容易改造,而双相系统使用制冷剂以较低的泵送功率实现更高的热传递性能,但系统复杂性更高。相比之下,浸没冷却将整个服务器浸没在介电流体中——无论是循环(单相)还是在密封罐中沸腾和凝结(双相)。

哪种解决方案适合您的环境取决于您的硬件、工作负载、预算等因素。但是,了解这些选择对于您的 AI 数据中心的近期和长期可行性至关重要。

问题 3:我的冷却系统是否能支持今天的工作负载和明天的 AI 驱动密度?

这带来了下一个大问题:我的系统是否能经受住时间的考验?数据中心需求正在加速超过历史标准。例如,AI 训练集群可能需要 10-20 倍于传统企业机架的功率密度。运营商必须问自己,他们的冷却设计是否能在不需要完全更换的情况下适应未来的密度。

AI、HPC(高性能计算)和密集机架架构的崛起已经将空气冷却推到了极限。在 Uptime Institute 2024 年冷却系统调查 中,大多数运营商表示,空气冷却在每个机架超过 20 kW 时变得不切实际和/或过于昂贵。然而,当前的 行业报告 显示,AI 机架已经常常达到每个机架 100 kW 的水平。这些数字正在上升。Nvidia 最近宣布了其 Rubin Ultra GPU 计划,将使用 Kyber 机架,预计到 2027 年每个机架将超过 600kW。

鉴于空气冷却在 AI 数据中心部署中即将过时,运营商可以考虑混合或分阶段的方法,以确保长期的可行性。当选择冷却解决方案时,请确保它们能够经受住时间的考验。

问题 4:整个生命周期中的总成本是什么?

虽然前期费用在数据中心领域可能令人惊讶,但资本支出(CAPEX)只是故事的一部分。运营商应该计算所有权的总成本(TCO),包括与电力消耗、维护和改造相关的运营费用(OPEX),以考虑他们的冷却解决方案。一个看似更昂贵的系统可能会在长期内通过能源效率、减少停机时间和增加寿命带来节省。正确的冷却策略很少是最便宜的前期成本——它是优化整个 10-15 年设施生命周期成本的策略。

请记住,这些不是短期部署。另外,部署的寿命越长,您就能获得更多的价值。请超越 CAPEX,思考您的长期成本和节省。这对于确保您从数据中心项目中获得最大价值至关重要。

问题 5:这种冷却策略将如何影响我的可持续性特征?

如前所述,冷却可能占数据中心总能耗的 40% 或更多。随着法规和 ESG 报告要求的扩展,运营商必须问:这种系统如何影响我的碳足迹、能耗和其他可持续性承诺?减少能耗或资源浪费或符合全球标准(如 Green Grid 框架)的解决方案越来越不仅是可取的,而且是投资者信心和监管合规所必需的。

同时,公众部门正在要求减少能耗。监测分析公司,这家中大西洋电网的独立市场监管机构,于今年 6 月份发布了一项研究,显示 去年的电费增加中有 70% 是由于数据中心需求引起的。不出意料,消费者正在发出警报,各州正在考虑一些严肃的措施来解决这一问题,包括 强制关机 的可能性,在高峰需求期间。通过投资更节能和可持续的冷却解决方案,组织可以在面临公众认知和监管挑战时占据优势。

问题 6:这种冷却方法将消耗多少水,并且在我的地区是否可持续?

大型数据中心可以消耗 多达 500 万加仑的水 每天。因此,水资源短缺正在成为数据中心,尤其是在美国西南部和欧洲部分地区,水权和短缺问题导致数据中心面临日益严格的审查。为了做到正确,运营商必须计算他们的冷却系统的预计水耗,并评估其是否符合当地和区域现实(在水的可用性和监管要求方面)。

不要被名称所迷惑——液体冷却实际上比传统空气冷却系统消耗的水要少得多。根据 Nature 发表的一项研究,液体冷却减少了数据中心的“蓝色水”消耗,相比传统空气冷却,整个生命周期中减少了 31-52%。能够最小化或消除水耗的冷却解决方案可以帮助设施在环境和监管风险方面保持长期的可行性。

问题 7:液体冷却有什么风险或局限性,以及如何减轻这些风险?

虽然液体冷却提供了前所未有的优势,包括效率、可持续性和寿命 ROI,但关于液体冷却的许多神话仍然存在,特别是在可靠性、成本和集成方面。实际上,技术、材料和设计的进步已经使液体冷却变得安全、可靠和日益具有成本效益。运营商的关键是根据现实世界的性能数据评估这些系统,而不是过时的看法,并以经过验证的最佳实践为设计基础。

在考虑液体冷却时,同样重要的是要注意哪种解决方案最适合您的设施。由于有不同的方法(例如,直接到芯片(DTC)、浸没)和众多供应商提供广泛的解决方案,因此在考虑液体冷却部署时,始终要进行尽职调查。

问题 8:我的冷却设计将如何影响空间利用率和机架密度?

空间与电力在现代数据中心设施中同样宝贵。由高效液体冷却支持的高密度机架可以显著减少地板空间需求和设施占地面积。这反过来又使运营商能够在现有占地中扩大工作负载或最小化新建项目的土地和建设成本。能够在较小的空间中做更多事情不仅可以降低成本,还可以为建设开辟更广泛的可行场所。通过提前询问这些问题,可以确保冷却设计与密度和空间利用率目标保持一致。

问题 9:如果工作负载激增或法规收紧,我的长期韧性策略是什么?

数据中心并非静态的。意外的需求激增、新 AI 应用和收紧的效率/可持续性法规可能会迅速给基础设施带来压力。运营商必须问自己,他们的冷却策略是否足够灵活,以满足这些经常意外的变化。有效的冷却系统必须准备好扩大容量、满足新的合规性要求和与未来的技术集成。

提供模块化和供应商具有强大供应链的系统将有助于使您的数据中心免受需求变化的影响,使您能够更轻松地扩展和在需要时升级和集成。

问题 10:我是否将冷却视为战略性赋能者,还是只是一个附带因素?

这个最后、最全面的问题可能是最重要的问题。在考虑冷却系统时,请花一点时间重新考虑冷却在您整体数据中心运营中的作用。冷却经常被视为背景基础设施,但实际上它是性能、正常运行时间和可持续性的战略性赋能者。投资周密冷却策略的公司不仅可以获得运营效率,还可以在可靠性、合规性和长期成本方面获得竞争优势。

随着 AI 继续对数据中心施加新的、更强烈的需求,考虑冷却的长期影响至关重要。不要仅仅思考今天部署中最好的、最快的或最便宜的选择。思考一下,您的冷却解决方案如何能让您在 5 年、10 年甚至 15 年后保持领先。如果您的冷却系统今天勉强满足要求,您可以肯定几年后它将不再足够。请记住,冷却对于您的设施的整个生命周期的成功至关重要。

冷却现在是数据中心长期成功的核心——选择权在您

冷却不再是后台问题——它是每个数据中心的近期和长期成功的核心。通过在一开始提出这 10 个问题,运营商可以减少部署时间,尽量减少风险,并确保设施能够在 AI 驱动的世界中保持韧性,这个世界的特点是变化和动荡。

该行业的未来将不仅取决于运营商如何快速部署容量,还取决于他们如何智能地设计以实现长期的可持续性和可靠性。那些将冷却视为战略性赋能者的公司将最有可能在未来几年中保持领先地位。

凯文·鲁夫(Kevin Roof)是液态堆栈(LiquidStack)的全球业务发展和管理总监。作为一名具有十多年数据中心冷却系统经验的机械工程师和PMP认证专业人员,凯文为液态冷却领域带来了宝贵的见解和思想领导力。