思想领袖
10 个必须提出的问题,以确保 AI 数据中心冷却部署的有效性

随着 AI 和高性能计算的兴起,数据中心以创纪录的速度涌现。事实上,2024 年年末数据中心建设中的容量比 2023 年年末增加了一倍多(6,350 MW 建设中 vs. ~3,078 MW)。同时,在这些数据中心中使用的硬件和处理的工作负载越来越强烈。在这些快速变化的条件下,风险和挑战都在增加。
同时,数据中心平均花费其整个能源预算的 40% 在冷却上,热管理很快成为该行业面临的最大挑战之一。幸运的是,数据中心运营商比以往任何时候都有更多选择来可靠、有效和经济地冷却他们的设施。
当然,当有选择时,也会有决定要做。因此,在考虑您自己的数据中心部署时,以下是 10 个必须回答的问题,以便快速启动您的运营,同时确保长期的效率、可靠性和可持续性。
问题 1:我可以在不损害可靠性的情况下多快地将此冷却系统投入使用?
在 AI 竞争中,行业成功的真正决定因素不是谁拥有最多的 GPU —— 而是谁能最快地将其投入使用。从部署开始到投入使用的时间(即时间到电力)已经成为新的战场,决定了企业如何将 AI 投资转化为业务影响。领导者不仅将拥有大量的计算资源,还将是那些最先解锁它们的人,推动创新、收入和竞争优势。
但是,匆忙的冷却部署可能会适得其反,导致效率低下、停机或昂贵的改造。运营商必须问自己,他们选择的系统是否可以快速部署并经受住时间的考验。平衡实施速度与稳固性的战略可以提供立即的市场准备和长期的恢复能力。
问题 2:哪种冷却方法最符合我的项目需求?
没有一种通用解决方案适用于每个数据中心部署。空气冷却长期以来一直是标准,但它在处理 AI 数据中心中典型的高级硬件和高密度机架方面已经接近其物理极限。液体冷却在规模和未来性能方面提供了无与伦比的效率,能够处理越来越苛刻的工作负载。混合方法可以弥合差距,但从长远来看,AI 数据中心将依赖于液体冷却解决方案来管理越来越强烈的 AI 工作负载。然而,选择合适的液体冷却方法取决于工作负载类型、密度、位置和其他因素。
目前有两种主要的液体冷却方法:直接到芯片(DTC)和浸没冷却。虽然 DTC 目前更为常见,但随着芯片功率密度的增加,浸没冷却预计会获得更多关注。DTC 系统通过冷板将冷却剂直接引入热产生组件,如 CPU 和 GPU,提供快速的效率提高和最小的基础设施更改。单相系统更简单、更适合改造,而双相系统使用制冷剂实现更高的热传递性能和更低的泵送功率,但系统复杂性更高。浸没冷却则将整个服务器浸没在介电流体中 —— 无论是循环(单相)还是在密封油箱中沸腾和凝结(双相)。
哪种解决方案适合您的环境取决于您的硬件、工作负载、预算等。然而,了解这些选择对于您 AI 数据中心的近期和长期可行性至关重要。
问题 3:我的冷却系统是否能够支持当前的工作负载和明天的 AI 驱动密度?
这带来了下一个大问题:我的系统是否能够经受住时间的考验?数据中心需求正在以历史水平难以想象的速度增长。例如,AI 训练集群可能需要传统企业机架 10-20 倍的功率密度。运营商必须问自己,他们的冷却设计是否能够在不需要完全更换的情况下适应未来的密度。
AI、HPC(高性能计算)和越来越密集的机架架构的兴起已经将空气冷却推到了极限。在 Uptime Institute 的 2024 年冷却系统调查 中,大多数运营商表示,空气冷却在每个机架超过 ~20 kW 时变得不切实际和/或过于昂贵。然而,当前的 行业报告 显示,AI 机架已经常常达到每个机架 100 kW。这些数字正在上升。Nvidia 最近展示了其 Rubin Ultra GPU,配备 Kyber 机架,到 2027 年每个机架将超过 600kW。
鉴于空气冷却在 AI 数据中心部署中即将过时,运营商可以在无法进行全部绿地液体冷却部署的情况下考虑混合或分阶段的方法。再次考虑到这些项目投入的巨大时间和成本,长期可行性至关重要。因此,在选择冷却解决方案时,请确保它们能够经受住时间的考验。
问题 4:整个生命周期中的总成本是什么?
虽然前期费用在数据中心领域可能令人惊讶,但资本支出(CAPEX)只是故事的一部分。运营商应该计算所有权的总成本(TCO),包括与电力消耗、维护和改造相关的运营费用(OPEX),以考虑他们的冷却解决方案。一个看似更昂贵的系统可能会通过能源效率、降低停机时间和增加使用寿命来带来长期节省。正确的冷却策略很少是最便宜的 —— 它是优化 10-15 年设施生命周期中的成本的策略。
请记住,这些不是短期部署。另外,您从部署中获得的寿命越长,您将获得的价值就越大。超越 CAPEX 并思考您的长期成本和节省是确保您从数据中心项目中获得最大价值的关键。
问题 5:这个冷却策略将如何影响我的可持续性状况?
如前所述,冷却可能占数据中心总能耗的 40% 或更多。随着法规和 ESG 报告要求的扩展,运营商必须问:这个系统如何影响我的碳足迹、能耗以及其他可持续性承诺?减少能耗或资源浪费或符合 Green Grid 框架等全球标准的解决方案越来越不仅仅是可取的,而且是投资者信心和监管合规所必需的。
同时,公共部门正在日益要求减少能耗。监测分析公司(Monitoring Analytics),中大西洋电网的独立市场监管机构,于六月进行的研究表明,去年的电费增加中有 70% 是由于数据中心需求。不出所料,消费者正在发出警报,各州正在考虑采取一些严厉的措施来解决这个问题,包括可能在高峰需求期间强制关闭。通过投资更节能和可持续的冷却解决方案,组织可以在面临公众认知和监管挑战时占据优势。
问题 6:这种冷却方法将消耗多少水,并且在我的地区是否可持续?
大型数据中心可以消耗 多达 500 万加仑的水 每天。因此,水资源短缺正在成为数据中心,尤其是在美国西南部和欧洲部分地区的决定性问题,因为水权和短缺问题正在导致对数据中心的审查加剧。为了做对,运营商必须计算他们的冷却系统的预计水耗,并评估它是否符合当地和区域的现实(在可用性和监管要求方面)。
不要被名称所迷惑 —— 液体冷却实际上比传统的空气冷却系统消耗的水要少得多。根据 Nature 发表的一项研究,液体冷却在其生命周期中将数据中心的“蓝色水”消耗量减少了 31-52% 与传统空气冷却相比。能够最小化或消除水耗的冷却解决方案可以帮助设施在环境和监管风险方面保持长期的可持续性。
问题 7:液体冷却有哪些风险或局限性,以及如何减轻这些风险?
尽管液体冷却在效率、可持续性和生命周期 ROI 方面具有无与伦比的优势,但关于液体冷却的许多神话仍然存在,尤其是在可靠性、成本和集成方面。实际上,技术、材料和设计的进步 使液体冷却变得安全、可靠和日益具有成本效益。运营商的关键是根据现实世界的性能数据评估这些系统,而不是过时的看法,并以经过验证的最佳实践为设计依据。
在考虑液体冷却时,同样重要的是要意识到哪种解决方案最适合您的设施。由于有不同的方法(例如直接到芯片(DTC)、浸没)和众多供应商提供广泛的解决方案,因此在考虑液体冷却部署时,始终要进行尽职调查。
问题 8:我的冷却设计将如何影响空间利用率和机架密度?
空间与电力在现代数据中心设施中同样宝贵。由高效液体冷却支持的高密度机架可以显著减少楼面空间需求和设施占地面积。这反过来又允许运营商在现有占地中扩大工作负载或最小化土地和建设成本。能够在较小的空间中做更多事情不仅可以降低成本,还可以为建设开放更多可行的场地。通过较小的占地,开发商可以更自由地建设,甚至可以将计算资源更接近最终用户。提前问这些问题可以确保冷却设计与密度和空间利用率目标保持一致。
问题 9:如果工作负载激增或法规收紧,我的长期恢复力战略是什么?
数据中心并非静态的。意外的需求激增、新 AI 应用程序和收紧的效率/可持续性法规可能会迅速给基础设施带来压力。运营商必须问自己,他们的冷却策略是否足够灵活,以满足这些往往出乎意料的变化。有效的冷却系统必须准备好扩大容量、满足新的合规要求和与未来的技术集成。
提供模块化和具有强大供应链的供应商的系统将帮助您的数据中心抵御需求的变化,允许您更容易地扩大规模,并在需要时更容易地升级和集成。
问题 10:我是否将冷却视为战略性使能器 —— 或只是一个附带因素?
这个最后、最重要的问题可能是最重要的。在考虑您的冷却系统时,请花一点时间重新思考冷却在您整体数据中心运营中的作用。冷却往往被视为背景基础设施,但实际上它是性能、正常运行时间和可持续性的战略性使能器。投资周密冷却策略的公司不仅获得运营效率,还获得可靠性、合规性和长期成本方面的竞争优势。
随着 AI 继续对数据中心施加新的、更强烈的需求,考虑冷却的长期影响至关重要。不要仅仅思考今天什么是最好的、最快的或最便宜的。思考您的冷却解决方案如何在 5 年、10 年甚至 15 年后为您铺平道路。如果您的冷却系统今天刚刚满足要求,那么您可以肯定它在几年后将不再适用。请记住,冷却对于整个设施生命周期的整体成功至关重要。
冷却现在是数据中心长期成功的核心 —— 选择权在您
冷却不再是一个后台问题 —— 它是每个数据中心的近期和长期成功的核心。通过最初提出这 10 个问题,运营商可以减少部署时间,降低风险,并确保设施能够在 AI 驱动的世界中保持恢复力,这个世界的特点是变化和波动。
该行业的未来将不仅由运营商部署容量的速度来定义,还将由他们设计长期可持续性和可靠性的方式来定义。那些将冷却视为战略性使能器的人将最好地摆脱困境,成为未来的领导者。












