Connect with us

データセンターの冷却の3つの世代——そしてなぜほとんどの運営者は昨日のインフラを構築しているのか

ソートリーダー

データセンターの冷却の3つの世代——そしてなぜほとんどの運営者は昨日のインフラを構築しているのか

mm

3年前、データセンター業界は液体冷却が必要になるかどうかを議論していました。2年前、ほとんどの運営者はシングルフェーズの水が解決策になると信じていました。今日、先進的な施設は次世代の冷却アーキテクチャに移行している一方で、多くの新しい構築は数年以内に古くなってしまうシステムをロックインしています。

この分岐は、2027年まですでに可視化されている物理学とプロセッサのロードマップによって推進されています。共に、彼らは冷却が新しいアーキテクチャ時代に入っていることを理解している運営者と、数百万ドルを投資したインフラが次のAIプロセッサの波をサポートできないことを発見することになる運営者の間に分裂を生み出しています。

冷却の3つの世代

データセンターの冷却は、3つの異なるアーキテクチャ時代を経て進化してきました。各時代は、新たな障害を克服し、ラック密度が経済的にサポートされるために必要な要素で定義されています。

  • 第1世代:空気冷却(2000〜2023):1ラックあたり10〜15kWでピークに達しました。2020年頃、AIワークロードが20kWを超えたため、経済性が崩壊し始めました。2023年までに、空気冷却はほとんどの新しい高密度展開では旧式になりました。

  • 第2世代:シングルフェーズ液体(2020〜2027):初期の液体冷却アプローチです。水またはPG25を高流量で使用して、温度変化で熱を除去します。1ラックあたり20〜120kWで有効ですが、150kW以上では負担がかかります。2027年までに、プロセッサが2,000Wを超えたときに実用的限界に達することが予想されています。

  • 第3世代:2相+高度な熱除去(2024〜2035+):相変化によって熱を吸収する冷媒を使用します。1ラックあたり150kW以上でスケーラブルであり、新しい熱除去戦略を実現します。既に導入されているリーディングオペレーターによって既に展開されており、2027〜2028年までに主流になることが予想されています。

各移行は、物理学と経済学が同時に天井に達したときのブレークポイントを示します。

第2世代の物理学的問題

最初の第2世代の展開は、シングルフェーズ冷却の限界を明らかに始めています。

水ベースのシステムでは、1kWあたり約1.5リットル/分の流量が必要です。120kWのラックでは約180リットル/分、250kWでは375リットル/分になります。冷却プレートのオリフィスはミリメートル単位です。

今年のGTCでは、ファイアホースほどの大きなラインに接続されたラックが課題を可視化しました。高流量はカスケード問題を生み出します。グリコールが混合された水はマイクロファイン構造を酸化し、腐食は流速によって弱まったフィンを浸食します。メンテナンスの要求は多くの運営者を驚かせました。フィルタの交換は月次、化学の監視は継続的に、グリコールの「IVバッグ」はラックに接続されています。

故障率も同様に懸念されています。内部フィールドデータによると、水冷却GPUの約4%が3年間のライフサイクルで漏れによって故障します。1ラックあたり300〜500万ドル相当の機器を搭載している場合、その損失は第2世代の経済性を根本的に壊します。

Jacobs Engineeringによる10MWの施設分析は、別の非効率性を強調しています。シングルフェーズシステムでは、第3世代システムよりも冷たくなった水温が必要です。第2世代が要求する冷たくなった水温は、チラーの容量要件とエネルギー消費を増加させます。

第3世代が異なる点

第3世代は真のアーキテクチャの変化を表します。2相冷媒は、相変化によって熱を吸収し、流量を4〜9倍に削減します。流速の低減は、インフラストレスを大幅に削減し、冷却プレートの浸食を最小限に抑え、第2世代に悩まされるメンテナンスの負担の大部分を排除します。

冷媒はまた、新しい熱除去設計を可能にします。冷媒からCO₂へのシステムや冷媒から冷媒へのシステムは、チップから大気までの冷却を最適化します。これらの設計はすでに生産されており、第3世代のスケーラビリティと経済的効率を実証しています。

Jacobs Engineeringは、世界のデータセンターのMEP設計の80%以上を担当しています。ベンダーの偏見を除外するために、10MWのリファレンスモデルを並列に作成しました。

結果:

  • CapEx:シングルフェーズ10.39Mドル対二相10.38Mドル

  • 年間OpEx:1.04Mドル対67.9万ドル(35%削減)

  • 5年間のTCO:15.6Mドル対13.8Mドル(12%節約)

CapExの平価は、多くの人を驚かせました。二相システムでは現在、より多くのCDUが必要ですが、シングルフェーズ設計では複雑な行マニフォールド、強力な漏れ検出、調和振動フィルタが必要です。2026年に到着する次世代のCDUは、コストをさらに削減し、第3世代を展開することをより経済的にします。

OpExの利点は、熱力学に由来します。二相システムは、同じチップ温度を維持しながら、施設の水温を約8°C高く維持します。各度の節約は、年間のエネルギー使用量を約4%削減します。これは、Jacobsがドキュメント化したPhoenixからストックホルムまでの気候全体で35%のOpEx削減に相当します。

先見の明ある運営者は、さらに一歩進んでいます。熱マージンを、同じ電力封じ込め内で約5%の追加コンピューティング能力に変換しています。GPUが収益を表し、電力が制約されている世界では、この利点は競争上の差別化要因となります。

シリコンロードマップが問題を引き起こす

第3世代への移行は、冷却ベンダーによって推進されているのではなく、プロセッサ設計によって推進されています。

NVIDIAのRubinアーキテクチャは、1プロセッサあたり2,000Wを超えることが予想されています。AMDのMI450も同様の軌道上にあります。主要なチップメーカーは、より小さいフットプリントに更多のパフォーマンスを詰め込んでおり、熱密度を急激に上昇させています。

主な課題は、熱フラックスです。熱フラックスが上昇すると、第2世代の解決策は物理的および経済的な限界に達します。流量は破壊的になり、温度デルタは耐えられないものになり、システムコストは維持できないものになります。

第3世代は、この現実のために構築されています。リーディングオペレーターはすでに250kWのラックを指定しており、1MW以上への明確なパスを持っています。「どれが勝つか見てみよう」というアプローチは、慎重なもののように感じるかもしれませんが、それは最もリスクの高いアプローチです。シリコンロードマップは固定されています。物理学は曲げられません。残された決定は、いつ行動するかです。

ブラウンフィールドのジレンマ

現在、第2世代のインフラに数十億ドルが投資されていますが、36ヶ月以内に制約されることになります。今日設計された施設は、2027年クラスのプロセッサをサポートするのに苦労することになります。後からリトフィットすることは、今日第3世代を構築するよりもはるかに高価です。

既存のサイトの場合、冷媒から空気へのシステムはブリッジとして機能できますが、それは長期的な解決策ではありません。業界の方向性は明確です。第3世代のアーキテクチャが次の10年の新しい構築の基盤となることになります。

世代間の選択

冷却の各移行は、次の世代が旧式になるまで十分に見えました。2020〜2021年に液体冷却を早く採用した運営者は、ほぼ2年の展開の優位性を獲得しました。

同様の転換が再び進行中です。物理学は証明されています。経済学は独立した分析によって検証されています。プロセッサロードマップは移行を不可避なものにします。

質問は、変化が起こるかどうかではありません。いつ行動するかです。

今日設計されたデータセンターは、2030年代まで運用され続けることになります。第3世代のアーキテクチャを構築することで、AI時代に適合することを保証するのではなく、安定する前に制約された資産になることを避けることができます。

データセンターの冷却の将来は、世代間の変換です。第3世代はすでにここにあります。

Josh Clamanは、AccelsiusのCEOです。Accelsiusは、チップ直接、2相冷却技術を開発しています。30年のキャリアを通じて、変革的な技術の力の擁護者であるClaman氏は、Dell、NCR、AT&Tでの事業の成長と再配置に貢献しています。