

3年前、データセンター業界は、液体冷却が必要になるかどうかを議論していました。2年前、ほとんどのオペレーターは、シングルフェーズの水が解決策になると考えていました。今日、先進的な施設は次世代の冷却アーキテクチャに移行していますが、多くの新しい構築は、数年以内に古くなってしまうシステムにロックインしています。この乖離は、2027年まですでに可視化されている物理学とプロセッサのロードマップによって推進されています。共に、彼らは、冷却が新しいアーキテクチャの時代に入っていることを理解しているオペレーターと、数百万ドルを投資したインフラストラクチャが次のAIプロセッサの波をサポートできないことをすぐに発見する可能性のあるオペレーターとの間の分裂を生み出しています。冷却の3つの世代データセンターの冷却は、3つの異なるアーキテクチャの時代を経て進化してきました。各時代は、新しい障害を克服し、ラック密度が経済的にサポートされる必要性によって定義されています。 世代1: エアーコoling (2000–2023): ラックあたり10–15kWでピークに達しました。経済学は2020年頃から崩壊し始め、AIワークロードは20kWを超えました。2023年までに、エアーコolingは、新しい高密度の展開ではほとんど使えなくなりました。 世代2: シングルフェーズ液体 (2020–2027): 初期の液体冷却アプローチです。水またはPG25を高流量で使用して、温度変化による熱を除去します。ラックあたり20–120kWで有効ですが、150kW以上では負担がかかります。2027年までに、プロセッサが2,000Wを超えたときに実用的限界に達することが予想されています。 世代3: 2相 + 高度な熱除去 (2024–2035+): 相変化による熱吸収を使用する冷媒を使用します。ラックあたり150kWから拡張可能です。チップから大気までの新しい熱除去戦略を可能にします。既に先進的なオペレーターによって展開されており、2027–2028年までに主流になることが予想されています。 各移行は、物理学と経済学が同時に天井に達するポイントを示します。世代2の物理学的問題最初の世代2の展開は、シングルフェーズ冷却の限界を明らかに始めています。水ベースのシステムでは、1.5リットル/分/キロワットの流量が必要です。120kWのラックでは約180リットル/分、250kWでは375リットル/分となり、コールドプレートのオリフィスはミリメートル単位で測定されます。今年のGTCでは、ファイアホースほどの大きさのラインに接続されたラックが課題を明らかにしました。高流量は、カスケードする問題を生み出します。水とグリコールの混合物は、微細な構造を酸化し、腐食は流量の速度によって弱まったフィンを侵食することによって増幅されます。メンテナンスの需要は、多くのオペレーターを驚かせました。月次のフィルタ交換ではなく、四半期ごとまたは2年ごとの交換、常時化学的監視、ラックに接続されたグリコール「IVバッグ」。故障率も同様に懸念されます。内部のフィールドデータによると、3年間のライフサイクルで、約4%の水冷GPUが漏れによって故障します。3〜500万ドル相当の機器を搭載したラックでは、その損失は本質的に世代2の経済学を破壊します。10MWの施設分析によると、Jacobs Engineeringは、別の非効率性を強調しています。シングルフェーズシステムでは、世代3システムよりも冷たい水温が必要です。世代2によって要求される冷たい水温は、チラーの容量要件とエネルギー消費の両方を増加させます。世代3が異なる点世代3は、真正なアーキテクチャの変化を表します。2相の冷媒は、相変化による熱を吸収し、流量を4〜9倍に削減します。流体の速度の低下は、インフラストラクチャのストレスを大幅に削減し、コールドプレートの侵食を最小限に抑え、世代2に悩まされるメンテナンスの負担の大部分を排除します。冷媒は、チップから大気までの新しい熱除去設計を可能にします。例えば、冷媒からCO₂へのシステムや冷媒から冷媒へのシステムなどです。これらの設計はすでに生産されており、世代3の拡張性と経済的効率を実証しています。Jacobs Engineeringは、世界のデータセンターのMEP設計の80%以上を担当しています。ベンダーの偏見を除外した10MWの参考モデルを作成しました。結果: CapEx: $10.39Mシングルフェーズ vs. $10.38M 2相 年間OpEx: $1.04M vs....


ヘッドラインはAIの機能とチップの不足に焦点を当てている間、世界中のデータセンター内で静かな危機が展開している。最新のAIプロセッサは歴史上で最も熱を発生させる——1チップあたり最大1,200W、そして上昇し続けている。この基本的な物理的な課題は、AIのデプロイにおける真正のボトルネックとなり、市場の勝者と敗者を分けている。組織がこの熱的パズルを解決すると、彼らは単にクーラーなシステムを実行しているのではなく、競争相手よりもAIの機能を数ヶ月早くデプロイし、毎回の貴重なメガワットからより多くのコンピューティングを抽出している。また、時間の経過とともに蓄積する持続可能な競争上の優位性を創造している。クーリング戦略は、AI戦略となり、AI投資をどれくらい速く活用できるか、またどれくらい効率的にスケールできるかを決定付けている。この課題の規模は、最近の市場データを調べると明らかになる。IDCは、AIインフラストラクチャーの支出が2028年までに約900億ドルに達すると予測している。しかし、多くの組織は、現行のクーリングインフラストラクチャーが最新のAIワークロードの熱的要求をサポートできないことを発見している。このインフラストラクチャーのギャップは、熱管理能力が直接市場のポジショニングを決定する新しい競争的ダイナミクスを生み出している。クーリングが今やAIの価値への重要なパスである理由回避できない物理的障壁今日のAIサーバーはそれぞれ10〜12kWを消費し、ラックは100kWを超える——従来のクーリング方法では対処できない強度である。比較のために、典型的なエンタープライズサーバーラックは5〜10kWを消費し、電力密度が10〜20倍に増加している。次世代のチップは2,000Wを超え、ラック密度は600kWに近づく。熱的課題は、個々のプロセッサを超えてデータセンターのインフラストラクチャーを根本的に再構築する。AIハードウェアが急速な年次サイクルで進化するにつれて、組織は、連続的に増加する電力密度に適応できるクーリングシステムを設計する必要がある。今日の132kWのラック要件は、液体クーリングソリューションの必須の採用を促しており、従来の空気クーリングではこれらの高密度構成によって発生する熱を散発することはできない。これにより、複雑な計画の課題が生じる: データセンターのオペレーターは、同時に現在のデプロイをサポートしながら、熱的要求をさらに高める次世代のプロセッサのためのインフラストラクチャーを準備する必要がある。これは将来の懸念事項ではなく、現在のAIイニシアチブを遅らせている即時のデプロイの制約である。熱管理を戦略的優先事項として扱う組織は、競争上の優位性を数ヶ月獲得している。コストセンターから戦略的優位性へクーリングを必要な運用費用として見る従来の観点は、現代のAIインフラストラクチャーにおけるその役割を根本的に誤解している。クーリングの効率は、制約されたメガワットから抽出できるコンピューティングパワーの量を直接決定する。従来のクーリングシステムは、データセンターの電力の最大40%を消費し、AIデプロイで毎ワットのコンピューティングパワーが直接ビジネスの価値に変換されるため、巨大な機会費用を生み出している。高度なクーリングソリューションを実装する組織は、同じ電力封筒から20%多くのコンピューティング能力を達成しており、基本的にクーリングの効率を追加のAI処理能力に変換している——新しいエネルギー源を必要とせずに。電力制約がAIインフラストラクチャーの拡張における主な制限要因として現れるにつれて、この効率の向上はさらに重要となる。経済的影響は大きい。1MWの電力を消費する典型的なエンタープライズAIデプロイの場合、クーリング効率の20%の改善は、200kWの追加コンピューティング能力に相当し——追加の電力インフラストラクチャー投資を必要とせずに約20の追加AIサーバーに相当する。3つの意思決定フレームワーククーリング戦略の決定には、各々が重要なビジネス上の影響を持つ3つの重要な要素を評価する必要がある:現在と将来の密度要件: 従来のクーリングは50kW/ラックを超えることは実用的ではなく、2相ソリューションは100kW+で大きな利点を提供する。組織は現在の要件だけでなく、次の3〜5年間の予想密度要件を評価する必要がある。業界分析によると、AIワークロードの電力密度は年間15〜20%増加し続けるため、前向きに考えたクーリングアーキテクチャーが不可欠である。デプロイのタイムラインのプレッシャー: 競争的なAI市場では、デプロイまでの時間は市場の優位性と直接相関する。デプロイの時間を短縮するソリューションは、より高い初期費用にもかかわらず、より良いビジネス成果をもたらすことが多い。モジュラークーリングソリューションを実装する組織は、従来のクーリングのリトロフィットに比べて40〜60%早くデプロイの時間を報告しており、多くの場合、最初の運用年の間にプレミアム投資を回収している。施設の制約: 現在の電力とクーリングインフラストラクチャーは、デプロイのオプションに厳しい制限を課す。ハイブリッドアプローチにより、既存のインフラストラクチャー内でターゲットの高密度デプロイが可能になり、12〜18か月と大量の資本投資を必要とするコストのかかるビルダウトを避けることができる。蓄積する優位性将来のAIプロセッサは熱的課題をさらに悪化させる。AMDのMI300Xや、Google、Amazon、Metaからのカスタムシリコンなど、業界は最大のパフォーマンス密度に向けて推進しており、これにより前例のないクーリングの要求が生み出される。これらのプロセッサはすべて、最大のパフォーマンス密度のために設計されており、競争的なAIデプロイには高度な熱管理が不可欠である。今日、スケーラブルなクーリングアーキテクチャーを実装する組織は、複数のハードウェア世代にわたる優位性を生み出している。最も前向きに考えるオペレーターは、250kW/ラック以上の設計を行い、複雑な熱的モニタリングシステムを実装し、クーリング、電力配布、コンピューティングリソースを統一システムとして最適化する統合アプローチを開発している。AIインフラストラクチャーの新しい現実市場は、クーリングを戦略的課題として認識する組織と、戦術的課題として扱う組織に明らかに分かれている。2025年を通じてAIデプロイが加速するにつれて、このギャップは劇的に拡大する。リーディングオペレーターは、すでに数ヶ月単位のデプロイタイムラインを達成しており、制約された電力リソースからかなり多くのコンピューティングを抽出しており、エネルギー消費が削減されたより持続可能な運用を創造している。持続可能性の影響も同等に重要である。従来のクーリングシステムはデータセンターの電力の最大40%を消費するため、クーリングのオーバーヘッドを削減する高度なクーリングテクノロジーは、運用の効率と環境の持続可能性の目標の両方を直接サポートする。行動を起こす: 進むべき道漸進的なクーリングアプローチのための時間は過ぎ去った。AIをリードしたい組織は、基本的に今、熱的戦略を再考する必要がある。この変革には、クーリングインフラストラクチャーをサポートシステムではなく、AIの機能の核心的なエナブラーとして見ることが必要である。成功した実装は、組織のインフラストラクチャーの能力を評価する包括的な熱的評価から始まる。AIの計画プロセスの初期段階で、組織はクーリングテクノロジーの提供者と関わる必要がある。熱的戦略がデプロイのタイムラインとビジネス目標に合致することを保証する必要がある。最も成功したAIデプロイは、クーリング戦略を初期のインフラストラクチャー計画プロセスに統合しており、クーリング戦略を後回しに扱っていない。統合アプローチにより、より速いデプロイ、より効率的なリソースの利用、長期的な拡張性が可能になる。AIの時代には、あなたのクーリングインフラストラクチャーはあなたのテクノロジーをサポートするだけでなく、あなたがそれからどれくらいの価値を生み出すことができるかを決定付けている。未来は、迅速にデプロイできる人、効率的にスケールできる人、急速に進化する密度要件に適応できる人に属する。質問は、クーリングアプローチを変換するかどうかではなく、どれくらい速く変換できるかである。
データセンター運営者は、旧来の冷却技術に数百万ドルを賭けている。データセンターの冷却に関する議論は、変化しているのではなく、AIの経済学によって完全に再定義されている。リスクは今までで最も高くなっている。AIの急速な進歩は、予想に反してデータセンターの経済学を変化させた。1つのAIサーバーラックが約300万ドル、つまり高級住宅の価格ほどの価値がある場合、リスク計算は根本的に変化する。Andreessen Horowitzの共同創設者であるBen Horowitzは最近、データセンターが大量のハードウェア投資を行っていることを警告し、「インフラストラクチャ戦略を慎重に管理しないと、すぐに損失を出す可能性がある」と述べた。この新しい現実は、冷却アプローチの根本的な再考を必要とする。従来の指標であるPUEや運用コストはまだ重要だが、数百万ドルのハードウェア投資を保護することの方が重要である。データセンター運営者が問うべき質問は、次の通りである: 私たちがAIインフラストラクチャ投資を最もよく保護する方法は何ですか?従来の冷却の隠れたリスク業界の歴史的な、単相、水ベースの冷却ソリューションへの依存は、AI時代に受け入れられないリスクをもたらしている。数年間データセンターに役立ってきたこの技術は、AIワークロードの熱負荷に耐えられない。理由は単純な物理学である: 単相システムでは、今日の熱負荷を管理するためにより高い流量が必要になり、漏れや壊滅的な故障のリスクが増加する。これは仮想的なリスクではない。単一の水漏れは、瞬時に数百万ドル相当のAIハードウェアを破壊する可能性がある。現在の供給制約市場では、ハードウェアの交換に数ヶ月かかることがある。単一の壊滅的な故障のコストは、データセンターの冷却インフラストラクチャの予算を1年間超える可能性がある。にもかかわらず、多くの運営者は依然としてこれらのシステムに依存しており、実質的にAI投資を旧来の技術に賭けている。Data Center World 2024では、NVIDIAのデータセンター機械工学マネージャーであるMohammad Tradat博士が質問した。「単相冷却はどのくらいの期間存続するか?すぐに段階的に廃止され、2相、冷媒ベースの冷却が必要になる。」これは、物理学と財務の現実によって裏付けられた業界の合意を反映しているのではなく、増加する意見である。投資保護への新しいアプローチ2相冷却技術は、水ではなく誘電冷媒を使用するため、根本的にこのリスク方程式を変える。2相冷却システムの実装コストは、通常1ラックあたり約20万ドルである。これは、500万ドルのAIハードウェア投資を保護するための保険として見なされるべきである。見方を変えると、これは資産を保護するための4%のプレミアムであり、他の多額のビジネス投資の保険料よりもはるかに低い。AIトレーニングの断絶や予期せぬダウンタイム中のアイドルインフラストラクチャのコストを考慮すると、ビジネス上の判断はさらに明確になる。データセンター運営者と財務の利害関係者にとって、2相冷却への投資の決定は、リスク管理と投資保護の観点から評価されるべきである。関連する指標には、運用コストやエネルギー効率だけでなく、保護されるハードウェアの総価値、潜在的な故障シナリオのコスト、次世代ハードウェアのための将来の価値、および冷却投資のリスク調整収益が含まれるべきである。AIがデータセンターのインフラストラクチャの密度と価値を高めるにつれて、業界は冷却戦略へのアプローチを進化させる必要がある。質問は、2相冷却への移行がいつ行われるかではなく、既存の運用と投資へのリスクを最小限に抑える方法で行われるかである。賢い運営者はすでにこの移行を進めており、他の運営者は高額なレッスンを学ぶ可能性がある。1つのラックが多くのデータセンターの年間運用予算を超える時代に、旧来の冷却技術に賭けることは、単にリスクではなく、潜在的に壊滅的なものである。行動する時は今だ——そのリスクが現実になる前に。