Connect with us

実際のAIのボトルネック: 電力、冷却、スケールの物理学

人工知能

実際のAIのボトルネック: 電力、冷却、スケールの物理学

mm

人工知能は、過去10年間で驚くほどの速度で進化してきました。より高速なGPU、より大きなクラスター、革命的なアーキテクチャが、以前は不可能と思われたブレークスルーを実現しました。ただし、業界が1兆パラメータモデルやハイパースケールAIファクトリーに向けて推進するにつれ、次の障壁はアルゴリズムとは関係ありません。今日の実際のボトルネックは物理的なものです。電力、冷却、そして地球規模でのコンピューティングを維持するためのインフラが必要です。

質問は、どれだけのチップを製造できるかではなく、チップを動かすために必要なギガワット、水、送電線を供給できるかです。インフラ、シリコンではありませんが、将来のAIのペースを決めるのはインフラです。

ギガワットよりもギガフロップス

OpenAIの「Stargate」プロジェクトは、OracleとSoftBankと共同で建設中であり、アメリカのキャンパス全体で約7ギガワットの容量を目指しています。これは、複数の原子力発電所に相当します。この規模では、GPUを生産することよりも、発電所や変電所を確保してそれらを動かすことが主な課題です。

Microsoftの需要も同様に驚くべきものです。2030年までに、同社のAIワークロードは全米ニューエングランド地域と同等の電力を必要とすることが予測されています。これは、同社が再生可能エネルギープロジェクトに数十億ドルを投資し、核融合や先進的な原子力発電所などのより実験的なオプションも追求している理由を説明しています。

このダイナミクスは、エネルギー政策に波及しています。PJM Interconnectionでは、65万人以上の13州とワシントンD.C.のグリッドを管理する地域送電組織で、公益事業者はデータセンターの制限メカニズムを検討しています。主要テクノロジー企業はそのような制限に反対してロビー活動を行っていますが、規制当局がそれらを検討していることは、AIがグリッド計画の中央に来ていることを示しています。

冷却の課題

電力を供給することは半分の問題です。電力がラックに到達したら、次の課題は熱です。各高性能GPUは約700ワットを消費し、ラックが数百のGPUを搭載している場合、密度は1〜600キロワット/ラックに達します。空気冷却は、空気の流れの非効率性と再循環のため、約40キロワット/ラックを超えると機能しなくなります。

したがって、液体冷却はニッチから主流になりました。NVIDIAの最新の液体冷却Blackwellプラットフォームは、ハイパースケールAIクラスター用に設計されており、空気冷却ラックよりも25倍のエネルギー効率と300倍の水効率を実現します。同社はまた、Vertivと参考アーキテクチャを開発しました。これは、1ラックあたり130キロワット以上を処理でき、密度の高いGPUデプロイを実現可能にします。

スタートアップも革新しています。Corintisは、チップ基板にマイクロチャンネルを直接埋め込むスイスの会社で、最近2400万ドルを調達し、すでにMicrosoftを顧客としています。Microsoftの研究チームは、チップパッケージにマイクロフルイドチャンネルを刻むことを実証しました。これにより、ピークGPU温度が最大65%低下し、従来のコールドプレートよりも3倍の効率が向上しました。これらのテクノロジーにより、データセンターが溶解することなく、GPUをフルスロットルで動かすことができます。

戦略的な変数としての水

液体冷却は、別の変数、水消費を導入します。蒸発式および冷水式システムは、数百メガワットのキャンパスにスケールアップすると、巨大な水量を必要とします。フェニックスでは、データセンターのクラスターは1日あたり数百万ガロンの水を必要とします。これは、干ばつ地域で懸念を引き起こしています。

これにより、零水およびクローズドループ冷却システムの開発が促進されています。IEEE Spectrumは、シールされた誘電体浸漬浴、ドライクーラー、飲料水フリーのチラーなどの戦略を文書化しました。これらは、飲料水の使用量をほぼゼロに抑えます。 한편、運営者は廃熱の再利用を実験しています。AquasarやiDataCoolなどのプロジェクトは、ホットウォータークーリングループが建物の暖房システムまたは吸収式チラーに供給できることを示しています。これにより、失われるエネルギーの大部分がリサイクルされます。

トレードオフは、水と電気の間で行われます。クローズドループまたはドライシステムはより多くのエネルギーを消費しますが、蒸発式設計は電力を節約しますが、多くの水を使用します。水に富む地域では、政策は水保全を優先しています。即ち、エネルギー消費が増えても水を節約することを意味します。

インフラとグリッド

電力と冷却の解決策が整ったとしても、最終的なボトルネックはインフラです。立地の決定が、AIレースの勝者と敗者を決定します。

Microsoftの800億ドルを投じたウィスコンシン州のFairwaterキャンパスは、戦略的な立地の重要性を示しています。このサイトは315エーカーにわたり、数百万のGPUを収容し、変電所、ファイバーライン、地下水へのアクセス性に基づいて選ばれました。設計ではまた、水の影響を最小限に抑えるためにクローズドループ冷却を重視しています。

増加する負荷に対応するために、MicrosoftはBrookfieldと2030年までに10.5ギガワットの再生可能エネルギーを追加するというランドマーク契約を締結しました。同時に、Helion Energyによる核融合プラントの建設や、ペンシルバニア州の20年間のThree Mile Island原子力発電所再開契約を支援しています。

AmazonやGoogleも同様の措置を講じており、原子力発電所の隣にサイトを確保し、クリーンパワー ポートフォリオを開発しています。アイルランドでは、データセンターがすでに全世帯の電力消費を上回っています。規制当局は、新しい承認を2028年まで凍結しています。これは、政治と許可が、資金のあるプロジェクトをも妨げる可能性があることを示しています。

スマートな運用: AIによるAIの管理

興味深いのは、インフラの負担を管理するために、AI自体が使用されていることです。強化学習は、実稼働データセンターで冷却システムを最適化するために使用されており、14〜21%のエネルギー節約を実現しながら、安全性を損なうことなく実現しています。デジタルツインと予測モデリングも、ホットスポットを予測し、機器を事前に冷却し、作業負荷をより涼しい時間帯や再生可能エネルギーの余剰時期にシフトするために使用されています。

Googleは、マシンラーニングを使用してデータセンターの冷却需要を40%削減したことをすでに実証しています。他の運営者も同様のシステムを採用しています。電力と冷却のコストが上昇するにつれ、これらの運用上の節約は、競争上の重要な優位性となっています。

戦略的展望

軌道は明らかです。AIの需要は、2030年までに世界のデータセンターの電力使用量を2倍にすることが予測されています。AIワークロードのみが、2050年までに世界の総電力消費のうち中単位のシェアを占めることになります。NVIDIAを含むチップメーカーがシリコンのパフォーマンスを前進させ続ける一方で、AIの実用的なフロンティアは、公益事業が新しい発電、送電、冷却インフラをどれだけ迅速に構築できるかに依存します。

AI製品を構築する企業にとっては、これは、ロードマップが存在する場所に結び付けられていることを意味します。投資家にとっては、最も価値のあるプレイは、GPUサプライヤーではなく、公益事業、送電開発者、冷却スタートアップである可能性があります。政策立案者にとっては、AIに関する議論は、倫理やデータ管理の質問から、メガワット、水、グリッドの近代化に関する質問へと移行しています。

AIの未来は、研究ラボやチップファウンドリーだけでなく、変電所、冷却ループ、発電所で決定されることになります。スケールの物理学 — アルゴリズムの数学だけではなく — が、次の10年間で人工知能の速度と範囲を決定することになります。

アントワーヌは、Unite.AIの創設パートナーであり、ビジョナリーなリーダーです。彼は、AIとロボティクスの未来を形作り、推進するという、揺るぎない情熱に突き動かされています。シリアルエントレプレナーである彼は、AIは電気と同じように社会に大きな変革をもたらすと信じており、破壊的な技術やAGIの潜在能力について熱く語ることがよくあります。

As a futurist、彼は、これらのイノベーションが私たちの世界をどのように形作るかを探求することに尽力しています。さらに、彼は、Securities.ioの創設者であり、未来を再定義し、全セクターを再構築する最先端技術への投資に焦点を当てたプラットフォームです。