ソートリーダー

AIデータセンターには、単に冷却だけではなく、高速なエンジニアリングが必要である

mm

人工知能はデジタルワークを変革していますが、その影響はますます物理的なものになっています。大量のAIには以前よりもはるかに多くの電力が必要です。而且、AIサーバーを収容するデータセンターは需要に追いつくのに苦労しています。実際、Deloitteの報告書によると、2035年までに、アメリカ合衆国でのAIデータセンターからの電力需要は30倍以上に増加する可能性があります。

しかし、問題は単に電力使用量の問題ではありません。AIサーバーを収容するデータセンターは、テクノロジーが生成する大量の熱を考慮する必要があります。現代のGPUクラスターは、1レックあたり50 kWを超えることがあります。那は、10年前の標準的なコンピュータサーバーと比較して10倍の増加です。

データセンターの冷却システムは、ITワークロードを十分に管理するために長年設置されてきましたが、これらの新しい熱出力によって追い越されつつあります。インフラストラクチャは単に追いつくことができません。データセンターの冷却システムを設計するエンジニアたちは、新しい課題に直面しています。AI対応インフラストラクチャを設計するエンジニアたちは、伝統的なエンジニアリングワークフローがAIのスケールと速度に追いつくことができないことをますます発見しています。

おそらく、パラドックス的に、AIはデータセンターの容量に対する需要を増加させると同時に、容量を構築するために使用されるエンジニアリングプロセスを変革しています。インフラストラクチャの要件を前提とするAIの進歩は、エンジニアが物理システムをモデル化、検証、最適化する方法を加速させ始めています。

実際、AIは、AIを実行するインフラストラクチャを設計するために使用されるプロセスの一部になりつつあります。

このことから、多くのエンジニアリングチームは、クラウドネイティブのAIアクセラレーテッドシミュレーションワークフローを採用し始めています。これにより、エンジニアたちは、建設が開始される前に、熱性能、冷却戦略、インフラストラクチャのトレードオフを評価できます。

現在のデータセンターインフラストラクチャでは、賭けは非常に高く、ミスは壊滅的な結果をもたらす可能性があります。建設が開始される前にパフォーマンスを証明することは、長期的な成功のための課題となり、仮定、経験則、または後期の検証に頼るのではなく、必須となりました。

伝統的な冷却インフラストラクチャの負担

エンジニアリングチームにとって不幸なことに、AIワークロードは伝統的なクラウドベースのコンピューティングとは根本的に異なります。AIには、ネットワークの需要、熱出力、電力需要が一定です。

その変化は、一部、多くのデータセンターの欠点を明らかにしています。多くのデータセンターは、持続的な需要が必要ないと仮定して構築されました。而且、これらの冷却システムは、エネルギー消費量が非常に高いため、データセンターの需要をカバーするために「過剰冷却」することは、コストと電力使用量が急激に増加することを意味します。

最終的には、多くのデータセンターが直面する交差点は、「より多くの熱」ではなく、「より小さな誤差の余地」です。

データセンター開発者にとって、検証プロセスでの遅延は、顧客のコミットメント、容量計画、またはエネルギーコストに影響を及ぼす可能性があります。

歴史的に、エンジニアリングチームは、過剰なプロビジョニング、保守的な設計の仮定、後期の検証によって不確実性に対処することができました。AIインフラストラクチャは、その方程式を変えます。展開のペース、必要な資本投資、ラック密度の増加は、試行錯誤のエンジニアリングのための余地を大幅に減らします。設計プロセスの中で早期に検証する必要がある決定は、後で検証することができました。

新しい現実:建設開始前に熱性能を証明する

誤差の余地が減少するにつれて、エンジニアリングチームは設計プロセスの早期に熱分析を実行し始めています。変更がまだ安価で、設計がまだ柔軟である間に、エアフロー パターン、ラック レイアウト、コンテナ化戦略、または冷却装置の配置が十分であるかどうかを検証するために、建設が開始される前にモデル化とシミュレーションを実行できます。

これにより、エンジニアはホットスポットを特定し、冷却戦略をテストし、現実的な操作条件下で設計オプションを比較できます。チームは、冷たい空気が高密度のラックに到達しているか、ホットな排気が機器の入力に再循環しているか、冷却容量が効率的に使用されているかどうかを評価できます。

ここで、プラットフォームアーキテクチャが重要になります。強い圧力の下で作業するチームにとって、シミュレーションは、専門家だけがアクセスできる専用のHPCリソースに限定されるべきではありません。クラウドネイティブのシミュレーション プラットフォームを使用すると、高忠実度の分析がエンジニアリング チーム全体にアクセス可能になり、専門家だけがアクセスできるものではありません。このため、チームは研究を実行し、設計オプションを比較し、コンピューティング インフラストラクチャを構築または維持することなく共同作業を行うことができます。

エンジニアリング AIをそのワークフローに組み込むと、シミュレーションの役割自体が変わり始めます。歴史的に、シミュレーションは、専門知識、時間、計算リソースによって制限されていました。高忠実度の研究を実行するには、専門知識、専用ハードウェア、長い反復周期が必要でした。

エンジニアリング AIは、近い将来自動化されたエージェントを使用してエンジニアリング デザイン、シミュレーション、分析のワークフローを自動化および加速することで、これらの障壁を下げてくれます。モデル設定の高速化、関連する洞察の表面化、チームが短時間でより多くの設計オプションを評価できるようにすることで、エンジニアリング チームは設計プロセス全体で継続的に代替案を探索できます。

結果は、単にシミュレーションの高速化ではありません。それは、イノベーションの高速化です。

では、エンジニアリング チームにとって、現実ではどうなりますか。例えば、大規模な施設用の冷却および換気システムを製造する会社が、新しい機器設計をテストするためのより迅速な方法を見つける必要がありました。通常、このような会社は物理的なプロトタイプを構築し、外部の専門家を雇用し、数週間かけて、空気がシステム内で適切に動き、混合されるかどうかを確認する必要があります。

しかし、この会社がシミュレーション ソフトウェアを使用してテスト設定の仮想バージョンを作成することにした場合、状況は変わります。このアプローチにより、エンジニアは、製品を実際に構築する前に、コンピューター上で空気の流れと温度の性能をテストできます。

そして、結果はしばしば大きな影響を与えます。事前テストのフェーズは2〜3に短縮でき、エンジニアリング時間は85ではなく40時間に削減できます。

しかし、ここでの価値は、時間の節約だけではありません。エンジニアリング チームが早期に多くの質問をし、可能性を探索できることです。ラックの密度が増加した場合どうなりますか。空気の流れのパスが変わった場合どうなりますか。冗長性の仮定が失敗した場合どうなりますか。

このような探索のレベルを可能にすることが、シミュレーションを分析ツールからインフラストラクチャ設計戦略の重要なコンポーネントに昇格させます。

AIインフラストラクチャにはAIアクセラレーテッド エンジニアリングが必要

AIインフラストラクチャの次の段階は、施設のサイズ、ラックの密度、または冷却容量だけによって定義されるのではなく、エンジニアリング チームがシステムが機能することを証明できる速度によっても定義されることになります。

そこが、業界の次の競争上の優位性が生まれる場所です。設計プロセスの早期にシミュレーションを導入し、エンジニアリング チーム全体でアクセス可能にし、AIアクセラレーテッド ワークフローと組み合わせるデータセンター開発者は、資本がコミットされ、建設が開始される前に自信を持って決定を下せるようになります。

AIがデータセンターに課す物理的な需要を変革し続けるにつれて、AIが施設を設計する方法も変わります。次の時代を牽引する組織は、単に高熱負荷や厳しいエネルギー制約に反応するのではなく、設計プロセスを構築して、予測することができます。

デビッド・ハイニーは、SimScaleのCEO兼共同創設者です。ミュンヘン工科大学で数学の学士号と機械工学のディプロマを取得しています。また、ジョージア工科大学で計算科学と工学の修士号も取得しています。彼の専門分野には、計算流体力学、数値解析、ソフトウェア開発、アプライドマスがあり、これらは研究と仕事を通じて身に付けたものです(FZG – TU München、MAN Diesel & Turbo、FluiDyna GmbH)。

デビッドは、デジタルテクノロジーとマネジメントセンター(CDTM)からテクノロジーマネジメントの名誉学位も取得しています。デビッドは、バイエルンエリートアカデミー(Bayerische EliteAkademie)を、SimScaleの他の3人の共同創設者であるヴィンセンツ・ドルレ、ヨハネス・プロbst、アレクサンダー・フィッシャーとともに卒業しました。