Jin Kimは、XCENAのCEOおよび共同創設者です。XCENAは、韓国に拠点を置くファブレス半導体会社で、AIおよび大規模データ処理向けの次世代メモリソリューションの開発に注力しています。SK Hynixでのシニアリーダーシップを含む経歴を持つKimは、データ中心のコンピューティングおよび半導体アーキテクチャーに関する深い専門知識を持ちます。
過去数年間、AIインフラストラクチャは、他のメトリクスよりもコンピュートを優先してきました。アクセラレータの増加、クラスターの拡大、FLOPSの向上が、GPUの最大限の活用を目的とした会話を推進してきました。このアプローチは、モデル進歩が主にトレーニングスケールに依存していたときには妥当でした。ただし、現在はAIの本稼働展開が優先されるようになり、新しい制約に焦点を当てる必要があります。つまり、メモリです。 今日、多くのAIの課題は、メモリ容量、帯域幅、待ち時間、およびシステム内でのデータの移動にかかる時間とエネルギーに起因しています。コンテキストウィンドウは拡大し続けており、アンソロジックのような企業は、標準プランで100万トークンのウィンドウを提供しています。推論ワークロードは増加しています。マルチエージェントシステムの成長により、AIシステムはステージ間でより大きなデータ量を交換しています。オペレーターは、より多くのGPUを追加することを続けることができますが、各サーバーが独自のシステムRAMに限定されているため、期待されるパフォーマンスに到達できません。これらのシステムは、効率的にアクセラレータを供給するのに十分なRAMに飢えています。 このシフトは、スケーラビリティとコストの両方に影響を及ぼします。メモリが制限要因になると、組織はしばしば、高価なハードウェアを過剰にプロビジョニングし、GPU容量を未使用のままにし、電力とインフラストラクチャのコストを高くします。AIの次のスケール段階は、生産AIが実際に実行される方法に合ったメモリアーキテクチャを構築することに依存することになります。 ここでは、インフラストラクチャのリーダーが、メモリの需要の増加に備えるために今すぐ取り組むことができる5つのステップを紹介します。 1. 実際のボトルネックを測定することから始める 多くの組織は、まだコンピュート優先の観点からAIのパフォーマンスを評価しています。クラスターの利用率、アクセラレータの数、トップラインのスループットを追跡し、改善はアクセラレータの追加から来ると仮定します。その観点はしばしば実際の問題を見逃しています。 メモリの圧力は、停止したアクセラレータ、トークンあたりの待ち時間の増加、負荷下でのスループットの不一致として現れます。GPUは、別のメモリ階層、別のサーバー、またはアプリケーションの別のステージからのデータの到着を待っている場合、未使用のままに見える場合があります。推論により、この問題がより目立つようになり、KVキャッシュサイズが増加し、同時セッションが増えて帯域幅に競合します。 オペレーターは、トークンあたりの移動バイト、停止時間、アクセラレータのメモリアクセスパターン、CPU、GPU、隣接するメモリ階層を考慮して、有効なメモリ使用状況に関するより良い可視性が必要です。ネットワークまたはストレージの問題からメモリ関連の遅延を区別できるパイプライントレースも必要です。その可視性がなければ、チームは実際の低下の原因に対処せずにコンピュートに更多の費用を費やす可能性があります。 2. 容量を追加する前にデータの移動を削減する 大規模なAIシステムでは、データの移動はデータの処理と同じくらいのオーバーヘッドを生み出すことができます。 これは特に推論に当てはまります。コンテキストウィンドウが拡大すると、KVキャッシュはスタック内のシステムメモリの最大の消費者となる可能性があります。マルチテナントの提供とマルチエージェントのワークフローを追加すると、さらに増加します。最初のステージが出力を生成し、別のステージがそれを消費し、インフラストラクチャがGPU間、サーバー間、またはフレームワークレベルのシリアル化を介して大きなデータブロックのハンドオフを処理することで、これらのコピーには実際のコストがかかります。 これらのコピーは、帯域幅を消費し、待ち時間を追加し、次の転送が完了するまでに高価なコンピュートリソースを待たせることもあります。また、オペレーターは、実際のワークロードに必要なよりも多くの高価なメモリを購入するよう促します。 さらにアクセラレータを投資する前に、チームは、システム内で不必要にデータが移動している場所を特定する必要があります。GPU間の転送、サーバー間のコピー、エージェントパイプライン全体での中間状態の繰り返し移動は、開始するための良い場所です。多くの環境では、不要な移動を削減することで、別のサーバーを追加するよりも多くの実用的なパフォーマンスが得られます。 3. ワークロードの動作に基づいてメモリ階層を構築する AIインフラストラクチャは、メモリを単一のソースではなく、異なる役割を持つ階層として扱うと、より効果的に機能します。 最もホットなデータは、アクセラレータに最も近い場所に留める必要があります。これには、最も低い待ち時間と最高の帯域幅を要求するワーキングセットが含まれます。他のアクティブバッファと頻繁にアクセスされる状態は、DRAMに配置できます。スケールよりも絶対的な速度が必要な大きな構造は、プールされたメモリに移動できます。冷たいデータと、活動度の低いモデルは、スタックの下の方に配置する必要があります。 このアプローチでは、チームが、どのデータが頻繁に変更されるか、どのデータが多くのプロセスによって共有されるか、また、どのデータが妥当な待ち時間のトレードオフを許容できるかを理解する必要があります。多くの展開では、すべてのものを最も速いHBM階層にプッシュすることをデフォルトとして選択しますが、これは安全性を感じるためです。このアプローチはコストを押し上げ、通常、効率を犠牲にします。 階層化されたメモリ戦略により、オペレーターはパフォーマンスと経済性の両方をより制御できます。生産AIでは、これはコアの設計要件になっています。 4. エージェントAIのアーキテクチャの一部として共有メモリを扱う マルチエージェントAIは、断片化されたメモリ設計のコストを高めています。 多くのエージェントシステムでは、1つのエージェントが別のエージェントがすぐに使用する出力を生成します。3番目のサービスは、その出力をランク付けしたり、コンテキストを追加したり、別のモデルにルーティングしたりする場合があります。各ステップで同じ状態の新しいコピーを作成すると、トラフィックは急速に増加します。コンテキストが増加すると、コピーされたデータのサイズも増加します。システムは、データの処理よりも情報の移動に多くの時間を費やします。 ここで、共有メモリが重要になります。特に、複数のエージェントまたはサービスがアクセスする必要がある共有KVキャッシュやその他の状態では、共有メモリは冗長なコピーを削減し、ネットワークトラフィックを削減し、アプリケーション全体のパスで利用率を向上させることができます。また、共有メモリを使用することで、エージェントシステムは、異なるノードまたはエージェントが共有メモリを使用してKVキャッシュを再利用できるため、効果的にスケールできます。...