ソートリーダー
September 5, 2025
より速いAIの秘密は、より多くのGPUではなく、賢いネットワーキングである
AIは、ヘルスケア、金融、製造、 小売業を含むさまざまな業界で、可能な限界を再定義しています。ただし、約束された潜在能力とともに、巨大なインフラストラクチャの需要ももたらします。世界中の組織は、AIのトレーニングと推論を加速するために、前例のない規模でGPUに投資しています。2028年までに、Gartner 予測 によると、生成的なAIのIT支出は1兆ドルを超えることになります。Hyperion Research 予測 によると、全体的なHPC市場支出は同じ期間に100億ドルを超えることになります。ただし、最先端のアクセラレータに投資しているにもかかわらず、多くのCIOは、GPUの使用率が35%以下のままになることを確認し続けています。これにより、パフォーマンスが低下し、エネルギーが無駄になり、コストが増加します。多くのAIプロジェクトが停滞しているのは、GPUやコンピューティングパワーが不足しているためではなく、ネットワークが追いつかないためです。これは、AIを大規模に設計するための新しいアプローチが必要です。ネットワークボトルネックの隠れたコストネットワークがデータをGPUに十分に供給できない場合、組織は以下の重要な影響を経験します: ボトルネックされたデータ転送によるGPUとCPUの低利用率: GPUは大量に並列計算するように設計されていますが、データが届けられるのと同じ速度でしか処理できないため、ネットワークファブリックが追いつかないと、GPUはデータを待っている間アイドル状態になります。CPUもタスクの調整とパイプライン内のデータの移動を行っているため、低利用率になりますが、高価なハードウェアが利用可能です。 非効率的なネットワークによる推論パフォーマンスの不一致: ネットワークの非効率性により、データフローが不均一になり、GPUは全速力とアイドル状態の間で揺れ動きます。これにより、生産環境でのAIアプリケーションを妨げる、予測不可能な推論パフォーマンスが生じます。 ネットワークボトルネックによるトレーニングサイクルの延長と市場投入の遅れ: AIモデルをトレーニングするには、サーバー、GPU、ストレージ間で大量のデータセットを移動する必要があります。ネットワークボトルネックにより、このプロセスが妨げられ、GPUはトレーニングよりも待機時間が長くなります。これにより、製品の開発と展開のスケジュールが直接遅れます。 ネットワークの非効率性による電力と運用コストの増加: GPUと周辺インフラストラクチャは、アイドル状態でも大量の電力を消費します。ネットワークの非効率性によりGPUの利用率が低い場合、組織はパフォーマンスに比例しない高い電力使用量を支払います。運用コストも増加します。施設は、計算スループットが人為的に制限されているにもかかわらず、ピーク電力と冷却負荷をサポートする必要があるためです。 企業は、より多くの GPU に投資し続けることができますが、適切なネットワーク強化がないと、これらのボトルネックと非効率性は悪化するだけです。ネットワークとしてのアクセラレータ:パラダイムシフト解決策は、ネットワークアーキテクチャを完全に再考することを必要とします。ネットワークをアクセラレータとして利用するモデルは、従来のHPCとAIパフォーマンスに関する思考を逆転し、新しい機能を解放します。GPUとCPUへの追加コンピューティングに主に焦点を当てるのではなく、「ネットワークとしてのアクセラレータ」アプローチは、インターコネクトファブリックをパフォーマンス乗数として扱います。結果として、ネットワークは高密度コンピューティングをよりよくサポートし、ボトルネックを排除することで、ROIを加速させ、ハードウェア投資を適切にサイズ設定できます。計算をスローダウンせずに実行できるため、組織はより大きなワークロードをより小さいスペースで実行し、結果をより迅速に取得し、余分なハードウェアへの過剰投資を避けることができます。「ネットワークとしてのアクセラレータ」モデルの動作このモデルはどのように機能するのでしょうか? 企業はネットワークを、パッシブなデータムーバーからアクティブなコンピューティングエナブラーに変換し、利点を実現することができますか? これは、従来のネットワークが欠けている4つの重要な機能を提供します: ハードウェアレベルでの保証された配信: 従来のネットワークは、パケット追跡、再送信、並び替えのオーバーヘッドをCPUとGPUに課します。これにより、トレーニングまたは推論に使用できるコンピューティングサイクルが消費されます。ハードウェアレベルでの配信を保証するネットワークファブリックでは、これらのタスクはコンピューティングノードから外部にシフトされ、CPUとGPUのオーバーヘッドが削減され、パフォーマンスが予測可能かつ一貫性があり、スケーラビリティが簡素化され、プログラミングとクラスターオーケストレーションが容易になります。 インテリジェントなダイナミックルーティング: 従来のルーティングは、固定または最適化されていないパスに依存します。これにより、ネットワークの特定の部分が未使用のままになるか、データボリュームが同時に流れる場所でボトルネックが生じます。インテリジェントなルーティングは、すべての使用可能なパスを動的に活用してトラフィックフローを最適化します。複数のアクティブルートを使用してトラフィックをバランスよく分配することで、スループットが向上し、最適なパス選択により待ち時間が短縮され、ネットワークトラフィックが自動的にリンクまたはノードの障害を回避することで回復性が向上します。これにより、GPUがアイドル状態になる時間が短縮され、データが供給され続けます。 リンクレベルの自動再試行: パケットが失われたり破損したりした場合、標準ネットワークはコンピューティングレイヤーにパケットの検出と再送信を依頼しますが、これにより大きな待ち時間が生じ、コンピューティングフローが中断されます。リンクレベルの自動再試行機能を備えたファブリックは、ネットワーク自体内で再送信を処理します。コンピューティングノードに対してパケットロスの透過性を提供し、再試行の待ち時間の影響を削減します。再試行はネットワークスタック全体ではなく、リンクレベルでローカルに発生するためです。また、複雑なアプリケーションレベルのエラーハンドリングの必要性も排除します。自動再試行機能により、断続的な効率的な分散コンピューティングが可能になります。これは、数千のGPUにわたるスケーリングで重要です。...