ソートリーダー
ジェネレーティブAIの未来はエッジにある

ChatGPTやジェネレーティブAIの登場は、インターネットやスマートフォンの黎明と同様に、技術の歴史における画期的な瞬間です。ジェネレーティブAIは、知的な会話を持ち、試験に合格し、複雑なプログラム/コードを生成し、目を見張る画像やビデオを生成する能力において、無限の潜在性を示しています。GPUがクラウドでほとんどのGen AIモデルを実行している(トレーニングと推論の両方)が、これはコスト、電力、待ち時間、プライバシー、セキュリティなどの要因により、特に推論の場合、長期的なスケーラブルな解決策ではありません。この記事では、これらの要因と、Gen AIのコンピューティングワークロードをエッジに移動するための動機となる例について説明します。
ほとんどのアプリケーションは、高性能プロセッサ(例:スマートフォン、デスクトップ、ラップトップ)またはデータセンターで実行されます。AIを利用するアプリケーションのシェアが拡大するにつれて、これらのプロセッサはCPUのみで不十分になります。さらに、ジェネレーティブAIワークロードの急速な拡大は、コストのかかる、電力消費の大きいGPUを備えたAI対応サーバーの需要を指数関数的に増やしています。これにより、インフラストラクチャのコストが上昇しています。これらのAI対応サーバーのコストは、通常のサーバーの7倍となり、GPUは追加コストの80%を占めています。
さらに、クラウドベースのサーバーは500Wから2000Wを消費しますが、AI対応サーバーは2000Wから8000Wを消費します。4倍以上です!これらのサーバーをサポートするために、データセンターには追加の冷却モジュールとインフラストラクチャのアップグレードが必要です。これらのコストは、コンピューティングへの投資よりも高くなる可能性があります。データセンターはすでに年間300 TWHの電力を消費しており、世界総電力消費量の約1%です。AIの採用のトレンドが続けば、2030年までにデータセンターは世界総電力消費量の5%を占めることになります。さらに、ジェネレーティブAIデータセンターへの投資は前例のないものです。データセンターの資本支出は、2027年までに5000億ドルに達する見込みです。主にAIインフラストラクチャの要件によって推進されています。

データセンターの電力消費は既に300 TwHであり、ジェネレーティブAIの採用によりさらに増加する予定です。
AIのコンピューティングコストとエネルギー消費は、ジェネレーティブAIの大量採用を妨げることになります。スケーリングの課題は、AIのコンピューティングをエッジに移動し、AIワークロードに最適化された処理ソリューションを使用することで克服できます。このアプローチにより、待ち時間、プライバシー、信頼性、機能性の向上などの他の利点も顧客に提供されます。
コンピューティングはデータとともにエッジに移動する
10年前から、AIが学術的な世界から現れ、AIモデルのトレーニングと推論はクラウド/データセンターで行われてきました。多くのデータがエッジで生成され消費されている(特にビデオ)ため、推論をエッジに移動することで、企業の総所有コスト(TCO)をネットワークコストとコンピューティングコストの削減により改善できます。クラウドのAI推論コストは繰り返し発生するものですが、エッジでの推論コストはハードウェアの初期費用です。基本的に、システムにエッジAIプロセッサを追加することで、全体的な運用コストを削減できます。従来のAIワークロードがエッジ(例:家電、デバイス)に移行したように、ジェネレーティブAIワークロードも同様に移行することになります。これにより、企業と消費者に大きな節約がもたらされます。
エッジへの移行と、推論機能を実行するための効率的なAIアクセラレータの組み合わせにより、他の利点も得られます。最も重要なのは待ち時間です。例えば、ゲームアプリケーションでは、非プレイヤーキャラクター(NPC)をジェネレーティブAIで制御および拡張できます。ゲームコンソールまたはPCに搭載されたエッジAIアクセラレータ上で実行されるLLMモデルを使用して、ゲームヤーはこれらのキャラクターに特定の目標を与えることができ、ストーリーに意味のある参加を可能にします。エッジでのローカル推論からの待ち時間により、NPCのスピーチと動きは、プレイヤーのコマンドとアクションにリアルタイムで対応し、高度に没入感のあるゲーム体験をコスト効率良く、電力効率良く提供できます。
医療などのアプリケーションでは、プライバシーと信頼性が非常に重要です(例:患者評価、薬剤推奨)。データと関連するジェネレーティブAIモデルは、患者データ(プライバシー)を保護するためにオンプレミスでなければなりません。また、クラウドのAIモデルへのアクセスをブロックするネットワークの停止は、深刻な結果をもたらす可能性があります。エッジAIアプライアンスが、各企業顧客(この場合は医療提供者)専用のジェネレーティブAIモデルを実行することで、プライバシーと信頼性の問題を解決しながら、待ち時間とコストの削減を実現できます。

エッジデバイス上的ジェネレーティブAIは、ゲームでの待ち時間を低減し、医療での患者データを保護し、信頼性を向上させます。
クラウドで実行される多くのジェネレーティブAIモデルは、約1兆パラメータを持つことがあります。これらのモデルは、一般的なクエリに効果的に対応できます。ただし、企業固有のアプリケーションでは、モデルはユースケースに適した結果を提供する必要があります。例えば、ファストフードレストランでの注文を受け付けるジェネレーティブAIベースのアシスタントを考えてみましょう。このシステムがシームレスなカスタマーインタラクションを実現するには、基礎となるジェネレーティブAIモデルはレストランのメニュー項目、またアレルゲンや成分についても学習している必要があります。モデルサイズは、10億から30億パラメータの比較的小さいLLMを使用して、スーパーセットのLLMをトレーニングし、さらに顧客固有のデータでファインチューニングすることで最適化できます。こうしたモデルは、精度と機能性が向上した結果を提供できます。また、モデルのサイズが小さいため、エッジのAIアクセラレータで効果的にデプロイできます。
ジェネレーティブAIはエッジで勝つ
ジェネレーティブAIがクラウドで実行される必要があることは常にあります。特に、ChatGPTやClaudeのような汎用アプリケーションの場合ですが、企業固有のアプリケーションの場合、エッジでのジェネレーティブAIは、将来だけでなく現在も重要です。目的のあるAIアクセラレータは、これを実現するための鍵となります。












