ソートリーダー

ジェネレーティブAIの未来はエッジにある

Published October 19, 2023

Updated April 4, 2026

Ravi Annavajjhala

ChatGPTやジェネレーティブAIの登場は、インターネットやスマートフォンの黎明と同様に、技術の歴史における画期的な瞬間です。ジェネレーティブAIは、知的な会話を持ち、試験に合格し、複雑なプログラム/コードを生成し、目を見張る画像やビデオを生成する能力において、無限の潜在性を示しています。GPUがクラウドでほとんどのGen AIモデルを実行している（トレーニングと推論の両方）が、これはコスト、電力、待ち時間、プライバシー、セキュリティなどの要因により、特に推論の場合、長期的なスケーラブルな解決策ではありません。この記事では、これらの要因と、Gen AIのコンピューティングワークロードをエッジに移動するための動機となる例について説明します。

ほとんどのアプリケーションは、高性能プロセッサ（例：スマートフォン、デスクトップ、ラップトップ）またはデータセンターで実行されます。AIを利用するアプリケーションのシェアが拡大するにつれて、これらのプロセッサはCPUのみで不十分になります。さらに、ジェネレーティブAIワークロードの急速な拡大は、コストのかかる、電力消費の大きいGPUを備えたAI対応サーバーの需要を指数関数的に増やしています。これにより、インフラストラクチャのコストが上昇しています。これらのAI対応サーバーのコストは、通常のサーバーの7倍となり、GPUは追加コストの80%を占めています。

さらに、クラウドベースのサーバーは500Wから2000Wを消費しますが、AI対応サーバーは2000Wから8000Wを消費します。4倍以上です！これらのサーバーをサポートするために、データセンターには追加の冷却モジュールとインフラストラクチャのアップグレードが必要です。これらのコストは、コンピューティングへの投資よりも高くなる可能性があります。データセンターはすでに年間300 TWHの電力を消費しており、世界総電力消費量の約1%です。AIの採用のトレンドが続けば、2030年までにデータセンターは世界総電力消費量の5%を占めることになります。さらに、ジェネレーティブAIデータセンターへの投資は前例のないものです。データセンターの資本支出は、2027年までに5000億ドルに達する見込みです。主にAIインフラストラクチャの要件によって推進されています。

データセンターの電力消費は既に300 TwHであり、ジェネレーティブAIの採用によりさらに増加する予定です。

AIのコンピューティングコストとエネルギー消費は、ジェネレーティブAIの大量採用を妨げることになります。スケーリングの課題は、AIのコンピューティングをエッジに移動し、AIワークロードに最適化された処理ソリューションを使用することで克服できます。このアプローチにより、待ち時間、プライバシー、信頼性、機能性の向上などの他の利点も顧客に提供されます。

コンピューティングはデータとともにエッジに移動する

10年前から、AIが学術的な世界から現れ、AIモデルのトレーニングと推論はクラウド/データセンターで行われてきました。多くのデータがエッジで生成され消費されている（特にビデオ）ため、推論をエッジに移動することで、企業の総所有コスト（TCO）をネットワークコストとコンピューティングコストの削減により改善できます。クラウドのAI推論コストは繰り返し発生するものですが、エッジでの推論コストはハードウェアの初期費用です。基本的に、システムにエッジAIプロセッサを追加することで、全体的な運用コストを削減できます。従来のAIワークロードがエッジ（例：家電、デバイス）に移行したように、ジェネレーティブAIワークロードも同様に移行することになります。これにより、企業と消費者に大きな節約がもたらされます。

エッジへの移行と、推論機能を実行するための効率的なAIアクセラレータの組み合わせにより、他の利点も得られます。最も重要なのは待ち時間です。例えば、ゲームアプリケーションでは、非プレイヤーキャラクター（NPC）をジェネレーティブAIで制御および拡張できます。ゲームコンソールまたはPCに搭載されたエッジAIアクセラレータ上で実行されるLLMモデルを使用して、ゲームヤーはこれらのキャラクターに特定の目標を与えることができ、ストーリーに意味のある参加を可能にします。エッジでのローカル推論からの待ち時間により、NPCのスピーチと動きは、プレイヤーのコマンドとアクションにリアルタイムで対応し、高度に没入感のあるゲーム体験をコスト効率良く、電力効率良く提供できます。

医療などのアプリケーションでは、プライバシーと信頼性が非常に重要です（例：患者評価、薬剤推奨）。データと関連するジェネレーティブAIモデルは、患者データ（プライバシー）を保護するためにオンプレミスでなければなりません。また、クラウドのAIモデルへのアクセスをブロックするネットワークの停止は、深刻な結果をもたらす可能性があります。エッジAIアプライアンスが、各企業顧客（この場合は医療提供者）専用のジェネレーティブAIモデルを実行することで、プライバシーと信頼性の問題を解決しながら、待ち時間とコストの削減を実現できます。

エッジデバイス上的ジェネレーティブAIは、ゲームでの待ち時間を低減し、医療での患者データを保護し、信頼性を向上させます。

クラウドで実行される多くのジェネレーティブAIモデルは、約1兆パラメータを持つことがあります。これらのモデルは、一般的なクエリに効果的に対応できます。ただし、企業固有のアプリケーションでは、モデルはユースケースに適した結果を提供する必要があります。例えば、ファストフードレストランでの注文を受け付けるジェネレーティブAIベースのアシスタントを考えてみましょう。このシステムがシームレスなカスタマーインタラクションを実現するには、基礎となるジェネレーティブAIモデルはレストランのメニュー項目、またアレルゲンや成分についても学習している必要があります。モデルサイズは、10億から30億パラメータの比較的小さいLLMを使用して、スーパーセットのLLMをトレーニングし、さらに顧客固有のデータでファインチューニングすることで最適化できます。こうしたモデルは、精度と機能性が向上した結果を提供できます。また、モデルのサイズが小さいため、エッジのAIアクセラレータで効果的にデプロイできます。

ジェネレーティブAIはエッジで勝つ

ジェネレーティブAIがクラウドで実行される必要があることは常にあります。特に、ChatGPTやClaudeのような汎用アプリケーションの場合ですが、企業固有のアプリケーションの場合、エッジでのジェネレーティブAIは、将来だけでなく現在も重要です。目的のあるAIアクセラレータは、これを実現するための鍵となります。

Related Topics:edge edge computing generative ai thought leaders

Ravi Annavajjhala

シリコンバレーのベテランであり、Kinara IncのCEOであるRavi Annavajjhalaは、ビジネス開発、市場、エンジニアリングを含む20年以上の経験を持ち、最先端のテクノロジー製品を構築し、それらを市場に導入しています。Deep Visionの最高経営責任者としての彼の現在の役割では、Raviはその取締役会に参加し、Ara-1プロセッサをプレシリコンからフルスケール生産に、そして2世代目のプロセッサAra-2を大量に導入するために5,000万ドルを調達しました。Deep Visionに参加する前に、RaviはIntelとSanDiskでエグゼクティブリーダーシップの役割を果たし、収益の成長を促進し、戦略的なパートナーシップを進化させ、業界を牽引する最先端の機能と能力を持つ製品ロードマップを開発しました。

Unite.AI

ジェネレーティブAIの未来はエッジにある

コンピューティングはデータとともにエッジに移動する

ジェネレーティブAIはエッジで勝つ

You may like