Connect with us

Andersonの視点

エネルギー節約型AI監視に1970年代の雰囲気を

mm
Excerpts from a video simulating a grayscale video stream activated by object detection – source: https://videos.pexels.com/video-files/36553218/15498630_2560_1440_25fps.mp4

新しい研究によると、ほとんどのビデオAIは色情報をまったく必要とせず、重要な瞬間にのみ色をオンにすることで、精度をほとんど損なうことなくデータ使用量を90%以上削減できることが示されています。

 

リモートストリーミングカメラやその他の自立型・バッテリー駆動のビデオデバイスは、太陽光などの不安定な電源に依存していたり、定期的な充電やその他の人的介入を必要とする場合があり、理想的には誰も立ち会う必要のない状況において、厳密に最適化された監視設定を要求します。

この研究の流れと並行して、カメラ搭載ウェアラブルへの関心も高まっています(このようなデバイスはすでに電力と計算能力の制約が厳しいにもかかわらず)。なぜなら、エッジAIによって、それらが大幅に有用になることが約束されているからです。

これらの考慮事項に加えて、エッジAIと監視コストを削減する長期的な動機(特に、そのような節約を顧客に還元する必要がない場合)は、「エッジ」ユースケースにおけるエネルギー節約アプローチの革新を強く後押しする要因となっています。

音声トリガー

ストリーミングビデオセンシングの分野では、リソースが限られたエッジ監視デバイスは、可能な限り最小限のエネルギーを使用しながらも、「興味深い」イベントを監視するのに十分な電力を消費しなければなりません。その時点で、より多くのリソースを費やす価値が生まれます。

効果的に言えば、これは人感センサーライトと同様のユースケースです。低エネルギー消費のセンサーが誰かがいることを検知した時のみ、照明を提供します。

音声監視と圧縮はビデオよりも明らかにリソース集約的でないため、近年ではいくつかのアプローチが、制約のあるシステムで音声によるきっかけを使って「注意」を「オン」に切り替えようと試みてきました。Listen to LookEgotriggerなどのフレームワークがそれです:

Egotriggerシステムでは、音声駆動のトリガーが手と物体の相互作用のきっかけから画像キャプチャを選択的に活性化し、冗長なフレームを削減しながら、リソース制約のあるスマートグラスシステムでのエピソード記憶性能を維持します。出典 - https://arxiv.org/pdf/2508.01915

Egotriggerシステムでは、音声駆動のトリガーが手と物体の相互作用のきっかけから画像キャプチャを選択的に活性化し、冗長なフレームを削減しながら、リソース制約のあるスマートグラスシステムでのエピソード記憶性能を維持します。 出典

明らかに、音声は視覚的イベントを探し出すのに理想的な媒体ではありません。多くの重要な視覚的イベントには関連する音声のきっかけがないか、エッジマイクの範囲外で発生する可能性があるからです。

軽い眠り

新しい論文が示唆するより良い方法は、監視対象のイベントが発生するとすぐにAIと連携してリソースを増加させることができるビデオストリームかもしれません。以下のシミュレーション*は、この概念の一般的な考え方を示しています。低解像度の監視は、物体検出フレームワークが動作し、イベントのトリガーによって解像度を上げるようシステムに伝えるために必要な最小限の信号レベルで維持されます:

望ましい動作のシミュレーション – ストリーミングと分析はデフォルトで最も低いレベルのリソース消費で動作し、グレースケールストリームで「興味深い」または探しているイベントが検出された時にのみ、より高いリソース消費をトリガーするのに十分なだけです。白黒の監視スタイルはかなり「レトロ」かもしれませんが、これは来るべきものの兆候かもしれません。このビデオは、新しい論文の核心的なアイデアに関連して、著者が純粋に説明目的で作成したものです。 出典:

この新しい研究は、英国の様々な機関とHuaweiとの学術協力によるもので、トレーニング不要、AI支援型の常時グレースケール、オンデマンドカラースキーマをエッジ監視のために提案しています。これは、「重要なイベント」が発生していない時は低いトークン使用量で動作し、イベントの期間中のみ消費を増加させるように設計されています。

ストリーミングビデオ理解ベンチマークにおいて、ColorTriggerと名付けられたこの新しいシステムは、フルカラーのベースラインパフォーマンスの91.6%を達成しながら、それらの基準におけるRGBフレームのわずか8.1%しか使用しませんでした:

モデルがグレースケールビデオしか見ていない場合、重要な詳細を混同して間違った答えを出します。しかし、適切な瞬間に色をトリガーすることで、画像の曖昧さを解消し、色に依存するタスクによって引き起こされた間違いを修正します。出典 - https://lvgd.github.io/ColorTrigger/

モデルがグレースケールビデオしか見ていない場合、重要な詳細を混同して間違った答えを出します。しかし、適切な瞬間に色をトリガーすることで、画像の曖昧さを解消し、色に依存するタスクによって引き起こされた間違いを修正します。 出典

新しい論文Color When It Counts: Grayscale-Guided Online Triggering for Always-On Streaming Video Sensingと題され、ロンドン大学クイーンメアリー校、ダラム大学、インペリアル・カレッジ・ロンドン、Huawei Noah’s Ark Labの8人の研究者によるものです。論文には付随するプロジェクトページもあります。

手法

新しいシステムで時間的構造を保持するため、ColorTriggerは一定の低帯域幅のグレースケール監視を維持します。因果的オンライントリガーが、低解像度ストリームのスライディングウィンドウ(例えば、特定の時間、例えばイベントトリガーの検知を中心とした前後の柔軟なフレーム範囲)を分析します:

連続的な高解像度RGBキャプチャは急速に電力を消耗するため、記録は早期に停止し、重要な瞬間を見逃す可能性があります。逆に、ColorTriggerは低電力のグレースケールストリームを常時実行し続け、選択された瞬間にのみRGBカメラを起動します。これにより、記録時間を延長しながら、後のクエリに答えるために必要な視覚的詳細をキャプチャします。出典 - https://arxiv.org/pdf/2603.22466

連続的な高解像度RGBキャプチャは急速に電力を消耗するため、記録は早期に停止し、重要な瞬間を見逃す可能性があります。逆に、ColorTriggerは低電力のグレースケールストリームを常時実行し続け、選択された瞬間にのみRGBカメラを起動します。これにより、記録時間を延長しながら、後のクエリに答えるために必要な視覚的詳細をキャプチャします。 出典

システムが「パッシブ」モード(つまり、まだトリガーイベントを識別していない状態)にある間、その動的トークンルーターは限られた容量を非対称デコーダーに割り当て、常に冗長性と新規性を示すイベントを探し、その時点でトークンフローは圧縮よりも容量を優先的に再割り当てします:

ColorTriggerのスキーマ。システムは最近のフレームのスライディングウィンドウ分析を監視し、冗長性と変化を検出し、クレジットベースの予算の下で必要な時のみ高解像度RGBキャプチャをトリガーします。動的トークンルーターは、グレースケール入力にはより少ないトークンを、選択されたRGBフレームにはより多くのトークンを割り当て、下流のマルチモーダル大規模言語モデル(MLLM)処理のために時間的順序を保持します。

ColorTriggerのスキーマ。システムは最近のフレームのスライディングウィンドウ分析を監視し、冗長性と変化を検出し、クレジットベースの予算の下で必要な時のみ高解像度RGBキャプチャをトリガーします。動的トークンルーターは、グレースケール入力にはより少ないトークンを、選択されたRGBフレームにはより多くのトークンを割り当て、下流のマルチモーダル大規模言語モデル(MLLM)処理のために時間的順序を保持します。

フレームごとに、システムは現在の瞬間に色をキャプチャするコストに見合う新しい情報が含まれているかどうかを判断する必要があります。スライディングウィンドウ内のグレースケールフレームの短い最近の履歴により、ColorTriggerは現在のフレームをその直近の過去と比較できます。各フレームはコンパクトな特徴表現に変換され、これらの特徴は互いに比較され、それらのホストフレームがどれだけ類似しているか、または異なっているかが測定されます。

この比較プロセスは、各フレームが他のフレームとどれだけ重複しているかを要約する構造に編成され、シーンが繰り返されているのか変化しているのかを効果的に捉えます。軽量な最適化ステップが、ウィンドウ内の各フレームに重要度スコアを割り当て、新規性を優先します。

カラーバランス

色の過剰使用を防ぐために、シンプルな「クレジットシステム」が時間の経過とともに色をトリガーできる頻度を制限します。クレジットは徐々に蓄積され、色が要求された時に消費されるため、活動のバーストは許容されつつも、全体的な使用量は制御されたままになります。フレームが色に「アップグレード」されるのは、それが有益な情報を含み、かつ十分なクレジットが利用可能な場合のみです。

動的トークンルーターは、各フレームがどれだけの詳細を受け取るかを制御し、すべてのフレームを最高品質で処理することはしません。重要なものが検出されない場合、グレースケールフレームは低解像度のまま保たれ、小さな圧縮されたトークンのセットに変換されます。重要な瞬間が検出されると、システムは色に切り替え、そのフレームをより高い解像度で処理し、より豊かで詳細な表現を提供します。

両方のタイプのフレームは同じモデルを通過しますが、グレースケールフレームは軽量な方法で処理され、選択されたカラーフレームにはより多くの注意が与えられます。出力は元の順序で結合され、連続ストリームとしてモデルに送られます。

ほとんどのフレームが軽量なまま保たれ、ほんの一部だけがアップグレードされるため、システムは大量の計算を節約しながら、重要な詳細を必要な時にキャプチャすることができます:

論文からの別の例。システムは色を区別するために一時的にリソースを増加させる必要があります。

論文からの別の例。システムは色を区別するために一時的にリソースを増加させる必要があります。

データとテスト

システムをテストするために、研究者らはStreamingBenchOVO-Benchビデオベンチマークに対して評価を行い、将来のコンテンツの処理(オフラインテストでの潜在的な危険性)を回避しました。

使用された凍結されたマルチモーダル大規模言語モデル(MLLM)はInternVL3.5-8B-Instructで、因果的トリガーはCLIP ViT-B/16を介して実装されました。

グレースケールストリームは、先行研究に従って、CIELABカラー空間の輝度チャネルに制限され、結果のグレースケールフレームはパッチ化(画像を小さな固定サイズのブロックに分割し、各ブロックがモデルによって個別の単位として処理できるようにする)の前に224x224pxにリサイズされました。

逆に、RGBフレームはより高いビットレートを

Writer on machine learning, domain specialist in human image synthesis. Former head of research content at Metaphysic.ai.
Personal site: martinanderson.ai
Contact: [email protected]
Twitter: @manders_ai