Погляд Anderson

1970-ті роки Вібрації до енергозберігаючого моніторингу AI

mm
Excerpts from a video simulating a grayscale video stream activated by object detection – source: https://videos.pexels.com/video-files/36553218/15498630_2560_1440_25fps.mp4

Нові дослідження показують, що більшість відео AI не потребує кольору зовсім, включаючи його лише в ключові моменти та скорочуючи використання даних більш ніж на 90% з мінімальною втратою точності.

 

Віддалені потокові камери та інші бездротові, батарейні відео пристрої вимагають щільно оптимізованих систем моніторингу, оскільки вони можуть залежати від нестабільних джерел живлення – таких як сонячне – або потребувати періодичного заряджання, або інших форм людського втручання, в ситуаціях, коли, ідеально, ніхто не повинен бути присутнім.

У поєднанні з цією лінією досліджень, інтерес до камер, оснащених носимими пристроями також зростає (хоча такі пристрої вже були щільно обмежені обмеженнями потужності та обчислювальних обмежень), оскільки AI на краю тепер обіцяє зробити їх значно більш корисними.

Поза цими міркуваннями, довгострокова тенденція до зниження витрат на AI та моніторинг (особливо в тих випадках, коли такі збереження не потрібно передавати клієнту) створює переконливу підставу для інновацій у сфері енергозбереження для випадків використання на краю.

Звукові сигнали

У сфері потокового відео чуття, ресурсно-відчутливі пристрої моніторингу на краю повинні використовувати мінімально можливу енергію, одночасно витрачаючи достатньо потужності для моніторингу “цікавих” подій – в той момент, коли буде варто витрачати більше ресурсів.

Ефектно, це схоже на використання рухомих вогнів, які забезпечують освітлення лише тоді, коли низьковитратні датчики визначають, що там є хтось, хто може оцінити це.

Оскільки аудіо-моніторинг і стиснення помітно менш ресурсоємні, ніж відео, кілька підходів за останні роки намагалися використовувати звукові сигнали для “включення” уваги в обмежених системах; рамки, такі як Listen to Look і Egotrigger:

У системі Egotrigger аудіо-сигнал селективно активує захоплення зображення з взаємодії об'єктів, зменшуючи зайві кадри та зберігаючи епізодичну пам'ять у системах розумних окулярів з обмеженими ресурсами. Джерело - https://arxiv.org/pdf/2508.01915

У системі Egotrigger аудіо-сигнал селективно активує захоплення зображення з взаємодії об’єктів, зменшуючи зайві кадри та зберігаючи епізодичну пам’ять у системах розумних окулярів з обмеженими ресурсами. Джерело

Чітко видно, що аудіо не є ідеальним середовищем для пошуку візуальних подій, оскільки багато таких подій можуть не мати жодного аудіо-сигналу або можуть відбуватися поза межами мікрофонів на краю.

Легкий сон

Що може бути кращим, пропонує одна нова робота, так це відео-потік, який може працювати разом з AI для збільшення ресурсів, як тільки відбувається очікувана подія. Симуляція нижче* дає загальне уявлення про цю концепцію – моніторинг низької роздільності підтримується на мінімальному рівні сигналу, необхідному для об’єкт-детектування рамок, і щоб сказати системі збільшити роздільність через спрацювання події:

Симуляція бажаної поведінки – що потік та аналіз працюють на мінімальному рівні споживання ресурсів за замовчуванням; достатньо, щоб спрацювати підвищення споживання ресурсів, коли виявляються “цікаві” або очікувані події в потоці сірого кольору. Стиль спостереження за чорно-білим кольором може бути досить “ретро”, але це може бути ознакою майбутніх змін. Це відео було створено автором просто для ілюстрації ідей цієї нової роботи. Джерело

Нова робота, академічна співпраця між різними установами Великої Британії та Huawei, пропонує схему без тренування, AI-фасилітовану, сірого-кольору-завжди, кольору-на-жадání для моніторингу на краю – призначену для роботи на низькому рівні використання токенів, коли не відбувається жодних “ключових подій”, і для збільшення споживання лише на час події.

У тестах потокового відео розуміння, нова система, названа ColorTrigger, змогла досягти 91,6% продуктивності повнокольорового базового рівня, використовуючи лише 8,1% кадрів RGB у цих стандартах:

Коли модель бачить лише сірого кольору відео, вона плутає ключові деталі та дає неправильні відповіді; але спрацювання кольору в правильні моменти розрізняє зображення та виправляє помилки, спричинені завданнями, які залежать від кольору. Джерело - https://lvgd.github.io/ColorTrigger/

Коли модель бачить лише сірого кольору відео, вона плутає ключові деталі та дає неправильні відповіді; але спрацювання кольору в правильні моменти розрізняє зображення та виправляє помилки, спричинені завданнями, які залежать від кольору. Джерело

Робота нова називається Колір, коли він рахується: сірого-кольору-керований онлайн-спрацювання для постійного потокового відео чуття, і походить від восьми дослідників з Королівського університету Марії в Лондоні, Університету Дарема, Імперського коледжу Лондона та Huawei Noah’s Ark Lab. Робота також має супутню сторінку проекту.

Метод

Для збереження тимчасової структури в новій системі, ColorTrigger підтримує постійний низькобітрейс сірого кольору моніторингу.  Каузальний онлайн-спрацювання аналізує слайд-вікон (тобто гнучкий плюс-мінус діапазон кадрів навколо певного часу, наприклад спрацювання події) низькобітрейс потоку:

Неперервне високороздільне захоплення RGB швидко виснажує потужність, тому записування зупиняється раніше і ключові моменти можуть бути втрачені. Навпаки, ColorTrigger підтримує низькопотужний сірого кольору потік, який працює завжди, і активує камеру RGB лише в вибраних моментах - розширюючи час записування, одночасно захоплюючи візуальні деталі, необхідні для подальших запитів.  Джерело - https://arxiv.org/pdf/2603.22466

Неперервне високороздільне захоплення RGB швидко виснажує потужність, тому записування зупиняється раніше і ключові моменти можуть бути втрачені. Навпаки, ColorTrigger підтримує низькопотужний сірого кольору потік, який працює завжди, і активує камеру RGB лише в вибраних моментах – розширюючи час записування, одночасно захоплюючи візуальні деталі, необхідні для подальших запитів.  Джерело

Поки система знаходиться в “пасивному” режимі (тобто вона ще не визначила спрацювання події), її динамічний маршрутизатор токенів виділяє обмежену потужність асиметричному декодеру, завжди шукаючи зайві дані та події, які вказують на новизну, в той момент, коли потік токенів перепріоритезує потужність над стисненням:

Схема ColorTrigger. Система моніторить аналіз слайд-вікон недавніх кадрів для виявлення зайвості та зміни, спрацьовуючи високороздільне захоплення RGB лише тоді, коли це потрібно, під кредитним бюджетом. Динамічний маршрутизатор токенів виділяє менше токенів сірого кольору входу та більше вибраних кадрів RGB, зберігаючи тимчасовий порядок для подальшої обробки МЛЛМ.

Схема ColorTrigger. Система моніторить аналіз слайд-вікон недавніх кадрів для виявлення зайвості та зміни, спрацьовуючи високороздільне захоплення RGB лише тоді, коли це потрібно, під кредитним бюджетом. Динамічний маршрутизатор токенів виділяє менше токенів сірого кольору входу та більше вибраних кадрів RGB, зберігаючи тимчасовий порядок для подальшої обробки МЛЛМ.

На кадр за кадром система повинна вирішувати, чи містить поточний момент нову інформацію, варту витрат на захоплення кольору.  Коротка недавня історія сірого кольору кадрів у слайд-вікні дозволяє ColorTrigger порівняти поточний кадр з його непосреднім минулим. Кожен кадр перетворюється у компактне представлення функції, і ці функції порівнюються один з одним для вимірювання того, наскільки схожі або відрізняються їхні кадри.

Цей процес порівняння організований у структуру, яка підсумовує скільки кожен кадр перекривається з іншими, ефективно захоплюючи те, чи повторюється сцена чи змінюється. Легкий крок оптимізації присвоює оцінку важливості кожному кадру у вікні, віддаючи перевагу новизні.

Баланс кольору

Для запобігання надмірному використанню кольору, проста “кредитна система” обмежує, як часто можна спрацювати колір за час. Кредити накопичуються поступово, і витрачаються, коли запитується колір, забезпечуючи те, що сплески активності дозволені, але загальне використання залишається контрольованим. Кадр “підвищується” до кольору лише тоді, коли він є інформативним, і якщо є достатньо кредитів.

Динамічний маршрутизатор токенів контролює, яку деталізацію отримує кожен кадр, замість обробки кожного кадру у повній якості. Коли нічого важливого не виявляється, сірого кольору кадр залишається низької роздільності та перетворюється у компактний стиснутий набір токенів. Коли виявляється важливий момент, система переключає колір і обробляє цей кадр у вищій роздільності, пропонуючи більш багату та детальну репрезентацію.

Обидва типи кадрів проходять через одну й ту ж модель, але сірого кольору кадри обробляються легшим способом, тоді як вибрані кольорові кадри отримують більше уваги. Вихідні дані потім поєднуються у своєму початковому порядку та надсилаються до моделі як безперервний потік.

Оскільки більшість кадрів залишаються легкими, а лише деякі з них “підвищуються”, система економить велику кількість обчислень, одночасно захоплюючи ключові деталі, коли вони мають значення:

З роботи, ще один приклад, де система тимчасово повинна збільшити ресурси, щоб розрізняти колір.

З роботи, ще один приклад, де система тимчасово повинна збільшити ресурси, щоб розрізняти колір.

Дані та тести

Для тестування системи дослідники оцінили її проти StreamingBench і OVO-Bench відео-бенчмарків, уникając обробки майбутнього контенту (що є потенційною загрозою в офлайн-тестах).

Використаний заморожений МЛЛМ був InternVL3.5-8B-Instruct, з каузальним спрацюванням, реалізованим через CLIP ViT-B/16.

Сірого кольору потік був обмежений каналом світлоті у просторі кольору CIELAB, відповідно до попередньої роботи, з отриманими сірого кольору кадрами, які були зменшені до 224x224px перед патчіфікацією (розділення зображення на малі фіксовані блоки, так що кожен блок може бути оброблений окремо моделлю).

Кадри RGB, навпаки, мали вищу бітрату та оброблялися на 448x448px, виробляючи 256 токенів, на відміну від 64 токенів, вироблених для сірого кольору кадрів.

Загальні інструменти оптимізації були використані для прийняття рішень системи: CVXPY (Python- бібліотека для встановлення завдань оптимізації), і OSQP Solver (швидкий алгоритм, який обчислює, коли спрацювати колір).

Відео оброблялося на 1 кадр за секунду, з обмеженням у 128 кадрів на кліп, щоб зберегти низькі обчислення.

Пропрієтарні системи, які були протестовані, були Gemini 1.5 Pro; GPT-4o; і Claude 3.5 Sonnet. Відкриті системи відео МЛЛМ, які були протестовані, були LLaVA-OneVision-7B; Video-LLaMA2-7B; і Qwen2.5-VL-7B.

Потокові МЛЛМ, які були протестовані, були Flash-VStream-7B; VideoLLM-online-8B; Dispider-7B; і TimeChat-Online-7B.

InternVL-3.5-8B  і Qwen3-VL-8B були протестовані у різних конфігураціях, деталізованих у першій таблиці результатів нижче, щодо StreamingBench:

Продуктивність на StreamingBench для завдань візуального розуміння в реальному часі, порівняння пропрієтарних, відкритих та потокових МЛЛМ під різними бюджетами кольору. RGB (%) вказує на пропорцію кадрів, які залишилися у кольорі після спрацювання, де 100 позначає повний колір, а 0 позначає сірого кольору вхід. ColorTrigger оцінюється у двох робочих точках, зберігаючи 8,1% і 34,3% кольорових кадрів, і демонструє покращену загальну точність над сірого кольору базовим рівня InternVL-3.5-8B, одночасно суттєво скорочуючи використання кольору порівняно з повнокольоровим режимом.

Продуктивність на StreamingBench для завдань візуального розуміння в реальному часі, порівняння пропрієтарних, відкритих та потокових МЛЛМ під різними бюджетами кольору. RGB (%) вказує на пропорцію кадрів, які залишилися у кольорі після спрацювання, де 100 позначає повний колір, а 0 позначає сірого кольору вхід. ColorTrigger оцінюється у двох робочих точках, зберігаючи 8,1% і 34,3% кольорових кадрів, і демонструє покращену загальну точність над сірого кольору базовим рівня InternVL-3.5-8B, одночасно суттєво скорочуючи використання кольору порівняно з повнокольоровим режимом.

Автори коментують:

‘ColorTrigger досягає конкурентоспроможної продуктивності на підзадачі візуального розуміння в реальному часі StreamingBench.

‘Наша модель з 34,3% кадрів RGB набирає 75,24 бала, випереджаючи недавню онлайн-модель Dispider-7B і наближаючись до TimeChat-Online-7B, одночасно будучи порівнянною з пропрієтарними моделями, такими як Gemini 1.5 Pro (75,69) і випереджаючи GPT-4o (73,28) і Claude 3.5 Sonnet (72,44).’

InternVL-3.5-8B набрав 77,20 балів, використовуючи повний колір, тоді як ColorTrigger досяг 75,24 балів, використовуючи на 65,7% менше кадрів RGB – і навіть з лише 8,1% кольорових кадрів він набрав 70,72 бала, випереджаючи сірого кольору базовий рівень на 8,64%, і залишаючись конкурентоспроможним з іншими потоковими моделями.

Далі був протестований OVO-Bench:

Продуктивність на OVO-Bench по трьох категоріям: візуальне сприйняття в реальному часі, зворотне відстежування та активне реагування вперед, порівняння пропрієтарних, відкритих та потокових МЛЛМ під різними бюджетами кольору. RGB (%) вказує на пропорцію кадрів, які залишилися у кольорі після спрацювання, де 100 позначає повний колір, а 0 позначає сірого кольору вхід. ColorTrigger оцінюється у двох робочих точках, зберігаючи 7,1% і 33,1% кольорових кадрів, і демонструє покращену загальну точність над сірого кольору базовим рівня InternVL-3.5-8B, одночасно суттєво скорочуючи використання кольору порівняно з повнокольоровим режимом.

Продуктивність на OVO-Bench по трьом категоріям: візуальне сприйняття в реальному часі, зворотне відстежування та активне реагування вперед, порівняння пропрієтарних, відкритих та потокових МЛЛМ під різними бюджетами кольору. RGB (%) вказує на пропорцію кадрів, які залишилися у кольорі після спрацювання, де 100 позначає повний колір, а 0 позначає сірого кольору вхід. ColorTrigger оцінюється у двох робочих точках, зберігаючи 7,1% і 33,1% кольорових кадрів, і демонструє покращену загальну точність над сірого кольору базовим рівня InternVL-3.5-8B, одночасно суттєво скорочуючи використання кольору порівняно з повнокольоровим режимом.

З цих результатів автори заявляють:

‘Наша модель з 33,1% кадрів RGB досягає загального бала 52,5, випереджаючи майже всі існуючі відкриті онлайн-МЛЛМ. Порівняно з базовою моделлю InternVL-3.5-8B з повним кольором (57,7), ColorTrigger набирає 52,5 бала, скорочуючи використання кадрів RGB на 66,9%, що представляє лише 5,2-бальний спад загальної продуктивності.

‘Цей помірний спад супроводжується суттєвими здобутками в ефективності, демонструючи ефективність нашої адаптивної стратегії маршрутизації.’

Візуальне сприйняття в реальному часі досягло 65,2 – 11,4-бального зростання порівняно з сірого кольору базовим рівнем у 53,8. Навіть з обмеженням до лише 7,1% кадрів RGB (92,9%-е скорочення), ColorTrigger підтримував загальний бал 50,4, покращуючи сірого кольору режим на 2,5 бала.

Нарешті дослідники провели тест проти офлайн-відео завдання (аналітичного завдання, не призначеного для тестування затримки або інших “живих” умов середовища, використовуючи довгочасний відео-бенчмарк Video-MME:

Порівняння продуктивності систем на бенчмарку Video-MME.

Порівняння продуктивності систем на бенчмарку Video-MME.

У цьому тесті модель досягла загального бала 66,1, використовуючи 37,6% кадрів RGB, випереджаючи повнокольоровий базовий рівень InternVL-3.5-8B у 65,6 бала, незважаючи на використання на 62,4% менше кольорових кадрів.

Автори коментують:

‘Це демонструє, що наш адаптивний механізм спрацювання не лише скорочує обчислювальні витрати, але й може покращити продуктивність, зосереджуючи потужність RGB на семантично критичних моментах.

‘Помітно, що ColorTrigger випереджає всі існуючі онлайн-МЛЛМ, включаючи TimeChat-Online-7B з 62,4 балами та Dispider-7B з 57,2 балами, підтверджуючи ефективність поєднання безперервного сірого кольору контексту з вибірковим захопленням RGB для довгочасного розуміння відео.’

Висновок

Я завжди з задоволенням бачу інновації цього типу, не в останню чергу тому, що високі та постійно зростаючі потреби AI у електричній потужності вже давно викликають сумні статті, і добре бачити дослідження, які хоча б опосередковано звертаються до цієї проблеми.

Цинічно комфортно знати, що енергозбереження, досягнуті в таких заходах, мотивовані комерційними міркуваннями, оскільки ці міркування менш схильні бути вплинутими короткостроковими політичними рішеннями, ніж благородніші, але більш вразливі побоювання щодо збереження енергії та глобального потепління. На щастя, одна й та сама мета досягається з різних причин.

 

* Створено мною просто для того, щоб викласти ідею цієї роботи для читача.

Перша публікація – четвер, 26 березня 2026 року

Писатель про машинне навчання, домен-спеціаліст у сфері синтезу зображень людини. Колишній керівник дослідницького контенту в Metaphysic.ai.
Особистий сайт: martinanderson.ai
Контакт: [email protected]