Connect with us

Відчуття 1970-х років у енергозберігаючому моніторингу на основі ШІ

Погляд Anderson

Відчуття 1970-х років у енергозберігаючому моніторингу на основі ШІ

mm
Excerpts from a video simulating a grayscale video stream activated by object detection – source: https://videos.pexels.com/video-files/36553218/15498630_2560_1440_25fps.mp4

Нове дослідження показує, що більшості відео-ШІ колір взагалі не потрібен; його вмикають лише у ключові моменти, зменшуючи використання даних понад на 90% при мінімальній втраті точності.

 

Віддалені потокові камери та інші автономні відеопристрої, що працюють від акумуляторів, вимагають дуже оптимізованих налаштувань моніторингу, оскільки вони можуть покладатися на нестабільні джерела живлення – такі як сонячні батареї – або потребувати періодичної зарядки чи інших форм людського втручання в ситуаціях, де, в ідеалі, ніхто не повинен бути присутнім.

Поряд із цією лінією досліджень, інтерес до носимих пристроїв з камерами також зріс (навіть попри те, що такі пристрої вже були суворо обмежені потужністю та обчислювальними можливостями), оскільки периферійний ШІ тепер обіцяє зробити їх значно кориснішими.

Окрім цих міркувань, довгостроковий поштовх до зниження витрат на периферійний ШІ та моніторинг (особливо в випадках, коли такі заощадження не потрібно передавати клієнту) створює переконливу підставу для інновацій у підходах до енергозбереження для сценаріїв використання на “периферії”.

Звуковий сигнал

У сфері потокового відеоспостереження периферійні пристрої моніторингу з обмеженими ресурсами повинні використовувати мінімально можливу кількість енергії, водночас витрачаючи достатньо потужності для спостереження за “цікавими” подіями – у цей момент буде варто витратити більше ресурсів.

По суті, це схожий сценарій використання, як у світильників з датчиком руху, які забезпечують освітлення лише тоді, коли датчики з низьким енергоспоживанням визначають, що є хтось, хто його оцінить.

Оскільки аудіомоніторинг і стиснення помітно менш ресурсомісткі, ніж відео, кілька підходів останніх років намагалися використовувати звукові сигнали для “вмикання” уваги в обмежених системах; такі фреймворки, як Listen to Look та Egotrigger:

In the Egotrigger system, audio-driven triggering selectively activates image capture from hand-object interaction cues, reducing redundant frames while preserving episodic memory performance in resource-constrained smart-glasses systems. Source - https://arxiv.org/pdf/2508.01915

У системі Egotrigger аудіотригери вибірково активують захоплення зображень на основі сигналів взаємодії руки з об’єктом, зменшуючи надлишкові кадри при збереженні продуктивності епізодичної пам’яті в системах розумних окулярів з обмеженими ресурсами. Джерело

Очевидно, що аудіо не є ідеальним носієм для пошуку візуальних подій, оскільки багато важливих подій можуть не мати пов’язаного звукового сигналу або відбуватися поза діапазоном периферійних мікрофонів.

Легкий сон

Як припускає одна нова стаття, кращим може бути відеопотік, який може працювати разом із ШІ, щоб збільшити ресурси, як тільки відбувається подія, за якою ведеться спостереження. Наведена нижче симуляція* дає загальне уявлення про концепцію – моніторинг у низькій роздільній здатності підтримується на мінімально необхідному рівні сигналу для роботи фреймворків виявлення об’єктів та для того, щоб сказати системі підвищити роздільну здатність через спрацьовування події:

Симуляція бажаної поведінки – за замовчуванням потокова передача та аналіз працюють на найнижчому рівні споживання ресурсів; достатньо лише для того, щоб запустити вищу витрату ресурсів, коли в чорно-білому потоці виявляються “цікаві” або шукані події. Стиль чорно-білого спостереження може бути досить “ретро”, але це може бути ознакою майбутнього. Це відео було створено автором виключно для ілюстрації основних ідей нової статті. Джерело:

Нова робота, академічна співпраця між різними установами Великобританії та Huawei, пропонує безтренувальну, за допомогою ШІ, схему завжди в відтінках сірого, колір за запитом для периферійного моніторингу – розроблену для роботи з низьким використанням токенів, коли не відбувається “ключових подій”, та для збільшення споживання лише на тривалість події.

У тестах потокового розуміння відео нова система, названа ColorTrigger, змогла досягти 91.6% продуктивності повнокольорового базового рівня, використовуючи лише 8.1% RGB-кадрів у цих стандартах:

When the model only sees grayscale video, it confuses key details and gives wrong answers; but triggering color at the right moments disambiguates the image and fixes mistakes triggered by tasks that depend on color. Source - https://lvgd.github.io/ColorTrigger/

Коли модель бачить лише чорно-біле відео, вона плутає ключові деталі та дає неправильні відповіді; але активація кольору в потрібні моменти усуває неоднозначність зображення та виправляє помилки, спричинені завданнями, що залежать від кольору. Джерело

Нова стаття має назву Color When It Counts: Grayscale-Guided Online Triggering for Always-On Streaming Video Sensing та підготовлена вісьмома дослідниками з Лондонського університету королеви Марії, Даремського університету, Імперського коледжу Лондона та лабораторії Huawei Noah’s Ark Lab. До статті також є супровідна сторінка проекту.

Метод

Щоб зберегти часову структуру в новій системі, ColorTrigger підтримує постійний чорно-білий моніторинг з низькою пропускною здатністю. Каузальний онлайн-тригер аналізує ковзне вікно (тобто гнучкий діапазон кадрів плюс-мінус навколо певного часу, наприклад, спрацьовування події) низькоякісного потоку:

Continuous high-resolution RGB capture rapidly drains power, so recording stops early and key moments can be missed. Conversely, ColorTrigger keeps a low-power grayscale stream running at all times, and only activates the RGB camera at selected moments – extending recording time, while still capturing the visual details needed to answer later queries. Source - https://arxiv.org/pdf/2603.22466

Безперервне захоплення RGB у високій роздільній здатності швидко вичерпує заряд, тому запис зупиняється рано, і ключові моменти можуть бути пропущені. Навпаки, ColorTrigger підтримує роботу енергоефективного чорно-білого потоку весь час і активує RGB-камеру лише в обрані моменти – подовжуючи час запису, водночас захоплюючи візуальні деталі, необхідні для відповідей на подальші запити. Джерело

Поки система знаходиться в “пасивному” режимі (тобто ще не визначила подію-тригер), її динамічний маршрутизатор токенів виділяє обмежену потужність асиметричному декодеру, постійно шукаючи надмірність та події, що вказують на новизну, у цей момент потік токенів перепріоритизує потужність над стисненням:

Schema for ColorTrigger. The system monitors a sliding-window analysis of recent frames to detect redundancy and change, triggering high-resolution RGB capture only when needed, under a credit-based budget. A dynamic token router allocates fewer tokens to grayscale inputs and more to selected RGB frames, preserving temporal order for downstream Multimodal Large Language Model (MLLM) processing.

Схема ColorTrigger. Система моніторить аналіз ковзного вікна останніх кадрів для виявлення надмірності та змін, активуючи захоплення RGB у високій роздільній здатності лише за потреби, в рамках кредитної системи. Динамічний маршрутизатор токенів виділяє менше токенів для чорно-білих вхідних даних і більше для обраних RGB-кадрів, зберігаючи часовий порядок для подальшої обробки багатомодальною великою мовною моделлю (MLLM).

На основі кожного кадру системі потрібно вирішити, чи містить поточний момент нову інформацію, варту витрат на захоплення кольору. Коротка недавня історія чорно-білих кадрів у ковзному вікні дозволяє ColorTrigger порівняти поточний кадр з його безпосереднім минулим. Кожен кадр перетворюється на компактне представлення ознак, і ці ознаки порівнюються одна з одною, щоб виміряти, наскільки схожими або різними є їхні кадри.

Цей процес порівняння організований у структуру, яка підсумовує, наскільки кожен кадр перекривається з іншими, ефективно визначаючи, чи повторюється сцена, чи змінюється. Легкий крок оптимізації призначає оцінку важливості кожному кадру у вікні, віддаючи перевагу новизні.

Баланс кольору

Щоб запобігти надмірному використанню кольору, проста “кредитна система” обмежує частоту активації кольору з часом. Кредити накопичуються поступово і витрачаються при запиті кольору, забезпечуючи дозвіл на спалахи активності, але загальне використання залишається контрольованим. Кадр “покращується” до кольору лише якщо він є інформативним і якщо доступно достатньо кредитів.

Динамічний маршрутизатор токенів контролює, скільки деталей отримує кожен кадр, замість обробки кожного кадру в повній якості. Коли нічого важливого не виявлено, чорно-білий кадр зберігається в низькій роздільній здатності

Письменник з машинного навчання, спеціаліст у галузі синтезу зображень людини. Колишній керівник досліджень контенту в Metaphysic.ai.
Особистий сайт: martinanderson.ai
Контакт: [email protected]