Взгляд Anderson

1970-е годы: Вибрации Энергосберегающего Мониторинга ИИ

Published March 26, 2026

Updated May 16, 2026

Martin Anderson

Excerpts from a video simulating a grayscale video stream activated by object detection – source: https://videos.pexels.com/video-files/36553218/15498630_2560_1440_25fps.mp4

Новые исследования показывают, что большинство видео ИИ не требует цвета вообще, включая его только в ключевые моменты и сокращая использование данных более чем на 90% с минимальной потерей точности.

Удаленные потоковые камеры и другие беспроводные, батарейные видеоустройства требуют плотно оптимизированных систем мониторинга, поскольку они могут полагаться на нестабильные источники питания – такие как солнечные – или требуют периодической перезарядки, или других форм человеческого вмешательства, в ситуациях, когда, идеально, никто не должен быть присутствовать.

Вместе с этой линией исследований, интерес к камера-оснащенным носимым устройствам также вырос (хотя такие устройства уже были сильно ограничены ограничениями мощности и вычислений), потому что ИИ на краю теперь обещает сделать их значительно более полезными.

За пределами этих соображений, долгосрочная тенденция к снижению затрат на ИИ на краю и мониторинге (особенно в случаях, когда такие экономии не нужно передавать клиенту) делает сильный случай для инноваций в подходах к энергосбережению для случаев использования на краю.

Звук

В области потокового видео-чувств, устройства мониторинга на краю с ограниченными ресурсами должны использовать как можно меньше энергии, одновременно тратя достаточно энергии на мониторинг за “интересными” событиями – в тот момент, когда будет стоит тратить больше ресурсов.

По сути, это аналогичный случай с движением-управляемыми светами, которые обеспечивают освещение только тогда, когда низкопотребляющие датчики определяют, что кто-то есть, чтобы оценить его.

Поскольку аудио-мониторинг и сжатие заметно менее ресурсоемкие, чем видео, несколько подходов в последние годы пытались использовать звуковые сигналы, чтобы “включить” внимание в ограниченных системах; фреймворки, такие как Listen to Look и Egotrigger:

В системе Egotrigger аудио-управляемое запуске селективно активирует захват изображения из взаимодействия рук-объекта, сокращая избыточные кадры, сохраняя эпизодическую память в системах умных очков с ограниченными ресурсами. Источник

Очевидно, что аудио не является идеальным средством для поиска визуальных событий, поскольку многие важные события могут не иметь аудио-сигнала или могут произойти вне диапазона микрофонов на краю.

Легкий Сон

Что может быть лучше, предлагает одна новая статья, так это видеопоток, который может работать вместе с ИИ, чтобы увеличить ресурсы, как только происходит ожидаемое событие. Симуляция ниже* дает общее представление о концепции – низкокачественный мониторинг поддерживается на минимальном уровне сигнала, необходимом для обнаружения объектов фреймворков для работы, и чтобы сказать системе увеличить разрешение из-за запуска события:

Симуляция желаемого поведения – что потоковая передача и анализ работают на самом низком уровне потребления ресурсов по умолчанию; достаточно, чтобы запустить более высокое потребление ресурсов, когда “интересные” или ожидаемые события обнаруживаются в потоке в черно-белом формате. Черно-белый стиль наблюдения может быть довольно “ретро”, но он может быть признаком того, что грядет. Это видео было создано автором исключительно для иллюстрации идей новой статьи. Источник:

Новая работа, академическое сотрудничество между различными британскими учреждениями и Huawei, предлагает обучающую, ИИ-обеспеченную схему “грейскейл-всегда, цвет-по-требованию” для мониторинга на краю – предназначенную для работы на низком уровне потребления токенов, когда нет “ключевых событий”, и для увеличения потребления только на время события.

В тестах потокового видео понимания новая система, называемая ColorTrigger, смогла достичь 91,6% производительности полноцветной базовой линии, используя только 8,1% RGB-кадров в этих стандартах:

Когда модель видит только грейскейл-видео, она путает ключевые детали и дает неправильные ответы; но запуск цвета в правильные моменты устраняет неоднозначности и исправляет ошибки, вызванные задачами, которые зависят от цвета. Источник

Статья новая статья называется Цвет, когда он имеет значение: Грейскейл-управляемое онлайн-вызывание для всегда-включенного потокового видео-чувства, и исходит от восьми исследователей из Королевского колледжа Лондона, Даремского университета, Имперского колледжа Лондона и лаборатории Huawei Noah’s Ark. Статья также имеет сопровождающую страницу проекта.

Метод

Чтобы сохранить временную структуру в новой системе, ColorTrigger поддерживает постоянный низкобитрейтовый грейскейл-мониторинг. Кausal онлайн-триггер анализирует скользящее окно (т.е. гибкий плюс-минус диапазон кадров вокруг определенного времени, такого как обнаружение триггера события) низкокачественного потока:

Непрерывная высококачественная RGB-захват быстро истощает мощность, поэтому запись останавливается рано и ключевые моменты могут быть пропущены. Напротив, ColorTrigger поддерживает низкомощный грейскейл-поток, работающий всегда, и только активирует RGB-камеру в выбранные моменты – продлевая время записи, сохраняя визуальные детали, необходимые для ответов на последующие запросы. Источник

Когда система находится в “пассивном” режиме (т.е. она еще не определила событие-триггер), ее динамический маршрутизатор токенов распределяет ограниченную емкость на асимметричный декодер, всегда ищущий избыточность и события, указывающие на новизну, в момент которых поток токенов переопределяет емкость над сжатием:

Схема ColorTrigger. Система отслеживает скользящий анализ недавних кадров, чтобы обнаружить избыточность и изменение, запуская высококачественную RGB-захват только при необходимости, в рамках бюджета на основе кредитов. Динамический маршрутизатор токенов распределяет меньше токенов на грейскейл-входы и больше на выбранные RGB-кадры, сохраняя временную последовательность для последующей обработки Мультимодальной Большей Языковой Модели (MLLM).

На кадр-кадре система должна решить, содержит ли текущий момент новую информацию, достойную затрат на захват цвета. Короткая недавняя история грейскейл-кадров в скользящем окне позволяет ColorTrigger сравнить текущий кадр с его немедленным прошлым. Каждый кадр преобразуется в компактное представление особенностей, и эти особенности сравниваются друг с другом, чтобы измерить, насколько они похожи или различны.

Этот процесс сравнения организован в структуру, которая суммирует как много каждый кадр перекрывается с другими, эффективно захватывая, повторяется ли сцена или меняется. Легкий шаг оптимизации присваивает оценку важности каждому кадру в окне, отдавая предпочтение новизне.

Баланс Цвета

Чтобы предотвратить чрезмерное использование цвета, простая “система кредитов” ограничивает, как часто цвет можно запустить во времени. Кредиты накапливаются постепенно и тратятся, когда запрашивается цвет, гарантируя, что всплески активности разрешены, но общее использование остается под контролем. Кадр “улучшается” до цвета только в том случае, если он информативен и если есть достаточно кредитов.

Динамический маршрутизатор токенов контролирует, сколько деталей получает каждый кадр, вместо того, чтобы обрабатывать каждый кадр на полную мощность. Когда ничего важного не обнаружено, грейскейл-кадр сохраняется низкокачественным и преобразуется в небольшой, сжатый набор токенов. Когда обнаруживается важный момент, система переключает цвет и обрабатывает этот кадр на более высоком разрешении, предлагая более богатое и подробное представление.

Оба типа кадров проходят через одну и ту же модель, но грейскейл-кадры обрабатываются более легким способом, а выбранные цветные кадры получают больше внимания. Выходные данные затем объединяются в их исходном порядке и отправляются в модель как непрерывный поток.

Поскольку большинство кадров остаются легкими и только несколько из них “улучшаются”, система экономит большое количество вычислений, сохраняя при этом захват ключевых деталей, когда они имеют значение:

Из статьи, еще один пример, где система требует временно увеличить ресурсы, чтобы различить цвет.

Данные и Тесты

Чтобы протестировать систему, исследователи оценили ее против StreamingBench и OVO-Bench видео-бенчмарков, избегая обработки будущего контента (который является потенциальной опасностью в офлайн-тестах).

Использованная замороженная Мультимодальная Большая Языковая Модель (MLLM) была InternVL3.5-8B-Instruct, с кausal-триггером, реализованным через CLIP ViT-B/16.

Грейскейл-поток был ограничен до канала яркости в пространстве цвета CIELAB, в соответствии с предыдущей работой, с полученными грейскейл-кадрами, измененными до 224x224px перед патчификацией (разделением изображения на небольшие фиксированные блоки, чтобы каждый блок мог быть обработан как отдельная единица моделью).

RGB-кадры, напротив, имели более высокий битрейт и обрабатывались на 448x448px, производя 256 токенов, в отличие от 64 токенов, произведенных для грейскейл-кадров.

Общие инструменты оптимизации были использованы для принятия решений системы: CVXPY (библиотека Python для постановки задач оптимизации) и OSQP Solver (быстрый алгоритм, который рассчитывает, когда запускать цвет).

Видео обрабатывалось со скоростью 1 кадр в секунду, с ограничением в 128 кадров на клип, чтобы сохранить вычисления на низком уровне.

Проприетарные системы, протестированные в работе, были Gemini 1.5 Pro; GPT-4o; и Claude 3.5 Sonnet. Открытые видео-MLLM, протестированные в работе, были LLaVA-OneVision-7B; Video-LLaMA2-7B; и Qwen2.5-VL-7B.

Потоковые MLLM, протестированные в работе, были Flash-VStream-7B; VideoLLM-online-8B; Dispider-7B; и TimeChat-Online-7B.

InternVL-3.5-8B и Qwen3-VL-8B были протестированы в различных конфигурациях, подробно описанных в первой таблице результатов ниже, касающейся StreamingBench:

Производительность на StreamingBench для задач понимания видео в реальном времени, сравнивающая проприетарные, открытые и потоковые MLLM при различных цветовых бюджетах. RGB (%) указывает на долю кадров, оставшихся в цвете после запуска, где 100 обозначает полный цвет, а 0 – грейскейл-вход только. ColorTrigger оценивается в двух точках, сохраняя 8,1% и 34,3% цветных кадров, и демонстрирует улучшенную общую точность по сравнению с грейскейл-базовой линией InternVL-3.5-8B, существенно сокращая использование цвета по сравнению с полноцветным режимом.

Здесь авторы комментируют:

‘ColorTrigger достигает конкурентной производительности на подзадаче понимания видео в реальном времени StreamingBench.

‘Наша модель с 34,3% RGB-кадрами набирает 75,24 балла, превосходя недавнюю онлайн-модель Dispider-7B и близкую к TimeChat-Online-7B, а также сопоставимую с проприетарными моделями, такими как Gemini 1.5 Pro (75,69) и превосходящую GPT-4o (73,28) и Claude 3.5 Sonnet (72,44).’

InternVL-3.5-8B набрала 77,20 баллов, используя полный цвет, в то время как ColorTrigger достигла 75,24 баллов, используя на 65,7% меньше RGB-кадров – и даже с только 8,1% цветных кадров она набрала 70,72 балла, превосходя грейскейл-базовую линию в 62,08 балла на 8,64%, и оставаясь конкурентной с другими потоковыми моделями.

Далее был протестирован OVO-Bench:

Производительность на OVO-Bench по трем категориям: Восприятие видео в реальном времени, Обратное отслеживание и Прямое активное реагирование, сравнивающая проприетарные, открытые и потоковые MLLM при различных цветовых бюджетах. RGB (%) указывает на долю кадров, оставшихся в цвете после запуска, где 100 обозначает полный цвет, а 0 – грейскейл-вход только. ColorTrigger оценивается в двух точках, сохраняя 7,1% и 33,1% цветных кадров, и демонстрирует улучшенную общую точность по сравнению с грейскейл-базовой линией InternVL-3.5-8B, существенно сокращая использование цвета по сравнению с полноцветным режимом.

Из этих результатов авторы заявляют:

‘Наша модель с 33,1% RGB-кадрами достигает общего балла 52,5, превосходя почти все существующие открытые онлайн-MLLM. По сравнению с базовой моделью InternVL-3.5-8B с полным RGB-входом (57,7), ColorTrigger набирает 52,5 балла, сокращая использование RGB-кадров на 66,9%, что представляет собой только 5,2-балльное снижение общей производительности.

‘Это скромное снижение сопровождается существенными выгодами в эффективности, демонстрируя эффективность нашей адаптивной стратегии маршрутизации.’

Восприятие видео в реальном времени достигло 65,2 – 11,4-балльный прирост по сравнению с грейскейл-базовой линией в 53,8. Даже при ограничении до 7,1% RGB-кадров (92,9%-ное снижение) ColorTrigger поддерживала общий балл 50,4, улучшая грейскейл-настройку на 2,5 балла.

Наконец, исследователи провели тест против офлайн-видео-задачи (аналитической задачи, не предназначенной для тестирования задержки или других “живых” условий, используя Video-MME бенчмарк понимания видео:

Сравнение производительности тестируемых систем на бенчмарке Video-MME.

В этом тесте модель достигла общего балла 66,1, используя 37,6% RGB-кадров, превосходя полноцветную базовую линию InternVL-3.5-8B в 65,6 баллов, несмотря на использование на 62,4% меньше цветных кадров.

Авторы комментируют:

‘Это демонстрирует, что наш адаптивный механизм запуска не только снижает вычислительную стоимость, но также может улучшить производительность, фокусируя RGB-емкость на семантически критических моментах.

‘Заметно, что ColorTrigger превосходит все существующие онлайн-MLLM, включая TimeChat-Online-7B на 62,4 и Dispider-7B на 57,2, подтверждая эффективность сочетания непрерывного грейскейл-контекста с выборочным RGB-захватом для понимания видео.’

Вывод

Мне всегда нравится видеть инновации такого типа, не в последнюю очередь потому, что высокая и постоянно растущая потребность ИИ в электроэнергии производила мрачные заголовки в течение долгого времени, и хорошо видеть исследования, которые хотя бы косвенно решают эту проблему.

Это цинично утешительно знать, что экономия энергии, достигнутая в таких начинаниях, мотивирована коммерческими соображениями, поскольку эти соображения менее вероятно будут затронуты краткосрочными политическими решениями, чем более благородные, но более уязвимые проблемы энергосбережения и глобального потепления. К счастью, одна и та же цель достигается по разным причинам.

* Создано мной, просто чтобы инкапсулировать идею статьи для читателя.

Опубликовано в первый раз в четверг, 26 марта 2026 года.