Anderson의 관점

1970년대 분위기의 에너지 절약형 AI 모니터링

Published March 26, 2026

Updated April 25, 2026

Martin Anderson

Excerpts from a video simulating a grayscale video stream activated by object detection – source: https://videos.pexels.com/video-files/36553218/15498630_2560_1440_25fps.mp4

새로운 연구에 따르면 대부분의 비디오 AI는 색상을 전혀 필요로하지 않으며 중요한 순간에만 색상을 켜고 데이터 사용량을 90% 이상 줄이면서도 정확도에서 거의 손실이 없다는 것을 보여주고 있습니다.

원격 스트리밍 카메라와 기타 유선이 아닌 배터리 구동 비디오 장치는 느슨하게 최적화된 모니터링 설정을 요구합니다. 이는 불안정한 전원源(예: 태양열)에 의존하거나 주기적인 충전이 필요하거나 이상적으로는 아무도 출席할 필요가 없는 상황에서 인간의 개입이 필요할 수 있기 때문입니다.

이 연구와 함께 카메라가 장착된 웨어러블에 대한 관심도 증가하고 있습니다(그러한 장치들은 이미 전력과 컴퓨팅 제한에 의해 엄격하게 제한되어 있었음에도 불구하고). 이는 에지 AI가它们을 훨씬 더 유용하게 만들 수 있기 때문입니다.

이러한 고려 사항을 넘어서서 에지 AI 및 모니터링 비용을 줄이는 长期적인 동기는(특히 그러한 절약이 고객에게 전달될 필요가 없는 경우) 에지 사용 사례의 에너지 절약 접근 방식을 혁신하기 위한 강력한 논리를 제공합니다.

의견

스트리밍 비디오 센싱 분야에서 자원 제한된 에지 모니터링 장치는 가능한 한 최소한의 에너지를 사용해야 하며 동시에 ‘흥미로운’ 이벤트를 모니터링하기 위해 충분한 전력을 소비해야 합니다. 그러한 이벤트가 발생하면 더 많은 자원을 소비하는 것이 가치가 있습니다.

효과적으로 이것은 운동에 의한 조명과 유사한 사용 사례입니다. 낮은 에너지 소비 센서가有人이 그것을 감상할 때만 조명을 제공합니다.

오디오 모니터링 및 압축은 비디오보다 현저히 더 자원 효율적이므로 최근 몇 년 동안 여러 접근 방식이 제한된 시스템에서 주의를 ‘켜기’ 위한 사운드 주도 큐를 사용하려고 시도했습니다. Listen to Look 및 Egotrigger와 같은 프레임워크:

Egotrigger 시스템에서 오디오 주도 트리거링은 손-객체 상호 작용 큐에서 이미지 캡처를 선택적으로 활성화하여 중복 프레임을 줄이고 자원 제한된 스마트 글래스 시스템에서 에피소드 메모리 성능을 보존합니다. 출처

명백히 오디오는 시각적 이벤트를 검색하는 이상적인 매체는 아닙니다. 많은 본질적인 이벤트는 관련된 오디오 큐가 없거나 에지 마이크의 범위 밖에 발생할 수 있습니다.

라이트 슬리퍼

어떤 것이 더 나을 수 있는지 새로운 논문은 제안합니다. 즉, AI와 함께 작동하여 감시되는 이벤트가 발생하는 즉시 리소스를 증가시킬 수 있는 비디오 스트림입니다. 아래 시뮬레이션은* 이 개념에 대한 일반적인 아이디어를 제공합니다. 낮은 해상도 모니터링은 최소 신호 수준으로 유지되며 객체 감지 프레임워크가 작동하고 시스템에 이벤트로 인해 해상도를 증가시키도록 알립니다:

원하는 동작의 시뮬레이션 – 스트리밍 및 분석이 기본적으로 가장 낮은 리소스 소비 수준으로 작동하며 ‘흥미로운’ 또는 검색된 이벤트가 감지되면 더 많은 리소스 소비를 트리거합니다. 흑백 감시 스타일은有点 ‘레트로’지만 앞으로 올 수 있는 징조일 수 있습니다. 이 비디오는 저자가 새로운 논문의 핵심 아이디어를 설명하기 위해 순수하게 생성했습니다. 출처:

새로운 연구는 학술 협력으로서 다양한 영국 기관과 화웨이 간의 협력으로 제안됩니다. 에지 모니터링을 위한 훈련이 없는 AI 지원 그레이스케일-항상, 색상-온-디맨드 스키마를 제안합니다. ‘키 이벤트’가 발생하지 않는 경우에는 낮은 토큰 사용으로 작동하도록 설계되었으며 이벤트 기간 동안만 소비를 증가시킵니다.

스트리밍 비디오 이해 벤치마크에서 새로운 시스템인 ColorTrigger은 전체 색상 기준선 성능의 91.6%를 달성했으며 RGB 프레임의 8.1%만 사용했습니다:

모델이 그레이스케일 비디오만 볼 때 키 세부 사항을 혼동하고 잘못된 답변을 주지만 색상을 적절한 순간에 트리거링하면 이미지의 모호성을 제거하고 색상에 의존하는 작업으로 인해 발생하는 오류를 수정합니다. 출처

새로운 논문은 Color When It Counts: Grayscale-Guided Online Triggering for Always-On Streaming Video Sensing라는 제목으로 여덟 명의 연구자들에 의해 발표되었습니다. 퀸 메리 대학 런던, 더럼 대학교, 임페리얼 칼리지 런던, 화웨이 노아의 방주 연구소에서 연구를 수행했습니다. 또한 프로젝트 페이지도 있습니다.

방법

신경 구조를 보존하기 위해 ColorTrigger는 상수 낮은 대역폭 그레이스케일 감시를 유지합니다. 인과적인 온라인 트리거는 낮은 해상도 스트림의 슬라이딩 윈도우(즉, 특정 시간 주변의 유연한 플러스 마이너스 프레임 범위, 예를 들어 이벤트 트리거 감지)를 분석합니다:

연속적인 높은 해상도 RGB 캡처는 전력을 빠르게 소모하므로 녹화가 일찍 중지되고 중요한 순간이 놓칠 수 있습니다. 반면에 ColorTrigger는 낮은 전력 그레이스케일 스트림을 항상 실행하고 RGB 카메라를 선택한 순간에만 활성화하여 녹화 시간을 연장하면서 필요한 시각적 세부 사항을 캡처합니다. 출처

시스템이 ‘수동’ 모드(즉, 아직 트리거 이벤트를 식별하지 못한 경우)에서 동적 토큰 라우터는 제한된 용량을 비대칭 디코더에 할당하며 항상冗余와 새로운 이벤트를 찾고 있습니다. 그러한 이벤트가 발생하면 토큰 흐름이 용량을 압축เหน으로 재우선순위합니다:

ColorTrigger 스키마. 시스템은 최근 프레임의 슬라이딩 윈도우 분석을 통해冗余와 변경을 감지하며 필요한 경우에만 높은 해상도 RGB 캡처를 트리거링합니다. 크레딧 기반 예산하에서 동적 토큰 라우터는 그레이스케일 입력에 더 少한 토큰을 할당하고 선택된 RGB 프레임에 더 많은 토큰을 할당하여 하위 스트림 Multimodal Large Language Model (MLLM) 처리를 위한 시간 순서를 보존합니다.

프레임별로 시스템은 현재 순간이 새로운 정보를 포함하고 있는지, 즉 색상을 캡처하는 비용을 가치 있는지 결정해야 합니다. 슬라이딩 윈도우의 최근 그레이스케일 프레임의 짧은 역사로 ColorTrigger는 현재 프레임을 즉각적인 과거와 비교할 수 있습니다. 각 프레임은 컴팩트한 기능 표현으로 변환되며 이러한 기능은 서로 비교되어 호스트 프레임이 얼마나 유사하거나 다르는지 측정합니다.

이 비교 과정은 각 프레임이 다른 프레임과 얼마나 겹치는지 요약하는 구조로 조직됩니다. 효과적으로 장면이 반복되는지 또는 변경되는지 캡처합니다. 가벼운 최적화 단계는 윈도우의 각 프레임에 중요도 점수를 할당하며 새로운 것을 선호합니다.

색상 균형

과도한 색상 사용을 방지하기 위해 간단한 ‘크레딧 시스템’이 색상을 트리거링하는 빈도를 제한합니다. 크레딧은 점진적으로 누적되며 색상을 요청할 때 사용되며 버스트 활동이 허용되지만 전체 사용량은 제어됩니다. 프레임은 정보가 있고 충분한 크레딧이 있는 경우에만 색상으로 ‘업그레이드’됩니다.

동적 토큰 라우터는 각 프레임에 할당된 세부 정보를 제어합니다. 중요하지 않은 경우 그레이스케일 프레임은 낮은 해상도로 유지되고 작은 압축된 토큰 세트로 변환됩니다. 중요한 순간이 감지되면 시스템은 색상으로 전환하고 해당 프레임을 더 높은 해상도로 처리하여 더 풍부하고 자세한 표현을 제공합니다.

두 가지 유형의 프레임은 동일한 모델을 통해 처리되지만 그레이스케일 프레임은 더 가볍게 처리됩니다. 선택된 색상 프레임은 더 많은 주의를 받습니다. 출력은 원래 순서로 결합되어 모델에 연속적인 스트림으로 전송됩니다.

대부분의 프레임이 가볞게 유지되고 몇 개만 업그레이드되므로 시스템은 많은 계산을節約하면서 중요한 세부 사항을 캡처할 때仍然 중요합니다:

논문에서 시스템이 일시적으로 리소스를 증가시켜 색상을 구별해야 하는 또 다른 예입니다.

데이터 및 테스트

시스템을 테스트하기 위해 연구자들은 StreamingBench 및 OVO-Bench 비디오 벤치마크에 대해 평가했습니다. 오프라인 테스트에서 처리할 수 있는 미래 콘텐츠(潜在적인 위험)를 피했습니다.

사용된 고정 Multimodal Large Language Model (MLLM)은 InternVL3.5-8B-Instruct였으며 인과적 트리거는 CLIP ViT-B/16을 통해 구현되었습니다.

그레이스케일 스트림은 CIELAB 색상 공간의 명도 채널로 제한되었습니다. 이전 연구에 따라 결과 그레이스케일 프레임은 224x224px로 크기가 조정되었습니다.

반면에 RGB 프레임은 더 높은 비트율을 즐기며 448x448px로 처리되어 256개의 토큰을 생성했으며 그레이스케일 프레임은 64개의 토큰을 생성했습니다.

공통 최적화 도구를 사용하여 시스템의 결정에 대해 사용되었습니다: CVXPY(Python 최적화 문제 설정 라이브러리) 및 OSQP Solver(색상을 트리거링할 때 계산하는 빠른 알고리즘).

비디오는 1fps로 처리되며 클립당 128프레임으로 제한하여 계산을 낮추었습니다.

테스트된 독점 시스템은 Gemini 1.5 Pro; GPT-4o; 및 Claude 3.5 Sonnet였습니다. 테스트된 오픈 소스 비디오 MLLM은 LLaVA-OneVision-7B; Video-LLaMA2-7B; 및 Qwen2.5-VL-7B였습니다.

테스트된 스트리밍 MLLM은 Flash-VStream-7B; VideoLLM-online-8B; Dispider-7B; 및 TimeChat-Online-7B였습니다.

InternVL-3.5-8B 및 Qwen3-VL-8B는 다양한 구성에서 테스트되었습니다. StreamingBench에 대한 첫 번째 결과 테이블 아래에 자세히 설명되어 있습니다:

실시간 비주얼 이해 작업에 대한 StreamingBench 성능, 다양한 색상 예산하에서 독점, 오픈 소스 및 스트리밍 MLLM을 비교합니다. RGB (%)는 트리거링 후 색상으로 유지된 프레임의 비율을 나타내며 100은 전체 색상이고 0은 그레이스케일 전용 입력을 나타냅니다. ColorTrigger는 8.1% 및 34.3% 색상 프레임을 유지하는 두 가지 운영 점에서 평가되며 기저선인 그레이스케일 InternVL-3.5-8B보다 전체 정확도가 향상되면서 색상 사용이 크게 줄었습니다.

여기서 저자는 다음과 같이 말합니다:

‘ColorTrigger는 StreamingBench의 실시간 비주얼 이해 하위 작업에서 경쟁력 있는 성능을 달성합니다. ‘

‘우리의 모델은 34.3%의 RGB 프레임으로 75.24를 기록했으며 최근 온라인 모델인 Dispider-7B를 능가하고 TimeChat-Online-7B에 근접하며 독점 모델인 Gemini 1.5 Pro(75.69)와 유사하며 GPT-4o(73.28)와 Claude 3.5 Sonnet(72.44)을 능가합니다.’

InternVL-3.5-8B는 전체 색상으로 77.20을 기록했으며 ColorTrigger는 65.7% 少한 RGB 프레임을 사용하여 75.24를 달성했습니다. 그리고 8.1%의 색상 프레임으로도 70.72를 기록하여 그레이스케일 기준선인 62.08을 8.64%超过하며 다른 스트리밍 모델과 경쟁력 있게 유지했습니다.

다음으로 OVO-Bench가 테스트되었습니다:

세 가지 범주에 걸친 OVO-Bench 성능: 실시간 비주얼 인식, 백워드 트레이싱 및 포워드 액티브 응답, 다양한 색상 예산하에서 독점, 오픈 소스 및 스트리밍 MLLM을 비교합니다. RGB (%)는 트리거링 후 색상으로 유지된 프레임의 비율을 나타내며 100은 전체 색상이고 0은 그레이스케일 전용 입력을 나타냅니다. ColorTrigger는 7.1% 및 33.1% 색상 프레임을 유지하는 두 가지 운영 점에서 평가되며 기저선인 그레이스케일 InternVL-3.5-8B보다 전체 정확도가 향상되면서 색상 사용이 크게 줄었습니다.

이러한 결과에 대해 저자는 다음과 같이 말합니다:

‘우리의 모델은 33.1%의 RGB 프레임으로 52.5의 점수를 달성하여 거의 모든 기존 오픈 소스 온라인 MLLM을 능가합니다. 전체 RGB 입력을 사용하는 기저 모델 InternVL-3.5-8B(57.7)와 비교하여 ColorTrigger는 52.5의 점수를 달성하면서 RGB 프레임 사용을 66.9% 줄였습니다. 이는 전체 성능에서 5.2점의 손실을 나타냅니다.’

‘이 모자란 저하는 효율성에서 실질적인 이익과 함께 발생하며 우리의 적응형 라우팅 전략의 효과를 입증합니다.’

실시간 비주얼 인식은 65.2를 달성하여 그레이스케일 전용 기준선인 53.8보다 11.4점을 상회했습니다.甚至 7.1%의 RGB 프레임(92.9% 감소)로 제한되더라도 ColorTrigger는 50.4의 점수를 유지하여 그레이스케일 설정보다 2.5점을 향상했습니다.

마지막으로 연구자들은 오프라인 비디오 작업(대기 시간이나 기타 ‘실시간’ 환경 조건을 테스트하지 않는 분석 작업)에 대한 테스트를 수행했습니다. Video-MME 장기 비디오 이해 벤치마크를 사용했습니다:

시스템 성능 비교를 위한 Video-MME 벤치마크.

이 테스트에서 모델은 37.6%의 RGB 프레임을 사용하여 전체 점수 66.1를 달성했으며 전체 색상 InternVL-3.5-8B 기준선 점수 65.6를 능가했습니다. 이는 62.4% 少한 색상 프레임을 사용했음에도 불구하고 발생했습니다.

저자는 다음과 같이 말합니다:

‘이것은 우리의 적응형 트리거링 메커니즘이 계산 비용을 줄이는 것뿐만 아니라 중요한 순간에 RGB 용량을 집중시킴으로써 실제로 성능을 향상시킬 수 있음을 보여줍니다. ‘

‘주목할 점은 ColorTrigger가 모든 기존 온라인 MLLM을 능가하며 TimeChat-Online-7B의 62.4와 Dispider-7B의 57.2를 초과함으로써 연속적인 그레이스케일 컨텍스트와 선택적 RGB 수집의 결합이 장기 비디오 이해에 효과적임을 확인합니다.’