Anderson의 관점
1970년대 느낌의 에너지 절약형 AI 모니터링

새로운 연구에 따르면 대부분의 비디오 AI는 색상이 전혀 필요하지 않으며, 핵심 순간에만 색상을 켜고 데이터 사용량을 90% 이상 절감하면서도 정확도 손실은 거의 없습니다.
원격 스트리밍 카메라 및 기타 배터리 구동 무선 비디오 장치는 불안정한 전원(예: 태양광)에 의존하거나, 이상적으로는 사람이 없어야 하는 상황에서 주기적인 재충전이나 다른 형태의 인간 개입이 필요할 수 있기 때문에 매우 최적화된 모니터링 설정을 요구합니다.
이 연구 흐름과 함께, 카메라 장착 웨어러블에 대한 관심도 증가했습니다 (비록 이러한 장치들이 이미 전력과 컴퓨팅 한계에 의해 엄격히 제약받고 있었지만), 이는 엣지 AI가 이제 그들을 훨씬 더 유용하게 만들 것이라고 약속하기 때문입니다.
이러한 고려 사항을 넘어서, 엣지 AI 및 모니터링 비용을 장기적으로 절감하려는 동인(특히 그러한 절감 효과를 고객에게 전달할 필요가 없는 경우)은 ‘엣지’ 사용 사례를 위한 에너지 절약 접근 방식의 혁신을 위한 설득력 있는 근거를 제공합니다.
사운드 오프
스트리밍 비디오 센싱 분야에서, 자원이 부족한 엣지 모니터링 장치는 가능한 최소한의 에너지를 사용하면서도 ‘흥미로운’ 이벤트를 모니터링하기에 충분한 전력을 소비해야 합니다. 이 시점에서 더 많은 리소스를 소비할 가치가 있을 것입니다.
효과적으로, 이는 저에너지 소모 센서가 빛을 감상할 사람이 있다고 판단할 때만 조명을 제공하는 동작 감응 조명과 유사한 사용 사례입니다.
오디오 모니터링 및 압축은 비디오보다 자원 집약도가 현저히 낮기 때문에, 최근 몇 년간 여러 접근법이 제한된 시스템에서 소리 기반 단서를 사용하여 주의를 ‘켜는’ 시도를 해왔습니다. Listen to Look 및 Egotrigger와 같은 프레임워크가 그 예입니다:

Egotrigger 시스템에서 오디오 기반 트리거는 손-물체 상호작용 단서로부터 이미지 캡처를 선택적으로 활성화하여, 자원이 제한된 스마트 글래스 시스템에서 에피소드 기억 성능을 유지하면서 중복 프레임을 줄입니다. Source
많은 필수적인 시각적 이벤트가 관련 오디오 단서가 없거나 엣지 마이크 범위 밖에서 발생할 수 있기 때문에, 오디오는 시각적 이벤트를 탐색하기에 이상적인 매체가 아닙니다.
가벼운 수면자
한 새로운 논문이 제안하는 더 나은 방법은, 지켜보던 이벤트가 발생하자마자 AI와 협력하여 리소스를 증가시킬 수 있는 비디오 스트림일 수 있습니다. 아래 시뮬레이션*은 이 개념에 대한 일반적인 아이디어를 제공합니다. 객체 감지 프레임워크가 작동하고 이벤트 트리거로 인해 해상도를 높이라고 시스템에 알리기에 필요한 최소 신호 수준에서 저해상도 모니터링이 유지됩니다:
원하는 동작의 시뮬레이션 – 스트리밍 및 분석이 기본적으로 가장 낮은 수준의 자원 소비로 작동하며; 회색조 스트림에서 ‘흥미로운’ 또는 찾는 이벤트가 감지될 때 더 높은 자원 소비를 트리거하기에 충분한 수준입니다. 흑백 감시 스타일은 다소 ‘복고풍’일 수 있지만, 다가올 것들의 신호일 수 있습니다. 이 비디오는 새로운 논문의 핵심 아이디어와 관련하여 설명 목적으로 저자가 순수하게 제작했습니다. Source:
이 새로운 연구(영국의 여러 기관과 화웨이의 학술 협력)는 엣지 모니터링을 위한 훈련이 필요 없고 AI가 촉진하는, 항상 회색조, 필요 시 색상 방식의 체계를 제안합니다. 이는 ‘핵심 이벤트’가 발생하지 않을 때 낮은 토큰 사용량으로 작동하도록 설계되었으며, 이벤트 기간 동안에만 소비량을 증가시킵니다.
스트리밍 비디오 이해 벤치마크에서, ColorTrigger라고 명명된 이 새로운 시스템은 해당 표준에서 RGB 프레임의 8.1%만 사용하면서 전체 색상 기준 성능의 91.6%를 달성할 수 있었습니다:

모델이 회색조 비디오만 볼 때, 핵심 세부 사항을 혼동하고 잘못된 답변을 제공합니다; 하지만 적절한 순간에 색상을 트리거하면 이미지의 모호함을 해소하고 색상에 의존하는 작업으로 인한 오류를 수정합니다. Source
새 논문의 제목은 Color When It Counts: Grayscale-Guided Online Triggering for Always-On Streaming Video Sensing이며, 런던 퀸 메리 대학교, 더럼 대학교, 임페리얼 칼리지 런던, 화웨이 노아의 방주 연구소의 8명의 연구자들이 참여했습니다. 이 논문에는 동반 프로젝트 페이지도 있습니다.
방법
새 시스템에서 시간적 구조를 보존하기 위해, ColorTrigger는 지속적인 저대역폭 회색조 감시를 유지합니다. 인과적 온라인 트리거는 저해상도 스트림의 슬라이딩 윈도우(즉, 특정 시간 주변의 유연한 플러스-마이너스 프레임 범위, 예: 이벤트 트리거 감지)를 분석합니다:

연속적인 고해상도 RGB 캡처는 전력을 빠르게 소모하므로 녹화가 일찍 중단되고 핵심 순간을 놓칠 수 있습니다. 반대로, ColorTrigger는 항상 저전력 회색조 스트림을 실행하고 선택된 순간에만 RGB 카메라를 활성화하여 녹화 시간을 연장하면서도 후속 질문에 답하는 데 필요한 시각적 세부 사항을 캡처합니다. Source
시스템이 ‘수동’ 모드에 있는 동안(즉, 아직 트리거 이벤트를 식별하지 않은 상태), 동적 토큰 라우터는 제한된 용량을 비대칭 디코더에 할당하여 항상 중복성과 새로움을 나타내는 이벤트를 찾고, 이 시점에서 토큰 흐름은 압축보다 용량에 우선순위를 재조정합니다:

ColorTrigger의 체계. 시스템은 최근 프레임의 슬라이딩 윈도우 분석을 모니터링하여 중복성과 변화를 감지하고, 신용 기반 예산 하에서 필요할 때만 고해상도 RGB 캡처를 트리거합니다. 동적 토큰 라우터는 회색조 입력에는 더 적은 토큰을 할당하고 선택된 RGB 프레임에는 더 많은 토큰을 할당하여 다운스트림 멀티모달 대형 언어 모델(MLLM) 처리를 위한 시간적 순서를 보존합니다.
프레임별로 시스템은 현재 순간이 색상을 캡처할 비용을 치를 만큼 새로운 정보를 포함하는지 결정해야 합니다. 슬라이딩 윈도우 내 회색조 프레임의 짧은 최근 기록을 통해 ColorTrigger는 현재 프레임을 직전 과 비교할 수 있습니다. 각 프레임은 간결한 특징 표현으로 변환되며, 이러한 특징들은 서로 비교되어 해당 프레임들이 얼마나 유사하거나 다른지 측정됩니다.
이 비교 과정은 각 프레임이 다른 프레임들과 얼마나 중복되는지를 요약하는 구조로 조직되어, 장면이 반복되는지 변화하는지를 효과적으로 포착합니다. 경량 최적화 단계는 창의 각 프레임에 중요도 점수를 할당하며, 새로움을 선호합니다.
컬러 밸런스
과도한 색상 사용을 방지하기 위해, 간단한 ‘신용 시스템’이 시간이 지남에 따라 색상을 트리거할 수 있는 빈도를 제한합니다. 신용은 점진적으로 누적되며, 색상이 요청될 때 소비되어 활동의 폭발은 허용되지만 전체 사용량은 제어되도록 합니다. 프레임은 정보성이 있고 사용 가능한 충분한 신용이 있을 때만 색상으로 ‘업그레이드’됩니다.
동적 토큰 라우터는 모든 프레임을 최고 품질로 처리하는 대신 각 프레임이 얼마나 많은 세부 사항을 받을지 제어합니다. 중요한 것이 감지되지 않으면 회색조 프레임은 저해상도로 유지되고 작고 압축된 토큰 세트로 변환됩니다. 중요한 순간이 감지되면 시스템은 색상으로 전환하고 해당 프레임을 더 높은 해상도로 처리하여 더 풍부하고 상세한 표현을 제공합니다.
두 유형의 프레임 모두 동일한 모델을 통과하지만, 회색조 프레임은 더 가벼운 방식으로 처리되고 선택된 색상 프레임은 더 많은 주의를 받습니다. 출력은 원래 순서대로 결합되어 연속 스트림으로 모델에 전송됩니다.
대부분의 프레임이 가벼운 상태로 유지되고 소수만 업그레이드되기 때문에, 시스템은 많은 양의 계산을 절약하면서도 중요한 세부 사항을 필요할 때 캡처합니다:

논문에서 가져온 또 다른 예시로, 시스템이 색상을 구분하기 위해 일시적으로 리소스를 증가시켜야 하는 경우입니다.
데이터 및 테스트
시스템을 테스트하기 위해 연구자들은 StreamingBench 및 OVO-Bench 비디오 벤치마크에 대해 평가를 수행했으며, 미래 콘텐츠의 처리(오프라인 테스트에서의 잠재적 위험)를 피했습니다.
사용된 고정된 멀티모달 대형 언어 모델(MLLM)은 InternVL3.5-8B-Instruct이었으며, 인과적 트리거는 CLIP ViT-B/16을 통해 구현되었습니다.
회












