Andersons hoek

Een 1970s Vibe voor Energie-Besparende AI-Monitoring

Published March 26, 2026

Updated May 16, 2026

Martin Anderson

Excerpts from a video simulating a grayscale video stream activated by object detection – source: https://videos.pexels.com/video-files/36553218/15498630_2560_1440_25fps.mp4

Nieuw onderzoek toont aan dat de meeste video-AI geen kleur nodig heeft, maar deze alleen inschakelt op belangrijke momenten en de gegevensverbruik met meer dan 90% vermindert met weinig verlies in nauwkeurigheid.

Remote streaming-camera’s en andere ongekoppelde, op batterijen aangedreven videotoestellen vereisen een strak geoptimaliseerde monitoringsinstelling, aangezien ze afhankelijk kunnen zijn van onstabiele stroombronnen – zoals zonne-energie – of periodiek opnieuw moeten worden opgeladen, of andere vormen van menselijke tussenkomst, in situaties waarin, ideaal, niemand aanwezig hoeft te zijn.

In samenhang met deze onderzoekslijn is de interesse in camera-uitgeruste wearables ook toegenomen (hoewel dergelijke apparaten al sterk beperkt waren door energielimieten), omdat edge-AI nu belooft ze aanzienlijk nuttiger te maken.

Beyond deze overwegingen, vormt de langetermijnstimulans om de kosten van edge-AI en monitoring te verlagen (vooral in gevallen waarin deze besparingen niet aan de klant hoeven te worden doorberekend) een overtuigend argument voor innovatie in energiebesparingsbenaderingen voor ‘edge’-gevallen.

Geluid Uit

In het veld van streaming video-sensing, moeten resource-gebrekkige edge-monitoringapparaten het minst mogelijke energieverbruik gebruiken, terwijl ze toch voldoende vermogen besteden om ‘interessante’ gebeurtenissen te monitoren – op het moment dat het de moeite waard is om meer resources te besteden.

Effectief is dit een soortgelijk gebruik als bewegingsgestuurde verlichting, die verlichting biedt wanneer lage-energie-drain-sensoren bepalen dat er iemand aanwezig is om het te waarderen.

Daar audio-monitoring en compressie aanzienlijk minder resource-intensief zijn dan video, hebben verschillende benaderingen in de afgelopen jaren geprobeerd om geluid-gestuurde cues te gebruiken om ‘aandacht’ in beperkte systemen in te schakelen; kaders zoals Listen to Look en Egotrigger:

In het Egotrigger-systeem, activeert audio-gestuurde triggering selectief beeldopname van hand-object-interactie-cues, waardoor redundante frames worden verminderd en episodische geheugenvoorstellingen in resource-gebrekkige slimme bril-systemen behouden blijven. Bron

Het is duidelijk dat audio niet het ideale medium is om visuele gebeurtenissen te zoeken, aangezien veel essentiële dergelijke gebeurtenissen geen geluidscue kunnen hebben of buiten het bereik van edge-microfoons kunnen plaatsvinden.

Lichte Slaper

Wat wellicht beter is, zoals een nieuw artikel suggereert, is een videostream die samen kan werken met AI om resources te verhogen zodra een gewenste gebeurtenis plaatsvindt. De simulatie hieronder* geeft een algemeen idee van het concept – laagresolutie-monitoring wordt onderhouden op het minimum signaalniveau dat nodig is voor objectdetectie-kaders om te werken, en om het systeem te vertellen om de resolutie te verhogen vanwege de triggering van een gebeurtenis:

Een simulatie van het gewenste gedrag – dat streaming en analyse op het laagste niveau van resourceverbruik werken door standaard; net genoeg om hoger resourceverbruik te triggeren wanneer ‘interessante’ of gewenste gebeurtenissen in de grijswaardenstroom worden gedetecteerd. De zwarte en witte surveillance-stijl kan wat ‘retro’ zijn, maar het kan een teken zijn van dingen die komen gaan. Deze video is door de auteur gemaakt om de lezer een idee te geven van de kernideeën van het nieuwe artikel. Bron:

Het nieuwe onderzoek, een academische samenwerking tussen verschillende Britse instellingen en Huawei, stelt een trainingsvrije, AI-gefaciliteerde, grijswaarden-always, kleur-op-aanvraag-schema voor voor edge-monitoring – ontworpen om te werken bij laag token-gebruik wanneer geen ‘sleutelgebeurtenissen’ plaatsvinden, en om het verbruik alleen te verhogen voor de duur van de gebeurtenis.

In streaming video-begripsbenchmarks was het nieuwe systeem, genaamd ColorTrigger, in staat om 91,6% van de volledige kleurenbaseline-prestaties te bereiken terwijl het slechts 8,1% van de RGB-frames in die standaarden gebruikte:

Wanneer het model alleen grijswaardenvideo ziet, wordt het verward door belangrijke details en geeft het verkeerde antwoord; maar het triggeren van kleur op de juiste momenten verheldert het beeld en corrigeert fouten die worden veroorzaakt door taken die afhankelijk zijn van kleur. Bron

Het nieuwe artikel heeft als titel Kleur Wanneer Het Telt: Grijswaarden-Gestuurde Online-Triggering voor Altijd-Aan Streaming Video-Sensing, en komt van acht onderzoekers uit Queen Mary University of London, Durham University, Imperial College London en Huawei Noah’s Ark Lab. Het artikel heeft ook een begeleidende projectpagina.

Methode

Om de temporele structuur in het nieuwe systeem te behouden, houdt ColorTrigger constant laagbandbreedte-grijswaardenmonitoring aan. Een causale online-trigger analyseert een sliding window (d.w.z. een flexibele plus-minus bereik van frames rond een bepaald tijdstip, zoals de detectie van een gebeurtenistrigger) van de laagresolutiestroom:

Continue hoge resolutie RGB-opname verbruikt snel stroom, zodat de opname vroeg stopt en belangrijke momenten kunnen worden gemist. Omgekeerd houdt ColorTrigger een laagvermogen-grijswaardenstroom constant aan en activeert het alleen de RGB-camera op geselecteerde momenten – waardoor de opnametijd wordt verlengd, terwijl het nog steeds de visuele details vastlegt die nodig zijn om latere vragen te beantwoorden. Bron

Terwijl het systeem in ‘passieve’ modus is (d.w.z. het heeft nog geen triggergebeurtenis gedetecteerd), wijst zijn dynamische tokenrouter beperkte capaciteit toe aan een asymmetrische decoder, die altijd naar redundantie zoekt en naar gebeurtenissen die novelty aanduiden, op het moment dat de tokenstroom capaciteit boven compressie prioriteert:

Schema voor ColorTrigger. Het systeem analyseert een sliding-window-analyse van recente frames om redundantie en verandering te detecteren, waardoor hoge resolutie RGB-opname alleen wordt geactiveerd wanneer nodig, onder een credit-gebaseerd budget. Een dynamische tokenrouter wijst minder tokens toe aan grijswaarden-inputs en meer aan geselecteerde RGB-frames, waardoor de temporele orde voor downstream Multimodal Large Language Model (MLLM)-verwerking wordt behouden.

Op frame-per-frame-basis moet het systeem beslissen of het huidige moment nieuwe informatie bevat die de kosten van het vastleggen van kleur waard is. De korte recente geschiedenis van grijswaardenframes in de sliding window stelt ColorTrigger in staat om de huidige frame te vergelijken met zijn onmiddellijke verleden. Elke frame wordt omgezet in een compacte functierepresentatie, en deze functies worden met elkaar vergeleken om te meten hoezeer ze overeenkomen of verschillen.

Deze vergelijking wordt georganiseerd in een structuur die samenvat hoeveel elke frame overlapt met de andere, waardoor effectief wordt vastgelegd of de scène herhaalt of verandert. Een lichtgewicht optimalisatiestap wijst een importantiescore toe aan elke frame in het venster, waarbij novelty wordt bevoroordeeld.

Kleur Balans

Om excessief kleurgebruik te voorkomen, beperkt een eenvoudig ‘credit-systeem’ hoe vaak kleur kan worden getriggerd over tijd. Credits worden geleidelijk opgebouwd en worden uitgegeven wanneer kleur wordt aangevraagd, waardoor bursts van activiteit zijn toegestaan, maar het algehele gebruik wordt gecontroleerd. Een frame wordt alleen ‘upgraded’ naar kleur als het zowel informatief is als er voldoende credits beschikbaar zijn.

De Dynamische Token Router controleert hoeveel detail elke frame ontvangt, in plaats van elke frame op volle kwaliteit te verwerken. Wanneer niets belangrijks wordt gedetecteerd, wordt de grijswaardenframe laagresolutie gehouden en omgezet in een kleine, gecomprimeerde set tokens. Wanneer een belangrijk moment wordt gedetecteerd, schakelt het systeem over naar kleur en verwerkt die frame op hogere resolutie, waardoor een rijkere en meer gedetailleerde weergave wordt geboden.

Beide typen frames gaan door hetzelfde model, maar grijswaardenframes worden op een lichtere manier verwerkt, terwijl geselecteerde kleurframes meer aandacht krijgen. De uitvoer wordt vervolgens gecombineerd in hun oorspronkelijke volgorde en naar het model gestuurd als een continue stroom.

Omdat de meeste frames licht blijven en alleen een paar worden ‘upgraded’, bespaart het systeem een grote hoeveelheid berekening, terwijl het nog steeds de belangrijke details vastlegt wanneer ze ertoe doen:

Uit het artikel, een ander voorbeeld waarin het systeem tijdelijk resources moet verhogen om een kleur te onderscheiden.

Gegevens en Tests

Om het systeem te testen, hebben de onderzoekers het gegenereerd tegen de StreamingBench en OVO-Bench video-benchmarks, waarbij het verwerken van toekomstige inhoud (een potentieel gevaar in offline-tests) werd vermeden.

De bevroren Multimodal Large Language Model (MLLM) die werd gebruikt was InternVL3.5-8B-Instruct, met de causale trigger geïmplementeerd via CLIP ViT-B/16.

De grijswaardenstroom werd beperkt tot de luminantiekanalen in de CIELAB kleurruimte, in overeenstemming met eerder onderzoek, met de resulterende grijswaardenframes die zijn omgerekend naar 224x224px voordat ze werden gepatcht (het splitsen van een beeld in kleine vaste-grootte-blokken, zodat elk blok kan worden verwerkt als een afzonderlijke eenheid door het model).

De RGB-frames, daarentegen, hadden een hogere bitrate en werden verwerkt op 448x448px, waardoor 256 tokens werden gegenereerd, in tegenstelling tot de 64 tokens die werden gegenereerd voor de grijswaardenframes.

Gemeenschappelijke optimalisatiehulpmiddelen werden gebruikt om de beslissingen van het systeem te nemen: CVXPY (een Python-bibliotheek voor het instellen van optimalisatieproblemen), en OSQP Solver (een snelle algoritme die berekent wanneer kleur moet worden getriggerd).

Video werd verwerkt op 1fps, met een limiet van 128 frames per clip, om de berekening laag te houden.

Proprietary systemen die werden getest waren Gemini 1.5 Pro; GPT-4o; en Claude 3.5 Sonnet. Open source video MLLM’s die werden getest waren LLaVA-OneVision-7B; Video-LLaMA2-7B; en Qwen2.5-VL-7B.

Streaming MLLM’s die werden getest waren Flash-VStream-7B; VideoLLM-online-8B; Dispider-7B; en TimeChat-Online-7B.

InternVL-3.5-8B en Qwen3-VL-8B werden getest in verschillende configuraties, die worden weergegeven in de eerste resultaatentabel hieronder, met betrekking tot StreamingBench:

Prestaties op StreamingBench voor real-time visuele begripsopdrachten, waarin propriëtaire, open-source en streaming MLLM’s worden vergeleken onder verschillende kleurbudgetten. RGB (%) geeft het percentage frames weer dat in kleur wordt gehouden na triggering, waarbij 100 volledige kleur aanduidt en 0 grijswaarden-only input. ColorTrigger wordt geëvalueerd op twee operationele punten, waarbij 8,1% en 34,3% kleurframes worden behouden, en toont een verbeterde algehele nauwkeurigheid ten opzichte van de grijswaarden-InternVL-3.5-8B-baseline, terwijl het kleurgebruik aanzienlijk vermindert ten opzichte van de volledige kleurinstelling.

Hierop merken de auteurs op:

‘ColorTrigger bereikt concurrerende prestaties op de Real-time Visual Understanding-subtaak van StreamingBench.

‘Ons model met 34,3% RGB-frames scoort 75,24, waarmee het recente online-model Dispider-7B overtreft en dicht bij TimeChat-Online-7B ligt, terwijl het propriëtaire modellen zoals Gemini 1.5 Pro (75,69) en GPT-4o (73,28) en Claude 3.5 Sonnet (72,44) overtreft.’

InternVL-3.5-8B scoorde 77,20 met volledige kleur, terwijl ColorTrigger 75,24 bereikte met 65,7% minder RGB-frames – en zelfs met slechts 8,1% kleurframes, scoorde het 70,72, waarmee het de grijswaardenbaseline van 62,08 met 8,64% overtrof en concurrerend bleef met andere streamingmodellen.

Vervolgens werd OVO-Bench getest:

Prestaties op OVO-Bench over drie categorieën: Real-Time Visual Perception, Backward Tracing en Forward Active Responding, waarin propriëtaire, open-source en streaming MLLM’s worden vergeleken onder verschillende kleurbudgetten. RGB (%) geeft het percentage frames weer dat in kleur wordt gehouden na triggering, waarbij 100 volledige kleur aanduidt en 0 grijswaarden-only input. ColorTrigger wordt geëvalueerd op twee operationele punten, waarbij 7,1% en 33,1% kleurframes worden behouden, en toont een verbeterde algehele nauwkeurigheid ten opzichte van de grijswaarden-InternVL-3.5-8B-baseline, terwijl het kleurgebruik aanzienlijk vermindert ten opzichte van de volledige kleurinstelling.

Over deze resultaten merken de auteurs op:

‘Ons model met 33,1% RGB-frames bereikt een algehele score van 52,5, waarmee het bijna alle bestaande open-source online MLLM’s overtreft. In vergelijking met de basismodel InternVL-3.5-8B met volledige RGB-input (57,7), scoort ColorTrigger 52,5, terwijl het RGB-framegebruik met 66,9% wordt verlaagd, wat een terugval van 5,2 punten in de algehele prestatie vertegenwoordigt.

‘Deze geringe achteruitgang gaat gepaard met aanzienlijke efficiencywinsten, waarmee de effectiviteit van onze adaptieve routerstrategie wordt aangetoond.’

Real-Time Visual Perception bereikte 65,2 – een toename van 11,4 punten ten opzichte van de grijswaarden-only baseline van 53,8. Zelfs met slechts 7,1% RGB-frames (een vermindering van 92,9%) behield ColorTrigger een algehele score van 50,4, waarmee het de grijswaardeninstelling met 2,5 punten overtrof.

Tenslotte voerden de onderzoekers een test uit tegen een offline video-opdracht (een analytische opdracht die niet is ontworpen om latentie of andere ‘live’ omgevingscondities te testen, met behulp van de Video-MME lange-videobegripsbenchmark:

Prestatievergelijking van de geteste systemen op de Video-MME-benchmark.

In deze test bereikte het model een algehele score van 66,1, terwijl het 37,6% RGB-frames gebruikte, waarmee het de volledige kleur-InternVL-3.5-8B-baseline van 65,6 overtrof, ondanks het gebruik van 62,4% minder kleurframes.

De auteurs merken op:

‘Dit toont aan dat onze adaptieve triggermechanisme niet alleen het computationele kosten vermindert, maar ook de prestatie kan verbeteren door RGB-capaciteit te richten op semantisch kritieke momenten.

‘Het is opvallend dat ColorTrigger alle bestaande online MLLM’s overtreft, waaronder TimeChat-Online-7B op 62,4 en Dispider-7B op 57,2, waarmee de effectiviteit van het combineren van continue grijswaardencontext met selectieve RGB-acquisitie voor lange-videobegrip wordt bevestigd.’

Conclusie

Ik geniet altijd van het zien van innovaties van dit type, niet in de laatste plaats omdat AI’s hoge en steeds groeiende behoefte aan (elektrische) stroom al een lange tijd sombere koppen heeft gegenereerd, en het is goed om onderzoek te zien dat de kwestie indirect aanpakt.

Het is cynisch geruststellend om te weten dat de stroombesparingen die in dergelijke voorstellen worden gemaakt, zijn gemotiveerd door commerciële overwegingen, aangezien deze minder waarschijnlijk worden beïnvloed door korte-termijn politieke beslissingen dan de edelmoediger, maar kwetsbaardere zorgen over energiebesparing en globale opwarming. Gelukkig wordt hetzelfde doel bereikt, om verschillende redenen.

* Gemaakt door mij, alleen om de lezer een idee te geven van de paper’s idee.

Eerste publicatie donderdag 26 maart 2026