Andersons vinkel

En 1970-talls stemning til energibesparende AI-overvåking

Published March 26, 2026

Updated May 16, 2026

Martin Anderson

Excerpts from a video simulating a grayscale video stream activated by object detection – source: https://videos.pexels.com/video-files/36553218/15498630_2560_1440_25fps.mp4

Ny forskning viser at de fleste video-AI ikke trenger farge i det hele tatt, men kun slår den på i nøkkeløyeblikk og reduserer dataforbruket med over 90% med liten tap i nøyaktighet.

Fjernstrømmende kameraer og andre ubundne, batteridrevne videoenheter krever tett optimerede overvåkningssystemer, siden de kan avhenge av ustabile strømkilder – som solceller – eller kreve periodisk oppladning, eller andre former for menneskelig inngripen, i situasjoner hvor det ideelt sett ikke burde være noen til stede.

I sammenheng med denne forskningen, har interessen for kamerautstyrte bærbarhet også økt (selv om slike enheter allerede var tett begrensede av strøm- og beregningsbegrensninger), fordi kant-AI nå lover å gjøre dem betraktelig mer nyttige.

Forbi disse overveielser, er den langsiktige drivkraften for å redusere kant-AI- og overvåkingskostnader (spesielt i tilfeller hvor slike besparelser ikke trenger å bli videreformidlet til kunden) et overbevisende argument for innovasjon i energibesparingsmetoder for ‘kant’-brukstilfeller.

Lyd Av

I feltet strømmende video-sensing, må ressursberøvede kant-overvåkningssystemer bruke minst mulig energi, mens de likevel bruker nok ressurser til å overvåke ‘interessante’ hendelser – på det tidspunktet vil det være verdt å bruke flere ressurser.

Effektivt, dette er en lignende brukstilfelle som bevegelsesdrevne lys, som gir lys bare når lavenergidrain-sensorene bestemmer at det er noen der som kan nyte det.

Siden lydovervåking og komprimering er mer ressursvennlig enn video, har flere tilnærminger i de siste årene forsøkt å bruke lyddrevne signaler til å ‘slå på’ oppmerksomhet i begrensede systemer; rammer som Lytt til å se og Egotrigger:

I Egotrigger-systemet, lyddrevne utløsere aktiverer selektivt bildeopptak fra hånd-objekt-interaksjons signaler, reduserer redundante rammeverk og bevare episodisk minnehåndtering i ressursbegrensede smartglass-systemer. Kilde

Det er tydelig at lyd ikke er det ideelle medium for å søke etter visuelle hendelser, siden mange essensielle hendelser kan ikke ha noen tilhørende lydsignal eller kan skje utenfor rekkevidden av kant-mikrofoner.

Lys Søvner

Hva som kan være bedre, foreslår en ny rapport, er en videostrøm som kan samarbeide med AI for å øke ressurser så snart en overvåket hendelse skjer. Simuleringen nedenfor* gir en generell idé om konseptet – lavoppløst overvåking vedlikeholdes på det laveste signalnivået nødvendig for objektdeteksjon-rammer å fungere, og å fortelle systemet å øke oppløsning på grunn av utløsning av en hendelse:

En simulering av det ønskede oppførselen – at strømming og analyse opererer på det laveste nivået av ressursforbruk som standard; bare nok til å utløse høyere ressursforbruk når ‘interessante’ eller søkte hendelser blir oppdaget i gråskalastrømmen. Den sorte-hvite overvåkingsstilen kan være ganske ‘retro’, men den kan være et tegn på hva som kommer. Kilde:

Den nye rapporten, et akademisk samarbeid mellom forskjellige britiske institusjoner og Huawei, foreslår en treningfri, AI-fasilitert, gråskala-alltid, farge-på-krav-skjema for kant-overvåking – designet for å operere på lav token-forbruk når ingen ‘nøkkelhendelser’ skjer, og å øke forbruk kun for varigheten av hendelsen.

I strømmende video-forståelsesbenchmarks, klarte det nye systemet, kalt ColorTrigger, å oppnå 91,6% av fullfargede baseline-ytelse mens det bare brukte 8,1% av RGB-rammene i disse standardene:

Når modellen bare ser gråskala-video, forvirrer den nøkkel detaljer og gir feil svar; men utløsing av farge på rette øyeblikk fjerner tvetydighet og fikser feil utløst av oppgaver som avhenger av farge. Kilde

Den nye rapporten har tittelen Farge når det teller: Gråskala-guidet online-utløsning for alltid-på-strømmende video-sensing, og kommer fra åtte forskere på Queen Mary University of London, Durham University, Imperial College London og Huawei Noah’s Ark Lab. Rapporten har også en tilhørende prosjektside.

Metode

For å bevare tidsstrukturen i det nye systemet, beholder ColorTrigger konstant lav-båndbredde gråskala-overvåking. En kausalt online-utløser analyserer en glidende vindu (dvs. et fleksibelt pluss-minus område av rammeverk rundt en bestemt tid, som f.eks. oppdaging av en hendelse-utløser) av den lavoppløste strømmen:

Kontinuerlig høyoppløst RGB-opptak drenerer raskt strømmen, så opptak stopper tidlig og nøkkeløyeblikk kan gå tapt. Omvendt holder ColorTrigger en lavkraft-gråskalastrøm gående hele tiden, og aktiverer bare RGB-kameraet på utvalgte øyeblikk – utvider opptakstiden, mens den likevel fanger de visuelle detaljene som trengs for å svare på senere spørsmål. Kilde

Mens systemet er i ‘passiv’ modus (dvs. det har ikke identifisert en utløser-hendelse enda), allokerer den dynamiske token-ruter begrensede kapasitet til en asymmetrisk dekoder, som alltid søker etter redundans og etter hendelser som indikerer nyskaping, på det tidspunktet prioriterer token-strømmen kapasitet over komprimering:

Skjema for ColorTrigger. Systemet overvåker en glidende vindu-analyse av nylige rammeverk for å oppdage redundans og endring, og utløser høyoppløst RGB-opptak bare når det er nødvendig, under en kredittbasert budsjetteringsmodell. En dynamisk token-ruter allokerer færre token til gråskala-inndata og flere til utvalgte RGB-rammeverk, og bevare tidsorden for nedstrøms Multimodal Large Language Model (MLLM)-prosessering.

På en ramme-for-ramme-basis må systemet bestemme om det nåværende øyeblikket inneholder ny informasjon som er verdt kostnaden av å fange farge. Den korte nylige historien av gråskala-rammeverk i glidende vinduet tillater ColorTrigger å sammenligne det nåværende rammeverket mot det umiddelbare fortiden. Hver ramme konverteres til en kompakt egenskapsrepresentasjon, og disse egenskapene sammenlignes med hverandre for å måle hvor lik eller ulik deres verts-rammeverk er.

Dette sammenligningsprosessen er organisert i en struktur som summerer hvor mye hver ramme overlapper med de andre, og fanger effektivt om scenen er repetitiv eller endrer seg. En lett optimeringssteg tildeler en viktighestscore til hver ramme i vinduet, og favoriserer nyskaping.

Fargebalanse

For å forhindre overforbruk av farge, begrenser en enkel ‘kredittsystem’ hvor ofte farge kan utløses over tid. Kreditter akkumulerer gradvis, og forbrukes når farge blir bedt om, og sikrer at aktivitetstider tillates, men samlet forbruk forblir kontrollert. En ramme blir bare ‘oppgradert’ til farge hvis den er både informativ og hvis det er nok kreditter tilgjengelig.

Den dynamiske token-ruter kontrollerer hvor mye detalj hver ramme mottar, i stedet for å prosessere hver ramme i full kvalitet. Når ingen viktig hendelse blir oppdaget, beholdes gråskala-rammen lavoppløst og konverteres til en liten, komprimert sett av token. Når en viktig hendelse blir oppdaget, skifter systemet til farge og prosesserer rammeverket i høyere oppløsning, og tilbyr en rikere og mer detaljert representasjon.

Begge typer rammeverk går gjennom samme modell, men gråskala-rammeverk behandles på en lettere måte, mens utvalgte farge-rammeverk blir gitt mer oppmerksomhet. Utdataene kombineres deretter i deres opprinnelige rekkefølge og sendes til modellen som en kontinuerlig strøm.

Fordi de fleste rammeverk forblir lette og bare noen få blir oppgradert, sparer systemet en stor mengde beregning mens det likevel fanger de nøkkel detaljene når de teller:

Fra rapporten, et annet eksempel hvor systemet må midlertidig øke ressurser for å skille en farge.

Data og tester

For å teste systemet, evaluerte forskerne det mot StreamingBench– og OVO-Bench-video-benchmarkene, og unngikk prosessering av framtidige innhold (som er en potensiell fare i offline-tester).

Den frosne Multimodal Large Language Model (MLLM) som ble brukt var InternVL3.5-8B-Instruct, med den kausale utløseren implementert via CLIP ViT-B/16.

Gråskala-strømmen ble begrenset til luminanskanalen i CIELAB-fargerommet, i henhold til tidligere arbeid, og de resulterende gråskala-rammeverkene ble større til 224x224px før patchifikasjon (dvs. splitting av et bilde i små, faste blokker, så hver blokk kan prosesseres som en separat enhet av modellen).

RGB-rammeverkene, omvendt, nøt en høyere bitrate, og ble prosessert i 448x448px, og produserte 256 token, i motsetning til de 64 token som ble produsert for gråskala-rammeverkene.

Felles optimeringsverktøy ble brukt til å gjøre systemets avgjørelser: CVXPY (en Python-bibliotek for å sette opp optimeringsproblemer), og OSQP Solver (en rask algoritme som beregner når å utløse farge).

Video ble prosessert i 1fps, med en grense på 128 rammeverk per klipp, for å holde beregningen lav.

Proprietære systemer som ble testet var Gemini 1.5 Pro; GPT-4o; og Claude 3.5 Sonnet. Åpne kildekode video-MLLM som ble testet var LLaVA-OneVision-7B; Video-LLaMA2-7B; og Qwen2.5-VL-7B.

Strømmende MLLM som ble testet var Flash-VStream-7B; VideoLLM-online-8B; Dispider-7B; og TimeChat-Online-7B.

InternVL-3.5-8B og Qwen3-VL-8B ble testet i forskjellige konfigurasjoner, detaljert i den første resultattabellen nedenfor, med hensyn til StreamingBench:

Ytelse på StreamingBench for sanntids visuell forståelse, sammenligning av proprietære, åpne kildekode og strømmende MLLM under forskjellige farge-budsjetter. RGB (%) indikerer prosentandelen av rammeverk som beholdes i farge etter utløsning, hvor 100 betyr full farge og 0 betyr gråskala-bare inndata. ColorTrigger ble evaluert på to driftspunkter, beholdende 8,1% og 34,3% farge-rammeverk, og viste forbedret total nøyaktighet over gråskala-InternVL-3.5-8B-baselinjen mens det betydelig reduserte fargebruk i forhold til fullfarge-innstillingen.

Her kommenterer forfatterne:

‘ColorTrigger oppnår konkurrerende ytelse på sanntids visuell forståelse-underoppgaven i StreamingBench.

‘Vår modell med 34,3% RGB-rammeverk scorer 75,24, og overgår nylig online-modell Dispider-7B og er nær TimeChat-Online-7B, mens den er sammenlignbar med proprietære modeller som Gemini 1.5 Pro (75.69) og overgår GPT-4o (73.28) og Claude 3.5 Sonnet (72.44).’

InternVL-3.5-8B scoret 77.20 med full farge, mens ColorTrigger nådde 75.24 med 65.7% færre RGB-rammeverk – og selv med bare 8.1% farge-rammeverk, scoret den 70.72, og overgikk gråskala-baselinjen på 62.08 med 8.64%, og forble konkurrerende med andre strømmende modeller.

Neste, ble OVO-Bench testet:

Ytelse på OVO-Bench over tre kategorier: Sanntids visuell persepsjon, bakover-sporing og fremover aktivt svar, sammenligning av proprietære, åpne kildekode og strømmende MLLM under forskjellige farge-budsjetter. RGB (%) indikerer prosentandelen av rammeverk som beholdes i farge etter utløsning, hvor 100 betyr full farge og 0 betyr gråskala-bare inndata. ColorTrigger ble evaluert på to driftspunkter, beholdende 7,1% og 33,1% farge-rammeverk, og viste forbedret total nøyaktighet over gråskala-InternVL-3.5-8B-baselinjen mens det betydelig reduserte fargebruk i forhold til fullfarge-innstillingen.

Av disse resultater, sier forfatterne:

‘Vår modell med 33,1% RGB-rammeverk oppnår en total score på 52,5, og overgår nesten alle eksisterende åpne kildekode online-MLLM. I forhold til basis-modellen InternVL-3.5-8B med full RGB-inndata (57.7), scorer ColorTrigger 52,5 mens det reduserer RGB-rammeverk-bruk med 66.9%, og representerer bare en 5.2-poengs nedgang i total ytelse.

‘Denne beskjedne nedgangen er ledsaget av betydelige gevinster i effektivitet, og demonstrerer effektiviteten av vår adaptive ruting-strategi.’

Sanntids visuell persepsjon nådde 65.2 – en 11.4-poengs gevinst over gråskala-baselinjen på 53.8. Selv når begrenset til bare 7.1% RGB-rammeverk (en 92.9% reduksjon), beholdt ColorTrigger en total score på 50.4, og forbedret gråskala-innstillingen med 2.5 poeng.

Til slutt gjennomførte forskerne en test mot en offline video-oppgave (en analytisk oppgave som ikke er designet for å teste forsinkelse eller andre ‘live’ miljøforhold, ved å bruke Video-MME-lange video-forståelses benchmark:

Ytelse-sammenligning av testede systemer på Video-MME-benchmark.

I denne testen, oppnådde modellen en total score på 66.1, mens den brukte 37.6% RGB-rammeverk, og overgikk fullfarge-InternVL-3.5-8B-baselinjen på 65.6, til tross for å bruke 62.4% færre farge-rammeverk.

Forfatterne kommenterer:

‘Dette demonstrerer at vår adaptive utløser-mekanisme ikke bare reduserer beregningskostnader, men også kan forbedre ytelsen ved å fokusere RGB-kapasitet på semantisk kritiske øyeblikk.

‘Merket, ColorTrigger overgår alle eksisterende online-MLLM, inkludert TimeChat-Online-7B på 62.4 og Dispider-7B på 57.2, og bekrefter effektiviteten av å kombinere kontinuerlig gråskala-kontekst med selektiv RGB-oppfanging for lange video-forståelse.’

Konklusjon

Jeg liker alltid å se innovasjoner av denne typen, ikke minst fordi AI sin høye og økende behov for (elektrisk) kraft har produsert dystre overskrifter i lang tid, og det er godt å se forskning som indirekte adresserer problemet.

Det er kynisk trøstende å vite at strøm-besparelsene som gjøres i slike forays er motivert av kommersielle overveielser, siden disse er mindre sannsynlig å bli påvirket av kortvarige politiske avgjørelser enn de edlere, men mer sårbare bekymringene over energibesparing og global oppvarming. Heldigvis, samme mål blir oppnådd, av forskjellige årsaker.

* Opprettet av meg, bare for å innkapsle rapportens idé for leseren.

Først publisert torsdag, 26. mars 2026