Andersonin kulma

1970-luvun tyyli energian säästöön perustuvaan tekoälyvalvontaan

Published March 26, 2026

Updated May 16, 2026

Martin Anderson

Excerpts from a video simulating a grayscale video stream activated by object detection – source: https://videos.pexels.com/video-files/36553218/15498630_2560_1440_25fps.mp4

Uudet tutkimukset osoittavat, että useimmat videotekoälyjärjestelmät eivät tarvitse värillistä kuvaa ollenkaan, vaan ne käyttävät sitä vain tärkeissä kohdissa ja leikkaavat datan käytön yli 90 prosentilla ilman merkittäviä tarkkuuden menetyksiä.

Etäyhteydellä toimivat kamerat ja muut langattomat, paristokäyttöiset videolaitteet vaativat tiukasti optimoituja valvontajärjestelmiä, koska ne voivat riippua epävakaaista virtalähteistä, kuten aurinkoenergiasta, tai vaatia säännöllistä latausta tai muita ihmisen välistä toimintaa tilanteissa, joissa kukaan ei tarvitse olla läsnä.

Yhdessä tämän tutkimuksen kanssa, kiinnostus kameroilla varustettuja liikkuvaan laitteisiin on myös kasvanut (vaikka tällaiset laitteet olivat jo aikaisemmin tiukasti rajoitettuja tehon ja laskentakapasiteetin suhteen), koska reunakohtaiset tekoälyjärjestelmät lupaavat tehdä niistä paljon hyödyllisemmät.

Näiden seikkojen lisäksi, pitkän aikavälin kannustimet vähentää reunakohtaisen tekoälyn ja valvonnan kustannuksia (erityisesti tapauksissa, joissa nämä säästöt eivät tarvitse olla asiakkaiden hyödyksi) luovat vakuuttavan tapauksen innovaatioille energiansäästölähestymistapoja varten “reunatapausten” osalta.

Ääni pois

Virtausvideo- ja älykkään valvonnan alalla, resursseja vähäisesti reunakohtaiset valvontalaitteet on käytettävä vähintään mahdollista energiaa, samalla kun ne käyttävät tarpeeksi voimaa valvontaan “mielenkiintoisia” tapahtumia varten – jolloin on arvoa käyttää enemmän resursseja.

Tämä on käytännössä samanlainen käyttötapa kuin liikkeen mukaan ohjatut valot, jotka tarjoavat valaistusta vain silloin, kun matalan energiankulutuksen anturit havaitsevat, että joku on siellä sen arvostamassa.

Koska äänien kuuntelu ja pakkauksen on huomattavasti vähemmän resursseja vaativampaa kuin videon, useat lähestymistavat viime vuosina ovat yrittäneet käyttää ääniohjattuja viittoja “käynnistämään” huomion rajoitettuihin järjestelmiin; kehykset kuten Kuuntele ja katso ja Egotrigger:

Egotrigger-järjestelmässä ääniohjattu käynnistys aktivoi kuvan ottamisen kädestä-esineen vuorovaikutuksen merkkien perusteella, vähentäen turhia kehyskohtia ja säilyttäen episodisen muistin suorituskyvyn resursseja vähäisissä älykkäissä lasien järjestelmissä. Lähde

Selvästi ääni ei ole ihanteellinen väline etsimään visuaalisia tapahtumia, koska monet tärkeät sellaiset tapahtumat eivät voi olla äänimerkkiä tai tapahtua reunakohtaisen mikrofonin kuuluvuuden ulottumattomissa.

Valoisa nukkuja

Mitä voisi olla parempaa, yksi uusi tutkimus ehdottaa, on videovirta, joka voi toimia yhdessä tekoälyn kanssa lisätäkseen resursseja, kun valvottava tapahtuma havaitaan. Simulaatio alla* antaa yleiskuvan tästä käsitteestä – matalaresoluutioinen valvonta ylläpidetään vähimmäismerkkitasolla, joka on välttämätöntä objektin havaitsemiselle ja kertaa järjestelmälle, että resoluutiota on lisättävä tapahtuman laukaisemisen vuoksi:

Simulaatio toivotusta käyttäytymisestä – että virtaaminen ja analyysi toimivat oletuksena alhaisimmalla resurssien kulutuksen tasolla; tarpeeksi vain laukaisemaan korkeampaa resurssien kulutusta, kun “mielenkiintoisia” tai etsittyjä tapahtumia havaitaan mustavalkoisessa valvontatyyliin. Mustavalkoinen valvontatyyli voi olla “retro”, mutta se voi olla merkki siitä, mitä on tulossa. Tämä video on luotu yksinomaan havainnollistamaan tutkimuksen keskeisiä ideoita. Lähde:

Uusi tutkimus, joka on akateeminen yhteistyöprojekti useiden brittiläisten instituutioiden ja Huawein välillä, ehdottaa koulutusvapaata, tekoälyllistä, mustavalkoinen aina, väri kun tarve -skeemaa reunakohtaiselle valvonnalle – suunniteltua toimimaan alhaisella tokenin käytöllä, kun “avain tapahtumia” ei ole tapahtumassa, ja lisäämään kulutusta vain tapahtuman kestoaikana.

Virtausvideon ymmärtämisen vertailukokeissa uusi järjestelmä, jota kutsutaan Värikynnysksi, saavutti 91,6 prosenttia täysivärikuvan vertailukohteen suorituskyvystä käyttäen vain 8,1 prosenttia RGB-kehyksiä näissä standardeissa:

Kun malli näkee vain mustavalkoista videota, se sekoittaa avainyksityiskohtia ja antaa väärät vastaukset; mutta värin laukaiseminen oikeaan aikaan poistaa epäselvyyden ja korjaa virheet, jotka johtuvat väristä riippuvista tehtävista. Lähde

Tutkimus uusi paperi on otsikoitu Väri kun tarve: mustavalko-ohjattu online-laukaisu jatkuvasti virtaavalle videovälitykselle, ja se on peräisin kahdeksalta tutkijalta Queen Maryn yliopistosta Lontoossa, Durhamin yliopistosta, Imperial College Lontoosta ja Huawein Nooan Arkki-laboratoriosta. Tutkimuksessa on myös hankkeen verkkosivu.

Menetelmä

Säilyttääkseen aikajärjestyksen uudessa järjestelmässä, Värikynnys ylläpitää jatkuvasti matalabändin mustavalkoista valvontaa. Kausaalinen online-laukaisin analysoi liukuvan ikkunan (ts. joustavan plus-miinus-kehyksiä tietyssä ajassa, kuten tapahtuman laukaisemisen aikana) matalaresoluutioisesta virtaamisesta:

Jatkuva korkearesoluutioinen RGB-kuvan ottaminen tyhjentää nopeasti virtaa, joten tallennus loppuu aikaisin ja tärkeitä hetkiä voidaan missata. Toisaalta Värikynnys pitää matalatehoista mustavalkoista virtausta aina käynnissä ja aktivoi RGB-kameran vain valituissa kohdissa – pidentäen tallennusaikaa ja samalla tallentamalla visuaaliset yksityiskohdat, joita tarvitaan myöhempiin kysymyksiin. Lähde

Kun järjestelmä on “passiivisessa” tilassa (ts. se ei ole vielä tunnistanut laukaisutapahtumaa), dynaaminen token-ohjain jakaa rajoitetun kapasiteetin epäsymmetriseen dekooderiin, etsien aina redundanssia ja uutuuksia, ja kun tällaisia tapahtumia havaitaan, token-virta uudelleenpriorisoi kapasiteetin pakkaamisen yli:

Värikynnys-skeema. Järjestelmä seuraa liukuvan ikkunan analyysiä viimeaikaisista kehyksistä havaitsemalla redundanssia ja muutosta, ja laukaisee korkearesoluutioisen RGB-kuvan ottamisen vain tarvittaessa, luottamusarvioituja budjettia noudattaen. Dynaaminen token-ohjain jakaa vähemmän tokenia mustavalkoisiin syötteisiin ja enemmän valittuihin RGB-kehyksiin, säilyttäen aikajärjestyksen alirakenteiselle Monimodaalisen suuren kielen mallin (MLLM) prosessoinnille.

Kehykohtaisesti järjestelmän on päättävä, sisältääkö nykyinen hetki uutta tietoa, joka on arvoa korkearesoluutioisen kuvan ottamiseen. Lyhyt viimeaikainen historia mustavalkoisista kehyksistä liukuvassa ikkunassa antaa Värikynnysille mahdollisuuden verrata nykyistä kehystä sen hetkeen edeltäjiin. Jokainen kehys muunnetaan tiiviiksi piirrosedustukseksi, ja nämä piirrosedustukset verrataan toisiinsa mittaamaan, kuinka samanlaisia tai erilaisia niiden isäntäkehykset ovat.

Tämä vertailuprosessi on järjestetty rakenteeseen, joka yhteenveta kuinka paljon jokainen kehys limittyy muihin, tehden siitä tehokkaan tavan havaita, toistuuko kohtaus vai muuttuuko se. Keveä optimointivaihe määrittää tärkeysarvon kullekin kehykselle ikkunassa, suosien uutuuksia.

Värisaldo

Värien liiallisen käytön estämiseksi yksinkertainen “luottamusjärjestelmä” rajoittaa, kuinka usein väriä voidaan laukaista ajan myötä. Luottamus kasvaa hitaasti, ja se kulutetaan, kun väriä pyydetään, varmisteten, että toiminnan purkaus on sallittu, mutta yleinen käyttö säilyy hallinnassa. Kehys “päivitetään” väriksi vain, jos se on sekä informatiivinen että jos luottamusta on tarpeeksi.

Dynaaminen token-ohjain hallitsee, kuinka paljon yksityiskohtia kullekin kehykselle annetaan, sen sijaan, että jokainen kehys prosessoidaan täydellä laadulla. Kun mitään tärkeää ei havaita, mustavalkoinen kehys pidetään matalaresoluutioisena ja muutetaan pieneksi, pakatulla joukoksi tokenia. Kun tärkeä hetki havaitaan, järjestelmä vaihtaa väriksi ja prosessoi kehystä korkeamalla resoluutiolla, tarjoten rikkaamman ja yksityiskohtaisemman edustuksen.

Molemmat kehystyypit käyvät läpi saman mallin, mutta mustavalkoiset kehykset käsitellään kevyemmin, kun taas valitut värikkäät kehykset saavat enemmän huomiota. Tulokset yhdistetään alkuperäisessä järjestyksessä ja lähetetään mallille jatkuvana virtana.

Koska useimmat kehykset säilyvät kevyinä ja vain muutamia ylennetään, järjestelmä säästää suuren määrän laskentaa samalla kun se tallentaa avainyksityiskohdat, kun ne ovat tärkeitä:

Tutkimuksesta, toinen esimerkki, jossa järjestelmä tarvitsee väliaikaisesti lisää resursseja erottamaan väri.

Data ja testit

Testataksesi järjestelmää, tutkijat arvioivat sen StreamingBench ja OVO-Bench videobenchmarkein vastaan, välttäen tulevaisuuden sisällön prosessointia (joka on potentiaalinen vaara offline-testeissä).

Jäädytetty Monimodaalinen suuri kielen malli (MLLM), jota käytettiin, oli InternVL3.5-8B-Instruct, ja kausaalinen laukaisin toteutettiin CLIP ViT-B/16:n avulla.

Mustavalkoinen virta rajoitettiin luminanssikanavaan CIELAB väriavaruudessa, aiemman tutkimuksen mukaisesti, ja tuloksena olevat mustavalkoiset kehykset muunnettiin 224x224px ennen pakkauksen (kuvan jakamista pieniin kiinteän kokoisiin lohkoihin, jotta kunkin lohkon voi prosessoida erillisenä yksikkönä mallissa).

RGB-kehykset, toisaalta, nauttivat korkeampaa bittinopeutta ja prosessoitiin 448x448px, tuottaen 256 tokenia, verrattuna 64 tokeniin, jotka tuotettiin mustavalkoisille kehyksille.

Yleiset optimointityökalut käytettiin tekemään järjestelmän päätöksiä: CVXPY (Python-kirjasto, jolla määritellään optimointiongelmat), ja OSQP Solver (nopea algoritmi, joka laskee, milloin väriä on laukaistava).

Video prosessoitiin 1fps, 128 kehyksen klipin kattoa, pitäen laskennan alhaisena.

Testatut omistajajärjestelmät olivat Gemini 1.5 Pro; GPT-4o; ja Claude 3.5 Sonnet. Avoin lähdekoodin videomallit, jotka testattiin, olivat LLaVA-OneVision-7B; Video-LLaMA2-7B; ja Qwen2.5-VL-7B.

Virtausmallit, jotka testattiin, olivat Flash-VStream-7B; VideoLLM-online-8B; Dispider-7B; ja TimeChat-Online-7B.

InternVL-3.5-8B ja Qwen3-VL-8B testattiin eri konfiguraatioissa, yksityiskohtaisesti ensimmäisessä tulostaulukossa, koskien StreamingBenchiä:

Suorituskyky StreamingBenchillä reaaliaikaisissa visuaalisissa ymmärtämistehtävissä, vertaamalla omistaja- ja avoimia lähdekoodin MLLM-järjestelmiä eri värikustannuksilla. RGB (%) osoittaa prosenttiosuuden kehyksistä, jotka pidettiin värillisinä laukaisun jälkeen, missä 100 tarkoittaa täysiväriä ja 0 tarkoittaa vain mustavalkoista syötettä. Värikynnys arvioidaan kahdessa toimintapisteessä, säilyttäen 8,1 % ja 34,3 % värikkäitä kehyksiä, ja osoittaa parantuneen yleisen tarkin suorituskyvyn verrattuna mustavalkoiseen InternVL-3.5-8B-vertailukohteen suorituskykyyn, samalla kun se vähentää merkittävästi värikäytön verrattuna täysivärisäätiin.

Tässä tutkijat kommentoivat:

‘Värikynnys saavuttaa kilpailukykyisen suorituskyvyn StreamingBenchin reaaliaikaisen visuaalisen ymmärtämisen alitehtävässä.

‘Malli, jossa on 34,3 % RGB-kehyksiä, saavuttaa 75,24 pistettä, jolloin se ylittää viimeaikaisen online-mallin Dispider-7B:n ja on lähellä TimeChat-Online-7B:tä, samalla kun se on vertailukelpoinen omistajamalleihin, kuten Gemini 1.5 Pro (75,69) ja ylittää GPT-4o:n (73,28) ja Claude 3.5 Sonnetin (72,44)’

InternVL-3.5-8B saavutti 77,20 pistettä käyttäen täysiväriä, kun taas Värikynnys saavutti 75,24 pistettä käyttäen 65,7 % vähemmän RGB-kehyksiä – ja jopa vain 8,1 % värikkäiden kehysten kanssa se saavutti 70,72 pistettä, jolloin se ylitti mustavalkoisen vertailukohdan 62,08 pistettä 8,64 prosentilla, ja pysyi kilpailukykyisenä muiden virtausmallien kanssa.

Seuraavaksi testattiin OVO-Bench:

Suorituskyky OVO-Benchillä kolmessa luokassa: reaaliaikainen visuaalinen havaitseminen, taaksepäin jäljittäminen ja eteenpäin aktiivinen reagointi, vertaamalla omistaja- ja avoimia lähdekoodin MLLM-järjestelmiä eri värikustannuksilla. RGB (%) osoittaa prosenttiosuuden kehyksistä, jotka pidettiin värillisinä laukaisun jälkeen, missä 100 tarkoittaa täysiväriä ja 0 tarkoittaa vain mustavalkoista syötettä. Värikynnys arvioidaan kahdessa toimintapisteessä, säilyttäen 7,1 % ja 33,1 % värikkäitä kehyksiä, ja osoittaa parantuneen yleisen tarkin suorituskyvyn verrattuna mustavalkoiseen InternVL-3.5-8B-vertailukohteen suorituskykyyn, samalla kun se vähentää merkittävästi värikäytön verrattuna täysivärisäätiin.

Tästä tuloksesta tutkijat toteavat:

‘Malli, jossa on 33,1 % RGB-kehyksiä, saavuttaa yleisen pisteytyksen 52,5, jolloin se ylittää lähes kaikki olemassa olevat avoimet lähdekoodin online-MLLM-järjestelmät. Vertailukohdassa, jossa InternVL-3.5-8B käytti täysiväriä (57,7), Värikynnys saavutti 52,5 pistettä, vähentäen RGB-kehyskäyttöä 66,9 %:lla, mikä edustaa vain 5,2 pisteen laskua yleisessä suorituskyvyssä.

‘Tämä maltillinen heikkeneminen on seurausta merkittävistä tehokkuuden parannuksista, osoittaen sovelluksen sopeutuvan reititysstrategian tehokkuutta.’

Reaaliaikainen visuaalinen havaitseminen saavutti 65,2 pistettä – 11,4 pisteen parannuksen mustavalkoisen vertailukohdan 53,8 pisteen suorituskykyyn. Jopa vain 7,1 %:n RGB-kehyskäytöllä Värikynnys säilytti yleisen pisteytyksen 50,4, parantaen mustavalkoista asetusta 2,5 pistettä.

Lopulta tutkijat suorittivat testin offline-videotehtävää (analyysi, joka ei ole suunniteltu testaamaan viivästystä tai muita “live”-ympäristön olosuhteita) käyttäen Video-MME pitkän videon ymmärtämisen benchmarkia:

Vertailu kokeiltujen järjestelmien suorituskyvystä Video-MME-benchmarkissa.

Tässä testissä malli saavutti yleisen pisteytyksen 66,1, käyttäen 37,6 %:ia RGB-kehyksiä, ylittäen täysivärisen InternVL-3.5-8B-vertailukohdan pisteytyksen 65,6, vaikka se käytti 62,4 %:ia vähemmän värikkäitä kehyksiä.

Tutkijat toteavat:

‘Tämä osoittaa, että sopeutuva laukaisumekanismimme ei ainoastaan vähennä laskennallista kustannusta, vaan se voi myös parantaa suorituskykyä keskittämällä RGB-kapasiteetin semanttisesti kriittisiin hetkiin.

‘Huomattavasti, Värikynnys ylittää kaikki olemassa olevat online-MLLM-järjestelmät, mukaan lukien TimeChat-Online-7B (62,4) ja Dispider-7B (57,2), vahvistaen yhdistetyn jatkuvan mustavalkoisen kontekstin ja valikoivan RGB-hankinnan tehokkuutta pitkän videon ymmärtämiseen.’

Johtopäätös

Nautin aina näkemästäni tämänkaltaisista innovaatioista, ei ainoastaan siksi, että tekoälyn korkea ja jatkuvasti kasvava tarve (sähköiseen) voimaan on tuottanut surkeita otsikoita pitkään aikaan, vaan myös siksi, että on hyvä nähdä tutkimuksia, jotka osoittavat ainakin epäsuorasti tämän ongelman ratkaisemista.

On cyninen lohdutus tietää, että säästöt, jotka tehdään näissä edistysaskelissa, ovat motivoituneita kaupallisista syistä, koska ne ovat vähemmän alttiita lyhytaikaisille poliittisille päätöksille kuin jalommat, mutta haavoittuvammat, huolenaiheet energiansäästöstä ja ilmastonmuutoksesta. Onneksi sama lopputulos saavutetaan, vaikka eri syistä.

* Luotu vain yksinkertaisesti sisällyttämään tutkimuksen ideat lukijalle.

Julkaistu ensimmäisen kerran torstaina, 26. maaliskuuta 2026