Unghiul lui Anderson
Un vibe din anii 1970 pentru monitorizarea cu economisire de energie a inteligenței artificiale

Noi cercetări arată că majoritatea inteligenței artificiale video nu are nevoie de culoare deloc, activând-o doar în momente cheie și reducând utilizarea datelor cu peste 90% cu o pierdere minimă de acuratețe.
Camerele de streaming remote și alte dispozitive video fără fir, alimentate cu baterii, necesită setări de monitorizare optimizate, deoarece pot depinde de surse de alimentare instabile – cum ar fi energia solară – sau pot necesita reîncărcarea periodică, sau alte forme de intervenție umană, în situații în care, ideal, nu ar trebui să fie necesară prezența cuiva.
În același timp cu această linie de cercetare, interesul pentru dispozitivele purtabile echipate cu camere a crescut (deși astfel de dispozitive erau deja limitate strict de putere și calcule), deoarece inteligența artificială de margine promite acum să le facă mult mai utile.
Dincolo de aceste considerații, impulsul pe termen lung de a reduce costurile de monitorizare și de margine a inteligenței artificiale (în special în cazurile în care astfel de economii nu trebuie să fie transmise clienților) creează un caz puternic pentru inovare în abordările de conservare a energiei pentru cazurile de utilizare “de margine”.
Sună-ți alarma
În domeniul senzorilor video de streaming, dispozitivele de monitorizare de margine lipsite de resurse trebuie să utilizeze cea mai mică cantitate posibilă de energie, în timp ce cheltuiesc suficientă putere pentru a monitoriza “evenimente interesante” – în momentul în care va fi merită să cheltuiască mai multe resurse.
În mod eficient, acesta este un caz de utilizare similar cu cel al luminilor cu mișcare, care oferă iluminare doar atunci când senzorii cu consum redus de energie detectează că există cineva acolo pentru a o aprecia.
Deoarece monitorizarea audio și comprimarea sunt considerabil mai puțin intensive din punct de vedere al resurselor decât video-ul, mai multe abordări din ultimii ani au încercat să utilizeze indicii audio pentru a “activa” atenția în sistemele limitate; cadre precum Ascultă pentru a privi și Egotrigger:

În sistemul Egotrigger, declanșarea audio selectiv activează captura de imagine din indicii de interacțiune mână-obiect, reducând cadrele redundante și păstrând performanța memoriei episodice în sistemele inteligente cu ochelari cu limitări de resurse. Sursă
Este clar că sunetul nu este mediul ideal pentru a căuta evenimente vizuale, deoarece multe evenimente esențiale nu pot avea niciun indiciu audio sau pot apărea în afara gamei microfoanelor de margine.
Dormitor ușor
Ce ar putea fi mai bine, sugerează o nouă lucrare, este un flux de video care poate lucra împreună cu inteligența artificială pentru a crește resursele de îndată ce are loc un eveniment urmărit. Simularea de mai jos* oferă o idee generală despre concept – monitorizarea cu rezoluție scăzută este menținută la nivelul minim de semnal necesar pentru cadrele de detectare a obiectelor să funcționeze și pentru a spune sistemului să crească rezoluția din cauza declanșării unui eveniment:
O simulare a comportamentului dorit – fluxul de streaming și analiza funcționează la nivelul cel mai scăzut de consum de resurse în mod implicit; suficient de mult pentru a declanșa un consum mai mare de resurse atunci când sunt detectate evenimente “interesante” sau căutate în fluxul în tonuri de gri. Stilul de supraveghere în tonuri de gri poate fi destul de “retro”, dar ar putea fi un semn al lucrurilor care urmează. Acest video a fost creat de mine doar pentru scopuri ilustrative în legătură cu ideile de bază ale noii lucrări. Sursă:
Lucrarea nouă, o colaborare academică între diverse instituții din Regatul Unit și Huawei, propune un sistem de tonuri de gri întotdeauna, culoare la cerere fără antrenament, facilitat de inteligență artificială, pentru monitorizarea de margine – proiectat pentru a funcționa la un consum redus de energie atunci când nu au loc “evenimente cheie” și pentru a crește consumul doar pentru durata evenimentului.
În benchmark-urile de înțelegere a fluxului de video, noul sistem, numit ColorTrigger, a reușit să atingă 91,6% din performanța de referință cu culoare completă, utilizând doar 8,1% din cadrele RGB din aceste standarde:

Atunci când modelul vede doar fluxul de video în tonuri de gri, îi confundă detaliile cheie și oferă răspunsuri greșite; dar declanșarea culorii la momentele potrivite elimină ambiguitățile și corectează greșelile provocate de sarcini care depind de culoare. Sursă
Lucrarea nouă se intitulează Culoare atunci când contează: declanșare online ghidată de tonuri de gri pentru fluxuri de video de streaming și provine de la opt cercetători de la Queen Mary University of London, Durham University, Imperial College London și Huawei Noah’s Ark Lab. Lucrarea are și o pagină de proiect însoțitoare.
Metodă
Pentru a păstra structura temporală în noul sistem, ColorTrigger menține o monitorizare cu rezoluție scăzută în tonuri de gri. Un declanșator online cauzal analizează o fereastră glisantă (adică, o gamă flexibilă de cadre în jurul unui moment particular, cum ar fi detectarea unui declanșator de eveniment) din fluxul cu rezoluție scăzută:

Captură de flux de înaltă rezoluție continuă rapid epuizează puterea, astfel încât înregistrarea se oprește devreme și momentele cheie pot fi ratate. În schimb, ColorTrigger menține un flux cu tonuri de gri de joasă putere care rulează în permanență și activează doar camera RGB la momente selectate – prelungind timpul de înregistrare, în timp ce capturează în continuare detaliile vizuale necesare pentru a răspunde la întrebări ulterioare. Sursă
În timp ce sistemul se află în modul “pasiv” (adică, nu a identificat încă un declanșator de eveniment), routerul său dinamic de token alocază o capacitate limitată unui decodificator asimetric, care caută întotdeauna redundanță și evenimente care indică noutate, în momentul în care fluxul de token se re prioritizează pentru capacitate în detrimentul comprimării:

Schema pentru ColorTrigger. Sistemul monitorizează o analiză a ferestrei glisante a cadrelor recente pentru a detecta redundanță și schimbare, declanșând doar captura RGB de înaltă rezoluție atunci când este necesar, sub un buget bazat pe credite. Un router dinamic de token alocază mai puține token-uri pentru intrările în tonuri de gri și mai multe pentru cadrele RGB selectate, păstrând ordinea temporală pentru procesarea ulterioară a modelului de limbaj multimedial mare (MLLM).
La nivel de cadru, sistemul trebuie să decidă dacă momentul actual conține informații noi care merită costul capturării culorii. Istoria scurtă a cadrelor în tonuri de gri din fereastra glisantă permite lui ColorTrigger să compare cadru curent cu imediatul său trecut. Fiecare cadru este convertit într-o reprezentare compactă a caracteristicilor, iar aceste caracteristici sunt comparate între ele pentru a măsura cât de asemănătoare sau diferite sunt cadrele lor gazdă.
Acest proces de comparare este organizat într-o structură care rezumă cât de mult fiecare cadru se suprapune cu altele, capturând în mod eficient dacă scena se repetă sau se schimbă. Un pas de optimizare ușor atribuie un scor de importanță pentru fiecare cadru din fereastră, favorizând noutatea.
Echilibru de culoare
Pentru a preveni utilizarea excesivă a culorii, un sistem simplu de “credite” limitează cât de des poate fi declanșată culoarea în timp. Creditele se acumulează treptat și sunt cheltuite atunci când se solicită culoarea, asigurând că sunt permise izbucniri de activitate, dar utilizarea generală rămâne controlată. Un cadru este “upgradat” la culoare doar dacă este atât informativ, cât și dacă există suficiente credite disponibile.
Routerul dinamic de token controlează cât de multă atenție primește fiecare cadru, în loc să proceseze fiecare cadru la calitate completă. Când nu se detectează nimic important, cadru în tonuri de gri este menținut la rezoluție scăzută și transformat într-un set mic și comprimat de token-uri. Când este detectat un moment important, sistemul trece la culoare și procesează acel cadru la o rezoluție mai mare, oferind o reprezentare mai bogată și mai detaliată.
Ambele tipuri de cadre trec prin același model, dar cadrele în tonuri de gri sunt tratate într-un mod mai ușor, în timp ce cadrele RGB selectate primesc mai multă atenție. Ieșirile sunt apoi combinate în ordinea lor originală și trimise modelului ca un flux continuu.
Deoarece majoritatea cadrelor rămân ușoare și doar câteva sunt “upgradate”, sistemul economisește o cantitate mare de calcul, în timp ce capturează în continuare detaliile cheie atunci când contează:

Din lucrare, un alt exemplu în care sistemul trebuie să crească temporar resursele pentru a distinge o culoare.
Date și teste
Pentru a testa sistemul, cercetătorii l-au evaluat împotriva StreamingBench și OVO-Bench benchmark-urilor de video, evitând procesarea conținutului viitor (care este un pericol potențial în testele offline).
Modelul înghețat de limbaj multimedial mare (MLLM) utilizat a fost InternVL3.5-8B-Instruct, cu declanșatorul cauzal implementat prin CLIP ViT-B/16.
Fluxul în tonuri de gri a fost limitat la canalul de luminanță în spațiul de culoare CIELAB, în conformitate cu lucrări anterioare, cu cadrele în tonuri de gri rezultate redimensionate la 224x224px înainte de patchificare (divizarea unei imagini în blocuri mici fixe, astfel încât fiecare bloc să poată fi procesat ca o unitate separată de model).
Cadrele RGB, pe de altă parte, au beneficiat de o rată de biți mai mare și au fost procesate la 448x448px, producând 256 de token-uri, în contrast cu cele 64 de token-uri produse pentru cadrele în tonuri de gri.
Unelte de optimizare comune au fost utilizate pentru a face deciziile sistemului: CVXPY (o bibliotecă Python pentru configurarea problemelor de optimizare) și OSQP Solver (un algoritm rapid care calculează când să declanșeze culoarea).
Video a fost procesat la 1fps, cu o limită de 128 de cadre pe clip, pentru a menține calculul redus.
Sistemele proprietare testate au fost Gemini 1.5 Pro; GPT-4o; și Claude 3.5 Sonnet. Modelele video MLLM cu sursă deschisă testate au fost LLaVA-OneVision-7B; Video-LLaMA2-7B; și Qwen2.5-VL-7B.
Modelele video MLLM de streaming testate au fost Flash-VStream-7B; VideoLLM-online-8B; Dispider-7B; și TimeChat-Online-7B.
InternVL-3.5-8B și Qwen3-VL-8B au fost testate în diverse configurații, detaliate în prima tabelă de rezultate de mai jos, referitoare la StreamingBench:

Performanță pe StreamingBench pentru sarcini de înțelegere vizuală în timp real, comparând modelele proprietare, cu sursă deschisă și de streaming MLLM sub diverse bugete de culoare. RGB (%) indică proporția de cadre păstrate în culoare după declanșare, unde 100 denotă culoare completă și 0 denotă intrare doar în tonuri de gri. ColorTrigger este evaluat la două puncte de funcționare, păstrând 8,1% și 34,3% cadre de culoare și demonstrează o acuratețe generală îmbunătățită față de baza de referință InternVL-3.5-8B în tonuri de gri, reducând în același timp utilizarea culorii în raport cu setarea culorii complete.
Aici autorii comentază:
‘ColorTrigger atinge o performanță competitivă pe subtask-ul de înțelegere vizuală în timp real din StreamingBench.
‘Modelul nostru cu 34,3% cadre RGB obține un scor de 75,24, depășind modelul online recent Dispider-7B și aproape de TimeChat-Online-7B, în timp ce este comparabil cu modelele proprietare, cum ar fi Gemini 1.5 Pro (75,69) și depășește GPT-4o (73,28) și Claude 3.5 Sonnet (72,44).’
InternVL-3.5-8B a obținut un scor de 77,20 utilizând culoare completă, în timp ce ColorTrigger a atins un scor de 75,24 utilizând cu 65,7% mai puține cadre RGB – și chiar și cu doar 8,1% cadre de culoare, a obținut un scor de 70,72, depășind baza de referință în tonuri de gri de 62,08 cu 8,64%, și rămânând competitiv cu alte modele de streaming.
Următorul, OVO-Bench a fost testat:

Performanță pe OVO-Bench în trei categorii: percepție vizuală în timp real, urmărire inversă și răspuns activ înainte, comparând modelele proprietare, cu sursă deschisă și de streaming MLLM sub diverse bugete de culoare. RGB (%) indică proporția de cadre păstrate în culoare după declanșare, unde 100 denotă culoare completă și 0 denotă intrare doar în tonuri de gri. ColorTrigger este evaluat la două puncte de funcționare, păstrând 7,1% și 33,1% cadre de culoare și arată o acuratețe generală îmbunătățită față de baza de referință InternVL-3.5-8B în tonuri de gri, reducând în același timp utilizarea culorii în raport cu setarea culorii complete.
Dintre aceste rezultate, autorii afirmă:
‘Modelul nostru cu 33,1% cadre RGB obține un scor general de 52,5, depășind aproape toate modelele online cu sursă deschisă existente. În comparație cu modelul de bază InternVL-3.5-8B cu intrare RGB completă (57,7), ColorTrigger obține un scor de 52,5, reducând utilizarea cadrelor RGB cu 66,9%, reprezentând doar o scădere de 5,2 puncte în performanța generală.
‘Această scădere modestă este însoțită de câștiguri substanțiale în eficiență, demonstrând eficacitatea strategiei noastre de rutare adaptivă.’
Percepția vizuală în timp real a atins 65,2 – un câștig de 11,4 puncte față de baza de referință în tonuri de gri de 53,8. Chiar și atunci când a fost limitat la doar 7,1% cadre RGB (o reducere de 92,9%), ColorTrigger a menținut un scor general de 50,4, îmbunătățind setarea în tonuri de gri cu 2,5 puncte.
În cele din urmă, cercetătorii au efectuat un test împotriva unei sarcini video offline (o sarcină analitică care nu a fost proiectată pentru a testa întârzierea sau alte condiții “live”, utilizând benchmark-ul Video-MME de înțelegere a video pe termen lung:

Compararea performanței sistemelor testate pe benchmark-ul Video-MME.
În acest test, modelul a obținut un scor general de 66,1, utilizând 37,6% cadre RGB, depășind scorul de referință cu culoare completă InternVL-3.5-8B de 65,6, în ciuda utilizării a 62,4% mai puține cadre RGB.
Autorii comentază:
‘Acest lucru demonstrează că mecanismul nostru de declanșare adaptivă nu numai că reduce costul computațional, dar poate chiar îmbunătăți performanța, concentrând capacitatea RGB pe momente semantic critice.
‘În mod remarcabil, ColorTrigger depășește toate modelele MLLM online existente, inclusiv TimeChat-Online-7B la 62,4 și Dispider-7B la 57,2, confirmând eficacitatea combinării contextului continuu în tonuri de gri cu achiziția selectivă RGB pentru înțelegerea video pe termen lung.’
Concluzie
Îmi place întotdeauna să văd inovații de acest tip, nu în ultimul rând pentru că nevoia de energie electrică a inteligenței artificiale și creșterea acesteia au produs știri dezastruoase de mult timp, și este bine să vedem cercetări care abordează indirect această problemă.
Este un confort cinic să știu că economiile de energie realizate în astfel de incursiuni sunt motivate de considerații comerciale, deoarece acestea sunt mai puțin susceptibile de a fi afectate de deciziile politice pe termen scurt decât preocupările mai nobile, dar mai vulnerabile, legate de conservarea energiei și încălzirea globală. Din fericire, același scop este atins, din motive diferite.
* Creat de mine, doar pentru a încapsula ideea lucrării pentru cititor.
Publicat pentru prima dată joi, 26 martie 2026












