Connect with us

70. léta ve Vibru energiešetřícím AI monitorování

Andersonův úhel

70. léta ve Vibru energiešetřícím AI monitorování

mm
Excerpts from a video simulating a grayscale video stream activated by object detection – source: https://videos.pexels.com/video-files/36553218/15498630_2560_1440_25fps.mp4

Nový výzkum ukazuje, že většina video AI nepotřebuje barevné informace, ale pouze je zapíná v klíčových momentech a snižuje spotřebu dat o více než 90 % s malou ztrátou přesnosti.

 

Vzdálené streamovací kamery a další bezdrátové, bateriově poháněné videozařízení vyžadují těsně optimalizované monitorovací sestavy, protože mohou záviset na nestabilních zdrojích energie – jako je solární energie – nebo vyžadují periodické dobíjení, nebo jiné formy lidského zásahu, v situacích, kde by ideálně nikdo neměl být přítomen.

V souladu s touto linií výzkumu se také zvýšil zájem o kamerou vybavené nositelné zařízení roste (i když takové zařízení již byly těsně omezeny omezeními výkonu a výpočetních zdrojů), protože hraniční AI nyní slibuje, že je učiní mnohem užitečnějšími.

Mimo tyto úvahy, dlouhodobý impuls ke snížení nákladů na hraniční AI a monitorování (zejména v případech, kdy tyto úspory nemusí být předány zákazníkovi) vytváří silný případ pro inovace v přístupu k úspoře energie pro “hraniční” použití.

Zvukový signál

V oblasti streamovacího video-sensing, zdrojově omezená hraniční monitorovací zařízení musí používat co nejméně energie, zatímco stále musí mít dostatek energie k monitorování “zajímavých” událostí – v okamžiku, kdy bude třeba vynaložit více zdrojů.

Efektivně, jedná se o podobný případ jako pohybové osvětlení, které poskytuje osvětlení pouze tehdy, když nízkoenergetické senzory zjistí, že je někdo přítomen.

Odposlechy a komprese jsou pozoruhodně méně náročné na zdroje než video, takže několik přístupů v posledních letech se pokusilo použít zvukové signály k “zapnutí” pozornosti v omezených systémech; rámce, jako je Listen to Look a Egotrigger:

V systému Egotrigger se audiové spouštění selektivně aktivuje zachycení obrazu z interakce ruky a objektu, snižuje redundanci snímků a zachovává epizodickou paměťovou funkci v systémech chytrých brýlí s omezenými zdroji. Zdroj - https://arxiv.org/pdf/2508.01915

V systému Egotrigger se audiové spouštění selektivně aktivuje zachycení obrazu z interakce ruky a objektu, snižuje redundanci snímků a zachovává epizodickou paměťovou funkci v systémech chytrých brýlí s omezenými zdroji. Zdroj

Zjevně je zvuk není ideálním médiem pro vyhledávání vizuálních událostí, protože mnoho takových událostí může mít žádný zvukový signál nebo může nastat mimo dosah hraničních mikrofonů.

Lehký spánek

Co by mohlo být lepší, navrhuje nová studie, je video proud, který může spolupracovat s AI, aby zvýšil zdroje, jakmile dojde k sledované události. Simulace níže* poskytuje obecnou představu o konceptu – nízkoúrovňové monitorování je udržováno na minimální úrovni signálu, nezbytné pro detekci objektů frameworků, a informuje systém o zvýšení rozlišení v případě spuštění události:

Simulace požadovaného chování – streamování a analýza fungují na nejnižší úrovni spotřeby zdrojů, pouze dostatečné k aktivaci vyšší spotřeby zdrojů, když jsou detekovány “zajímavé” nebo hledané události v šedé škále. Černobílá dohledová styl může být trochu “retro”, ale může to být znamení věcí příštích. Toto video bylo vytvořeno autorem pouze pro ilustrační účely v souvislosti s hlavními nápady nové studie. Zdroj

Nová práce, akademická spolupráce mezi různými britskými institucemi a Huawei, navrhuje školu bez výuky, AI usnadněnou, šedou vždy, barevnou na vyžádání schéma pro hraniční monitorování – navržené pro provoz na nízké spotřebě tokenů, když nedochází k “klíčovým” událostem, a pro zvýšení spotřeby pouze po dobu trvání události.

V benchmarku streamovacího video pochopení, nový systém, nazvaný ColorTrigger, dosáhl 91,6 % plné barevné výkonnosti, zatímco spotřeboval pouze 8,1 % RGB rámců v těchto standardech:

Když model vidí pouze šedou videosekvenci, zaměňuje klíčové detaily a poskytuje špatné odpovědi; ale aktivace barev v pravých okamžicích odstraní nesrovnalosti a opraví chyby vyvolané úkoly, které závisí na barevnosti. Zdroj - https://lvgd.github.io/ColorTrigger/

Když model vidí pouze šedou videosekvenci, zaměňuje klíčové detaily a poskytuje špatné odpovědi; ale aktivace barev v pravých okamžicích odstraní nesrovnalosti a opraví chyby vyvolané úkoly, které závisí na barevnosti. Zdroj

Studie nová studie se jmenuje Barevnost, když je to zapotřebí: Šedá-výběrová online spouštění pro vždy zapnuté streamovací video-sensing a pochází od osmi výzkumníků z Queen Mary University of London, Durham University, Imperial College London a Huawei Noah’s Ark Lab. Studie má také příslušnou projektovou stránku.

Metoda

Pro zachování časové struktury v novém systému, ColorTrigger udržuje konstantní nízkošířkový šedý dohled. Kauzální online spouštění analyzuje posuvné okno (tj. flexibilní plus-mínus rozsah rámců kolem konkrétního času, jako je například detekce spouštěcí události) nízkoúrovňového proudu:

Kontinuální vysokou rozlišením RGB zachycení rychle vyčerpává energii, takže záznam se zastaví brzy a klíčové momenty mohou být ztraceny. Naopak, ColorTrigger udržuje nízkoenergetický šedý proud běžící neustále a aktivuje pouze RGB kameru v vybraných okamžicích – prodlužuje dobu záznamu, zatímco stále zachycuje vizuální detaily potřebné pro pozdější dotazy. Zdroj - https://arxiv.org/pdf/2603.22466

Kontinuální vysokou rozlišením RGB zachycení rychle vyčerpává energii, takže záznam se zastaví brzy a klíčové momenty mohou být ztraceny. Naopak, ColorTrigger udržuje nízkoenergetický šedý proud běžící neustále a aktivuje pouze RGB kameru v vybraných okamžicích – prodlužuje dobu záznamu, zatímco stále zachycuje vizuální detaily potřebné pro pozdější dotazy. Zdroj

Zatímco systém je v “pasivním” režimu (tj.尚 belum identifikoval spouštěcí událost), jeho dynamický router tokenů přiděluje omezenou kapacitu asymetrickému dekodéru, vždy hledajícímu redundanci a události, které signalizují novinku, v okamžiku, kdy se tok tokenů přeprioritizuje kapacitou nad kompresí:

Schéma pro ColorTrigger. Systém monitoruje posuvné okno analýzy nedávných rámců k detekci redundance a změny, spouštějící vysokou rozlišením RGB zachycení pouze tehdy, když je to zapotřebí, pod kredittovým rozpočtem. Dynamický router tokenů přiděluje méně tokenů šedým vstupům a více vybraným RGB rámcům, zachovávající časovou objednávku pro downstream Multimodal Large Language Model (MLLM) zpracování.

Schéma pro ColorTrigger. Systém monitoruje posuvné okno analýzy nedávných rámců k detekci redundance a změny, spouštějící vysokou rozlišením RGB zachycení pouze tehdy, když je to zapotřebí, pod kredittovým rozpočtem. Dynamický router tokenů přiděluje méně tokenů šedým vstupům a více vybraným RGB rámcům, zachovávající časovou objednávku pro downstream Multimodal Large Language Model (MLLM) zpracování.

Na rámec po rámcích, systém potřebuje rozhodnout, zda aktuální okamžik obsahuje nové informace, které stojí za cenu zachycení barev. Krátká nedávná historie šedých rámců v posuvném okně umožňuje ColorTrigger porovnat aktuální rámec s okamžitým minulým.

Tento proces porovnání je organizován do struktury, která shrnuje kolik každý rámec překrývá s ostatními, efektivní zachycení, zda scéna se opakuje nebo mění. Lehká optimalizační krok přiděluje důležitostní skóre každému rámcům v okně, upřednostňující novinku.

Barevná rovnováha

Pro zabránění nadměrné spotřebě barev, jednoduchý “kredittový” systém omezuje, jak často lze barevnost spouštět v čase. Kredity se postupně nahromadí a jsou spotřebovány, když je požadována barevnost, zajišťující, že jsou povoleny aktivity, ale celková spotřeba zůstává pod kontrolou. Rámec je “upgradován” na barevný pouze tehdy, pokud je informativní a pokud jsou dostatečné kredity k dispozici.

Dynamický router tokenů řídí, jakou úroveň detailu každý rámec obdrží, místo toho, aby zpracovával každý rámec na plné kvalitě. Když není detekována žádná důležitá událost, šedý rámec je udržován nízkoúrovňový a je převeden na malou, komprimovanou sadu tokenů. Když je detekována důležitá událost, systém přepíná na barevný a zpracovává rámec na vyšší úrovni, nabízející bohatší a podrobnější reprezentaci.

Oba typy rámců procházejí stejným modelem, ale šedé rámce jsou zpracovávány lehčím způsobem, zatímco vybrané barevné rámce jsou věnovány více pozornosti. Výstupy jsou pak kombinovány v jejich původním pořadí a odeslány modelu jako nepřetržitý proud.

Pokudže většina rámců zůstává lehká a pouze několik je upgradováno, systém šetří大量 výpočetních zdrojů, zatímco stále zachycuje klíčové detaily, když jsou důležité:

Z studie, další příklad, kdy systém vyžaduje dočasně zvýšit zdroje, aby rozlišil barevnost.

Z studie, další příklad, kdy systém vyžaduje dočasně zvýšit zdroje, aby rozlišil barevnost.

Data a testy

Pro testování systému, výzkumníci hodnotili proti StreamingBench a OVO-Bench video benchmarky, vyhýbají se zpracování budoucích obsahu (což je potenciální nebezpečí v offline testech).

Zmrazený Multimodal Large Language Model (MLLM) použitý byl InternVL3.5-8B-Instruct, s kauzálním spouštěcím mechanismem implementovaným prostřednictvím CLIP ViT-B/16.

InternVL-3.5-8B a Qwen3-VL-8B byly testovány v různých konfiguracích, podrobně popsány v první výsledky tabulce níže, týkající se StreamingBench:

Výkon na StreamingBench pro úkoly reálného vizuálního pochopení, srovnávající proprietární, open-source a streamovací MLLM pod různými barevnými rozpočty. RGB (%) označuje podíl rámců, které zůstávají v barevném režimu po spuštění, kde 100 označuje plnou barevnost a 0 označuje pouze šedou vstupní sekvenci. ColorTrigger je hodnocen na dvou provozních bodech, zachovávající 8,1 % a 34,3 % barevných rámců, a prokazuje zlepšenou celkovou přesnost oproti šedému InternVL-3.5-8B baseline, zatímco podstatně snižuje barevnou spotřebu ve srovnání s plnou barevnou nastavením.

Výkon na StreamingBench pro úkoly reálného vizuálního pochopení, srovnávající proprietární, open-source a streamovací MLLM pod různými barevnými rozpočty. RGB (%) označuje podíl rámců, které zůstávají v barevném režimu po spuštění, kde 100 označuje plnou barevnost a 0 označuje pouze šedou vstupní sekvenci. ColorTrigger je hodnocen na dvou provozních bodech, zachovávající 8,1 % a 34,3 % barevných rámců, a prokazuje zlepšenou celkovou přesnost oproti šedému InternVL-3.5-8B baseline, zatímco podstatně snižuje barevnou spotřebu ve srovnání s plnou barevnou nastavením.

Zde autoři komentují:

‘ColorTrigger dosahuje konkurenceschopného výkonu na úkolu reálného vizuálního pochopení na StreamingBench.

‘Náš model s 34,3 % RGB rámců dosahuje skóre 75,24, překonávající nedávný online model Dispider-7B a blízký TimeChat-Online-7B, zatímco je srovnatelný s proprietárními modely, jako je Gemini 1.5 Pro (75,69) a překonávající GPT-4o (73,28) a Claude 3.5 Sonnet (72,44).’

InternVL-3.5-8B dosáhl skóre 77,20 pomocí plné barevnosti, zatímco ColorTrigger dosáhl 75,24 pomocí 65,7 % méně RGB rámců – a dokonce i s pouhými 8,1 % barevnými rámců, dosáhl 70,72, překonávající šedý baseline 62,08 o 8,64 %, a zůstává konkurenceschopný s ostatními streamovacími modely.

Další testoval OVO-Bench:

Výkon na OVO-Bench napříč třemi kategoriemi: Reálné vizuální vnímání, Zpětné stopování a Přední aktivní odpověď, srovnávající proprietární, open-source a streamovací MLLM pod různými barevnými rozpočty. RGB (%) označuje podíl rámců, které zůstávají v barevném režimu po spuštění, kde 100 označuje plnou barevnost a 0 označuje pouze šedou vstupní sekvenci. ColorTrigger je hodnocen na dvou provozních bodech, zachovávající 7,1 % a 33,1 % barevných rámců, a prokazuje zlepšenou celkovou přesnost oproti šedému InternVL-3.5-8B baseline, zatímco podstatně snižuje barevnou spotřebu ve srovnání s plnou barevnou nastavením.

Výkon na OVO-Bench napříč třemi kategoriemi: Reálné vizuální vnímání, Zpětné stopování a Přední aktivní odpověď, srovnávající proprietární, open-source a streamovací MLLM pod různými barevnými rozpočty. RGB (%) označuje podíl rámců, které zůstávají v barevném režimu po spuštění, kde 100 označuje plnou barevnost a 0 označuje pouze šedou vstupní sekvenci. ColorTrigger je hodnocen na dvou provozních bodech, zachovávající 7,1 % a 33,1 % barevných rámců, a prokazuje zlepšenou celkovou přesnost oproti šedému InternVL-3.5-8B baseline, zatímco podstatně snižuje barevnou spotřebu ve srovnání s plnou barevnou nastavením.

Z těchto výsledků, autoři uvádějí:

‘Náš model s 33,1 % RGB rámců dosahuje celkového skóre 52,5, překonávající téměř všechny existující open-source online MLLM.

‘Porovnáním s základním modelem InternVL-3.5-8B s plnou RGB vstupní sekvencí (57,7), ColorTrigger dosahuje 52,5, zatímco snižuje RGB rámec spotřebu o 66,9 %, reprezentující pouze 5,2 bodový pokles celkového výkonu.

Reálné vizuální vnímání dosáhlo 65,2 – 11,4 bodový zisk oproti šedému baseline 53,8. I když omezený na pouhých 7,1 % RGB rámců (92,9% snížení), ColorTrigger udržel celkové skóre 50,4, zlepšující se o 2,5 bodu oproti šedému nastavení.

Nakonec, výzkumníci provedli test proti offline video úkolu (analytický úkol, který není navržen pro testování latence nebo jiných “živých” podmínek, pomocí Video-MME dlouhodobého video pochopení benchmarku:

Srovnávací výkon testovaných systémů na Video-MME benchmarku.

Srovnávací výkon testovaných systémů na Video-MME benchmarku.

Ve tomto testu, model dosáhl celkového skóre 66,1, zatímco spotřeboval 37,6 % RGB rámců, překonávající plnou barevnou InternVL-3.5-8B baseline skóre 65,6, přestože spotřeboval 62,4 % méně barevných rámců.

Autoři komentují:

‘Toto prokazuje, že náš adaptivní spouštěcí mechanismus nejen snižuje výpočetní náklady, ale může také zlepšit výkon, zaměřením RGB kapacity na sémanticky kritické momenty.

‘Zejména, ColorTrigger překonává všechny existující online MLLM, včetně TimeChat-Online-7B na 62,4 a Dispider-7B na 57,2, potvrzující účinnost kombinace kontinuální šedé kontextu s vybranou RGB akvizicí pro dlouhodobé video pochopení.’

Závěr

Vždy mě baví vidět inovace tohoto typu, nejen proto, že AI má vysoké a stále rostoucí potřebu (elektrické) energie, a je dobré vidět výzkum, který alespoň nepřímo řeší tuto problematiku.

Je cynicky uklidňující vědět, že úspory energie, které jsou dosaženy v takových snahách, jsou motivovány komerčními úvahami, protože tyto jsou méně pravděpodobně ovlivněny krátkodobými politickými rozhodnutími než ušlechtilejší, ale více ohrožené obavy nad úsporou energie a globálním oteplováním. Naštěstí je dosaženo stejného cíle, z různých důvodů.

 

* Vytvořeno mnou, pouze pro zobrazení hlavní myšlenky studie pro čtenáře.

Poprvé publikováno ve čtvrtek, 26. března 2026

Spisovatel o strojovém učení, doménový specialista na syntézu lidského obrazu. Bývalý vedoucí výzkumného obsahu ve společnosti Metaphysic.ai.
Osobní stránky: martinanderson.ai