Connect with us

Nastrój z lat 70. w monitorowaniu AI przy oszczędnościach energii

Kąt Andersona

Nastrój z lat 70. w monitorowaniu AI przy oszczędnościach energii

mm
Excerpts from a video simulating a grayscale video stream activated by object detection – source: https://videos.pexels.com/video-files/36553218/15498630_2560_1440_25fps.mp4

Naukowcy odkryli, że większość sztucznej inteligencji wideo nie potrzebuje koloru, uruchamiając go tylko w kluczowych momentach i zmniejszając zużycie danych o ponad 90% z niewielką stratą dokładności.

 

Kamery strumieniowe i inne urządzenia wideo zasilane bateriami wymagają optymalizacji monitorowania, ponieważ mogą polegać na niestabilnych źródłach zasilania, takich jak energia słoneczna, lub wymagać okresowego ładowania, lub innych form interwencji ludzkiej, w sytuacjach, w których idealnie nie powinno być nikogo.

Wraz z tym kierunkiem badań, zwiększył się również zainteresowanie urządzeniami noszonymi wyposażonymi w kamery , które również były ograniczone przez limity mocy i obliczeń, ponieważ sztuczna inteligencja krawędziowa obiecuje uczynić je znacznie bardziej użytecznymi.

Ponadto, długoterminowa motywacja do redukcji kosztów sztucznej inteligencji krawędziowej i monitorowania (szczególnie w przypadkach, w których takie oszczędności nie muszą być przenoszone na klienta) stanowi przekonywujący argument za innowacjami w zakresie oszczędności energii dla przypadków użycia “krawędziowych”.

Głośno

W dziedzinie transmisji wideo, urządzenia monitorowania krawędziowego z ograniczonymi zasobami muszą używać jak najmniej energii, jednocześnie wydając wystarczającą moc, aby monitorować “interesujące” zdarzenia – w którym momencie warto wydać więcej zasobów.

Skutecznie, jest to podobny przypadek, jak w przypadku lamp ruchowych, które świecą tylko wtedy, gdy czujniki niskiego zużycia energii wykrywają kogoś w pobliżu.

Od kilku lat próbowano wykorzystywać dźwiękowe sygnały, aby “włączyć” uwagę w systemach ograniczonych; ramy takie jak Listen to Look i Egotrigger:

W systemie Egotrigger, audio-wywołany wyzwalacz selektywnie aktywuje przechwytywanie obrazu z wskazówek interakcji ręki i obiektu, redukując zbędne klatki, jednocześnie zachowując pamięć epizodyczną w systemach okularów inteligentnych o ograniczonych zasobach. Źródło - https://arxiv.org/pdf/2508.01915

W systemie Egotrigger, audio-wywołany wyzwalacz selektywnie aktywuje przechwytywanie obrazu z wskazówek interakcji ręki i obiektu, redukując zbędne klatki, jednocześnie zachowując pamięć epizodyczną w systemach okularów inteligentnych o ograniczonych zasobach. Źródło

Jasne, że dźwięk nie jest idealnym medium do wyszukiwania zdarzeń wizualnych, ponieważ wiele takich zdarzeń może nie mieć żadnych dźwiękowych sygnałów lub może wystąpić poza zasięgiem mikrofonów krawędziowych.

Śpiący lekko

Co mogłoby być lepsze, sugeruje nowy artykuł, to strumień wideo, który mógłby współpracować ze sztuczną inteligencją, aby zwiększyć zasoby, gdy tylko zostanie wykryte zdarzenie. Poniższa symulacja daje ogólne pojęcie o tym konceptie – niskiej rozdzielczości monitorowania utrzymywane jest na minimalnym poziomie sygnału niezbędnym do wykrywania obiektów i powiadomienia systemu o zwiększeniu rozdzielczości z powodu wykrycia zdarzenia:

Symulacja pożądanego zachowania – strumień i analiza działają na najniższym poziomie zużycia zasobów domyślnie; wystarczająco, aby wyzwolić większe zużycie zasobów, gdy “interesujące” lub poszukiwane zdarzenia są wykrywane w strumieniu w odcieniach szarości. Styl nadzoru w odcieniach szarości może być dość “retro”, ale może być znakiem tego, co ma nadejść. To wideo zostało stworzone przez autora wyłącznie w celu ilustracji pomysłu artykułu. Źródło

Nowa praca, współpraca akademicka między różnymi instytucjami w Wielkiej Brytanii i Huawei, proponuje schemat bezszkoleniowy, ułatwiony przez sztuczną inteligencję, odcień szarości zawsze, kolor na żądanie dla monitorowania krawędziowego – zaprojektowany do pracy na niskim zużyciu tokenów, gdy nie występują “kluczowe” zdarzenia, i do zwiększenia zużycia tylko na czas trwania zdarzenia.

W benchmarkach strumieniowego wideo, nowy system, nazwany ColorTrigger, osiągnął 91,6% wydajności pełnego koloru, używając tylko 8,1% klatek RGB w tych standardach:

Gdy model widzi tylko strumień w odcieniach szarości, myli kluczowe szczegóły i daje błędne odpowiedzi; ale wyzwalanie koloru w odpowiednich momentach rozróżnia obraz i naprawia błędy spowodowane przez zadania, które zależą od koloru. Źródło - https://lvgd.github.io/ColorTrigger/

Gdy model widzi tylko strumień w odcieniach szarości, myli kluczowe szczegóły i daje błędne odpowiedzi; ale wyzwalanie koloru w odpowiednich momentach rozróżnia obraz i naprawia błędy spowodowane przez zadania, które zależą od koloru. Źródło

Artykuł nowy nosi tytuł Kolor, kiedy się liczy: półtonowy, online wyzwalacz dla zawsze włączonego strumieniowego wideo i pochodzi od ośmiu badaczy z Queen Mary University of London, Durham University, Imperial College London i Huawei Noah’s Ark Lab. Artykuł ma również towarzyszącą stronę projektu.

Metoda

Aby zachować strukturę czasową w nowym systemie, ColorTrigger utrzymuje stałe, niskopasmowe monitorowanie w odcieniach szarości. Przyczynowy, online wyzwalacz analizuje okno przesuwne (tj. elastyczny zakres klatek wokół określonego momentu, takiego jak wykrycie zdarzenia) niskiej rozdzielczości strumienia:

Ciągłe przechwytywanie klatek RGB w wysokiej rozdzielczości szybko wyczerpuje moc, więc nagrywanie kończy się wcześnie i kluczowe momenty mogą być pominięte. Odwrotnie, ColorTrigger utrzymuje strumień w odcieniach szarości włączony przez cały czas i aktywuje kamerę RGB tylko w wybranych momentach – przedłużając czas nagrywania, jednocześnie przechwytując wizualne szczegóły niezbędne do późniejszych zapytań. Źródło - https://arxiv.org/pdf/2603.22466

Ciągłe przechwytywanie klatek RGB w wysokiej rozdzielczości szybko wyczerpuje moc, więc nagrywanie kończy się wcześnie i kluczowe momenty mogą być pominięte. Odwrotnie, ColorTrigger utrzymuje strumień w odcieniach szarości włączony przez cały czas i aktywuje kamerę RGB tylko w wybranych momentach – przedłużając czas nagrywania, jednocześnie przechwytując wizualne szczegóły niezbędne do późniejszych zapytań. Źródło

Gdy system jest w trybie “biernym” (tj. nie wykrył jeszcze zdarzenia wyzwalającego), jego dynamiczny router tokenów przydziela ograniczoną pojemność do asymetrycznego dekodera, zawsze szukając redundancji i zdarzeń wskazujących na nowość, w którym momencie przepływ tokenów ponownie ustala priorytet pojemności nad kompresją:

Schemat ColorTrigger. System monitoruje analizę okna przesuwnego ostatnich klatek, aby wykryć redundancję i zmianę, wyzwalając przechwytywanie klatek RGB w wysokiej rozdzielczości tylko wtedy, gdy jest to potrzebne, w ramach budżetu opartego na kredytach. Dynamiczny router tokenów przydziela mniej tokenów do wejść w odcieniach szarości i więcej do wybranych klatek RGB, zachowując kolejność czasową do dalszego przetwarzania modelu Multimodal Large Language Model (MLLM).

Schemat ColorTrigger. System monitoruje analizę okna przesuwnego ostatnich klatek, aby wykryć redundancję i zmianę, wyzwalając przechwytywanie klatek RGB w wysokiej rozdzielczości tylko wtedy, gdy jest to potrzebne, w ramach budżetu opartego na kredytach. Dynamiczny router tokenów przydziela mniej tokenów do wejść w odcieniach szarości i więcej do wybranych klatek RGB, zachowując kolejność czasową do dalszego przetwarzania modelu Multimodal Large Language Model (MLLM).

Klatka po klatce, system musi decydować, czy bieżący moment zawiera nowe informacje, które warto przechwycić w kolorze. Krótka, niedawna historia klatek w odcieniach szarości w oknie przesuwnym pozwala ColorTrigger porównać bieżącą klatkę z natychmiastową przeszłością. Każda klatka jest przekształcana w kompaktne przedstawienie cech, a te cechy są porównywane ze sobą, aby zmierzyć, jak bardzo są podobne lub różne ich hostujące klatki.

Ten proces porównywania jest zorganizowany w strukturze, która podsumowuje jak bardzo każda klatka nakłada się na inne, efektywnie przechwytując, czy scena się powtarza, czy zmienia. Lekki krok optymalizacji przypisuje wagę ważności do każdej klatki w oknie, faworyzując nowość.

Bilans koloru

Aby zapobiec nadmiernemu użyciu koloru, prosta “system kredytowy” ogranicza, jak często kolor może być wyzwalany w czasie. Kredyty gromadzą się stopniowo i są wydatkowane, gdy kolor jest wymagany, zapewniając, że serie aktywności są dozwolone, ale ogólne użycie pozostaje kontrolowane. Klatka jest “uaktualniana” do koloru tylko wtedy, gdy jest zarówno informacyjna, jak i gdy są dostępne wystarczające kredyty.

Dynamiczny router tokenów kontroluje, jaki detal każda klatka otrzymuje, zamiast przetwarzania każdej klatki w pełnej jakości. Gdy nic ważnego nie jest wykrywane, klatka w odcieniach szarości jest utrzymywana w niskiej rozdzielczości i przekształcana w mały, skompresowany zestaw tokenów. Gdy wykrywane jest ważne zdarzenie, system przełącza się na kolor i przetwarza tę klatkę w wyższej rozdzielczości, oferując bogatsze i bardziej szczegółowe przedstawienie.

Oba typy klatek przechodzą przez ten sam model, ale klatki w odcieniach szarości są obsługiwane w lżejszy sposób, podczas gdy wybrane klatki koloru są traktowane z większą uwagą. Wyjścia są następnie łączone w ich oryginalnej kolejności i wysyłane do modelu jako ciągły strumień.

Ponieważ większość klatek pozostaje lekka i tylko niektóre są uaktualniane, system zaoszczędza dużo obliczeń, zachowując jednocześnie kluczowe szczegóły, gdy są one ważne:

Z artykułu, kolejny przykład, w którym system wymaga tymczasowego zwiększenia zasobów, aby odróżnić kolor.

Z artykułu, kolejny przykład, w którym system wymaga tymczasowego zwiększenia zasobów, aby odróżnić kolor.

Dane i testy

Aby przetestować system, badacze oceniali go w stosunku do StreamingBench i OVO-Bench benchmarków wideo, unikając przetwarzania przyszłych treści (co jest potencjalnym zagrożeniem w testach offline).

Użyty zamrożony model Multimodal Large Language Model (MLLM) to InternVL3.5-8B-Instruct, z przyczynowym wyzwalaczem wdrożonym za pomocą CLIP ViT-B/16.

Strumień w odcieniach szarości był ograniczony do kanału luminancji w przestrzeni kolorów CIELAB, zgodnie z poprzednimi badaniami, a wynikowe klatki w odcieniach szarości zostały przeskalowane do 224x224px przed podziałem na fragmenty (podział obrazu na małe, stałe bloki, tak aby każdy blok mógł być przetworzony jako oddzielna jednostka przez model).

Klatki RGB, z drugiej strony, korzystały z wyższego bitrate’u i były przetwarzane w rozdzielczości 448x448px, wytwarzając 256 tokenów, w przeciwieństwie do 64 tokenów wytwarzanych dla klatek w odcieniach szarości.

Powszechnie używane narzędzia optymalizacyjne zostały wykorzystane do podjęcia decyzji systemu: CVXPY (biblioteka Pythona do ustawiania problemów optymalizacyjnych) i OSQP Solver (szybki algorytm, który oblicza, kiedy wyzwalać kolor).

Wideo było przetwarzane z prędkością 1 klatki na sekundę, z limitem 128 klatek na klip, aby utrzymać niskie obliczenia.

Testowane systemy własnościowe to Gemini 1.5 Pro; GPT-4o; i Claude 3.5 Sonnet. Testowane modele wideo MLLM open source to LLaVA-OneVision-7B; Video-LLaMA2-7B; i Qwen2.5-VL-7B.

Testowane strumieniowe modele MLLM to Flash-VStream-7B; VideoLLM-online-8B; Dispider-7B; i TimeChat-Online-7B.

InternVL-3.5-8B  i Qwen3-VL-8B zostały przetestowane w różnych konfiguracjach, szczegółowo opisanych w pierwszej tabeli wyników poniżej, dotyczącej StreamingBench:

Wydajność na StreamingBench dla zadań zrozumienia wizualnego w czasie rzeczywistym, porównując modele własnościowe, open-source i strumieniowe MLLM pod różnymi budżetami koloru. RGB (%) wskazuje udział klatek przechowywanych w kolorze po wyzwaleniu, gdzie 100 oznacza pełny kolor, a 0 oznacza tylko klatki w odcieniach szarości. ColorTrigger jest oceniany w dwóch punktach roboczych, zachowując 8,1% i 34,3% klatek koloru, i wykazuje poprawioną ogólną dokładność w porównaniu z podstawowym modelem InternVL-3.5-8B w odcieniach szarości, jednocześnie znacznie redukując użycie koloru w porównaniu z pełnym ustawieniem koloru.

Wydajność na StreamingBench dla zadań zrozumienia wizualnego w czasie rzeczywistym, porównując modele własnościowe, open-source i strumieniowe MLLM pod różnymi budżetami koloru. ColorTrigger jest oceniany w dwóch punktach roboczych, zachowując 8,1% i 34,3% klatek koloru, i wykazuje poprawioną ogólną dokładność w porównaniu z podstawowym modelem InternVL-3.5-8B w odcieniach szarości, jednocześnie znacznie redukując użycie koloru w porównaniu z pełnym ustawieniem koloru.

Tu autorzy komentują:

‘ColorTrigger osiąga konkurencyjną wydajność w zadaniu zrozumienia wizualnego w czasie rzeczywistym w ramach StreamingBench.

‘Nasza wersja z 34,3% klatek RGB osiąga wynik 75,24, przewyższając niedawny model online Dispider-7B i zbliżony do TimeChat-Online-7B, podczas gdy jest porównywalny do modeli własnościowych, takich jak Gemini 1.5 Pro (75,69) i przewyższa GPT-4o (73,28) i Claude 3.5 Sonnet (72,44).’

InternVL-3.5-8B osiągnął wynik 77,20 przy użyciu pełnego koloru, podczas gdy ColorTrigger osiągnął 75,24, używając 65,7% mniej klatek RGB – i nawet z tylko 8,1% klatek koloru, osiągnął 70,72, przewyższając podstawowy model w odcieniach szarości o 8,64%, i pozostając konkurencyjnym w stosunku do innych modeli strumieniowych.

Następnie przetestowano OVO-Bench:

Wydajność na OVO-Bench w trzech kategoriach: percepcja wizualna w czasie rzeczywistym, śledzenie wsteczne i odpowiedź aktywna do przodu, porównując modele własnościowe, open-source i strumieniowe MLLM pod różnymi budżetami koloru. RGB (%) wskazuje udział klatek przechowywanych w kolorze po wyzwaleniu, gdzie 100 oznacza pełny kolor, a 0 oznacza tylko klatki w odcieniach szarości. ColorTrigger jest oceniany w dwóch punktach roboczych, zachowując 7,1% i 33,1% klatek koloru, i wykazuje poprawioną ogólną dokładność w porównaniu z podstawowym modelem InternVL-3.5-8B w odcieniach szarości, jednocześnie znacznie redukując użycie koloru w porównaniu z pełnym ustawieniem koloru.

Wydajność na OVO-Bench w trzech kategoriach: percepcja wizualna w czasie rzeczywistym, śledzenie wsteczne i odpowiedź aktywna do przodu, porównując modele własnościowe, open-source i strumieniowe MLLM pod różnymi budżetami koloru. ColorTrigger jest oceniany w dwóch punktach roboczych, zachowując 7,1% i 33,1% klatek koloru, i wykazuje poprawioną ogólną dokładność w porównaniu z podstawowym modelem InternVL-3.5-8B w odcieniach szarości, jednocześnie znacznie redukując użycie koloru w porównaniu z pełnym ustawieniem koloru.

Z tych wyników autorzy stwierdzają:

‘Nasza wersja z 33,1% klatek RGB osiąga wynik 52,5, przewyższając prawie wszystkie istniejące modele MLLM open-source. W porównaniu z modelem podstawowym InternVL-3.5-8B z pełnym wejściem RGB (57,7), ColorTrigger osiąga wynik 52,5, redukując użycie klatek RGB o 66,9%, co oznacza spadek wydajności o tylko 5,2 punkty.

‘Ten umiarkowany spadek jest współgrany z znacznymi zyskami w wydajności, demonstrując skuteczność naszej strategii routingu adaptacyjnego.’

Percepcja wizualna w czasie rzeczywistym osiągnęła wynik 65,2 – zyskując 11,4 punkty w porównaniu z podstawowym modelem w odcieniach szarości o wyniku 53,8. Nawet z ograniczeniem do tylko 7,1% klatek RGB (co oznacza redukcję o 92,9%), ColorTrigger utrzymał wynik 50,4, poprawiając ustawienie w odcieniach szarości o 2,5 punkty.

W końcu badacze przeprowadzili test przeciwko zadaniu wideo offline (zadaniu analitycznemu niezwiązanemu z testowaniem opóźnień lub innych “na żywo” warunków środowiskowych), wykorzystując benchmark Video-MME:

Porównanie wydajności systemów testowych na benchmarku Video-MME.

Porównanie wydajności systemów testowych na benchmarku Video-MME.

W tym teście model osiągnął wynik 66,1, używając 37,6% klatek RGB, przewyższając wynik modelu podstawowego InternVL-3.5-8B o 65,6, pomimo użycia 62,4% mniej klatek koloru.

Autorzy komentują:

‘To demonstruje, że nasz mechanizm wyzwalania adaptacyjnego nie tylko redukuje koszt obliczeniowy, ale może również poprawić wydajność, koncentrując pojemność RGB na semantycznie krytycznych momentach.

‘Godne uwagi jest, że ColorTrigger przewyższa wszystkie istniejące modele MLLM online, w tym TimeChat-Online-7B o wyniku 62,4 i Dispider-7B o wyniku 57,2, potwierdzając skuteczność łączenia ciągłego kontekstu w odcieniach szarości z selektywnym przechwytywaniem koloru dla zrozumienia wideo długiego.’

Wnioski

Zawsze cieszę się, widząc innowacje tego typu, nie tylko dlatego, że wysokie i coraz większe zapotrzebowanie sztucznej inteligencji na energię elektryczną produkowało ponure nagłówki przez długi czas, ale także dlatego, że jest dobrze widzieć badania, które przynajmniej pośrednio dotykają tego problemu.

To cynicznie pocieszające, aby wiedzieć, że oszczędności energii w takich przypadkach są motywowane względami komercyjnymi, ponieważ są one mniej podatne na krótkoterminowe decyzje polityczne niż szlachetniejsze, ale bardziej podatne na uwagi dotyczące oszczędności energii i globalnego ocieplenia. Na szczęście, ten sam efekt jest osiągany, choć z innych powodów.

 

* Stworzone przeze mnie, po prostu aby ująć pomysł artykułu dla czytelnika.

Pierwotnie opublikowane w czwartek, 26 marca 2026

Pisarz na temat uczenia maszynowego, specjalista ds. syntezowania obrazów ludzi. Były kierownik treści badawczych w Metaphysic.ai.