Andersons Blickwinkel

Ein 1970er-Jahre-Vibe für energiebewusstes AI-Monitoring

Published March 26, 2026

Updated May 16, 2026

Martin Anderson

Excerpts from a video simulating a grayscale video stream activated by object detection – source: https://videos.pexels.com/video-files/36553218/15498630_2560_1440_25fps.mp4

Neue Forschungsergebnisse zeigen, dass die meisten Video-AI-Systeme keine Farbe benötigen, sondern diese nur in bestimmten Momenten aktivieren und so den Datenverbrauch um über 90 % reduzieren, ohne dass die Genauigkeit wesentlich beeinträchtigt wird.

Remote-Streaming-Kameras und andere nicht angeschlossene, batteriebetriebene Video-Geräte erfordern optimierte Überwachungssysteme, da sie möglicherweise auf unsichere Stromquellen wie Solar angewiesen sind oder regelmäßig aufgeladen werden müssen, oder andere Formen menschlicher Intervention erfordern, in Situationen, in denen idealerweise niemand anwesend sein sollte.

In Zusammenhang mit dieser Forschungsrichtung ist auch das Interesse an kameraausgestatteten Wearables gewachsen (obwohl solche Geräte bereits durch Leistungs- und Rechenlimits eingeschränkt waren), da Edge-AI nun verspricht, sie wesentlich nützlicher zu machen.

Darüber hinaus machen die langfristigen Anstrengungen, die Kosten für Edge-AI und Überwachung zu reduzieren (insbesondere in Fällen, in denen diese Einsparungen nicht an den Kunden weitergegeben werden müssen), einen überzeugenden Fall für Innovationen in energiebewussten Ansätzen für “Edge”-Anwendungsfälle.

Sound Off

Im Bereich des Streaming-Video-Sensing müssen ressourcenarme Edge-Überwachungsgeräte den geringstmöglichen Energieverbrauch nutzen, während sie gleichzeitig genug Energie aufwenden, um auf “interessante” Ereignisse zu achten – in diesem Moment lohnt es sich, mehr Ressourcen aufzuwenden.

Effektiv ist dies ein ähnlicher Anwendungsfall wie bei bewegungsaktiven Lichtern, die nur dann Licht spenden, wenn Low-Energy-Drain-Sensoren feststellen, dass jemand anwesend ist, der es zu schätzen weiß.

Da Audio-Überwachung und -Komprimierung wesentlich weniger ressourcenintensiv sind als Video, haben mehrere Ansätze in den letzten Jahren versucht, soundgetriebene Hinweise zu verwenden, um die Aufmerksamkeit in eingeschränkten Systemen zu “aktivieren”; Rahmenwerke wie Listen to Look und Egotrigger:

Im Egotrigger-System aktiviert die audiogetriebene Auslösung selektiv die Bildaufnahme aus Hand-Objekt-Interaktionshinweisen, reduziert redundante Frames und bewahrt die episodische Gedächtnisleistung in ressourcenbeschränkten Smart-Glasses-Systemen. Quelle

Es ist offensichtlich, dass Audio nicht das ideale Medium ist, um visuelle Ereignisse zu suchen, da viele wesentliche Ereignisse möglicherweise keine audiovisuellen Hinweise haben oder außer Reichweite von Edge-Mikrofonen liegen.

Light Sleeper

Was möglicherweise besser ist, wie ein neues Papier vorschlägt, ist ein Video-Stream, der mit AI zusammenarbeiten kann, um Ressourcen zu erhöhen, sobald ein beobachtetes Ereignis auftritt. Die Simulation unten* gibt eine allgemeine Vorstellung von dem Konzept – die low-resolution-Überwachung wird auf dem Mindestsignalniveau aufrechterhalten, das für Object-Detection-Rahmenwerke erforderlich ist, und um dem System zu sagen, die Auflösung aufgrund der Auslösung eines Ereignisses zu erhöhen:

Eine Simulation des gewünschten Verhaltens – dass Streaming und Analyse auf ihrem niedrigsten Ressourcenverbrauchsniveau standardmäßig ausgeführt werden; nur genug, um höheren Ressourcenverbrauch auszulösen, wenn “interessante” oder gesuchte Ereignisse im Graustufen-Stream erkannt werden. Der schwarzwiss-Überwachungsstil mag “retro” sein, aber er könnte ein Zeichen für die Zukunft sein. Dieses Video wurde vom Autor ausschließlich zu Illustrationszwecken in Bezug auf die Kernideen des neuen Papiers erstellt. Quelle:

Die neue Arbeit, eine akademische Zusammenarbeit zwischen verschiedenen britischen Institutionen und Huawei, schlägt ein trainingsfreies, AI-facilitiertes, grayscale-always, color-on-demand-Schema für Edge-Überwachung vor – konzipiert, um bei Abwesenheit von “Schlüsselereignissen” mit geringem Token-Verbrauch zu arbeiten und den Verbrauch nur für die Dauer des Ereignisses zu erhöhen.

Im Streaming-Video-Verständnis-Benchmark erreichte das neue System, genannt ColorTrigger, 91,6 % der Leistung des Vollfarben-Baselines, während es nur 8,1 % der RGB-Frames in diesen Standards verwendete:

Wenn das Modell nur Graustufen-Video sieht, verwechselt es wichtige Details und gibt falsche Antworten; aber die Auslösung von Farbe zum richtigen Zeitpunkt klärt das Bild auf und behebt Fehler, die durch Aufgaben verursacht werden, die von Farbe abhängen. Quelle

Das neue Papier trägt den Titel Farbe, wenn es zählt: Graustufen-gesteuerte Online-Auslösung für immer-ein-Streaming-Video-Sensing und stammt von acht Forschern aus der Queen Mary University of London, der Durham University, der Imperial College London und dem Huawei Noah’s Ark Lab. Das Papier hat auch eine begleitende Projektseite.

Methode

Um die zeitliche Struktur im neuen System zu erhalten, behält ColorTrigger eine konstante low-bandwidth-Graustufen-Überwachung bei. Ein kausaler Online-Trigger analysiert ein sliding window (d. h. einen flexiblen Plus-Minus-Bereich von Frames um einen bestimmten Zeitpunkt, wie z. B. die Erkennung eines Ereignis-Triggers) des low-resolution-Streams:

Kontinuierliche hochauflösende RGB-Aufnahme verbraucht schnell Energie, so dass die Aufnahme früh beendet wird und wichtige Momente verpasst werden können. Im Gegensatz dazu behält ColorTrigger einen low-power-Graustufen-Stream immer aktiv und aktiviert die RGB-Kamera nur in ausgewählten Momenten – verlängert die Aufnahmedauer, während gleichzeitig die visuellen Details erforderlich sind, um spätere Anfragen zu beantworten. Quelle

Während das System im “passiven” Modus ist (d. h., es hat noch kein Auslösungsereignis erkannt), weist sein dynamischer Token-Router eine begrenzte Kapazität einem asymmetrischen Decoder zu, der immer nach Redundanz und nach Ereignissen sucht, die Neuheit anzeigen, und die Token-Fluss priorisiert Kapazität über Komprimierung:

Schema für ColorTrigger. Das System überwacht eine sliding-window-Analyse von aktuellen Frames, um Redundanz und Änderung zu erkennen, und löst hochauflösende RGB-Aufnahme nur aus, wenn erforderlich, unter einem kreditbasierten Budget. Ein dynamischer Token-Router weist weniger Token zu Graustufen-Eingaben und mehr zu ausgewählten RGB-Frames zu, wodurch die zeitliche Reihenfolge für die nachgelagerte Multimodal Large Language Model (MLLM)-Verarbeitung erhalten bleibt.

Frame für Frame muss das System entscheiden, ob der aktuelle Moment neue Informationen enthält, die den Aufwand für die Farbaufnahme wert sind. Die kurze jüngste Geschichte von Graustufen-Frames im sliding window ermöglicht es ColorTrigger, den aktuellen Frame mit seinem unmittelbaren Vorherigen zu vergleichen. Jeder Frame wird in eine kompakte Feature-Darstellung umgewandelt, und diese Features werden miteinander verglichen, um zu messen, wie ähnlich oder unterschiedlich ihre Host-Frames sind.

Dieser Vergleichsprozess ist in einer Struktur organisiert, die zusammenfasst, wie viel jeder Frame mit den anderen überlappt, wodurch effektiv erfasst wird, ob die Szene sich wiederholt oder ändert. Ein leichter Optimierungsschritt weist jedem Frame im Fenster einen Wichtigkeitswert zu, wobei Neuheit bevorzugt wird.

Farbbalance

Um einen übermäßigen Farbverbrauch zu vermeiden, begrenzt ein einfaches “Kreditsystem” die Häufigkeit, mit der Farbe ausgelöst werden kann. Kredite sammeln sich allmählich an und werden aufgewendet, wenn Farbe angefordert wird, wodurch sichergestellt wird, dass Aktivitätsausbrüche zulässig sind, aber die Gesamtnutzung kontrolliert bleibt. Ein Frame wird nur “upgegradet” auf Farbe, wenn er sowohl informativ ist als auch wenn genügend Kredite verfügbar sind.

Der dynamische Token-Router steuert, wie viel Detail jeder Frame erhält, anstatt jeden Frame in voller Qualität zu verarbeiten. Wenn nichts Wichtiges erkannt wird, bleibt der Graustufen-Frame niedrig auflösend und wird in einen kleinen, komprimierten Satz von Token umgewandelt. Wenn ein wichtiges Ereignis erkannt wird, wechselt das System auf Farbe und verarbeitet diesen Frame in höherer Auflösung, wodurch eine reichhaltigere und detailliertere Darstellung angeboten wird.

Beide Arten von Frames werden durch das gleiche Modell verarbeitet, aber Graustufen-Frames werden auf eine leichtere Weise behandelt, während ausgewählte Farb-Frames mehr Aufmerksamkeit erhalten. Die Ausgaben werden dann in ihrer ursprünglichen Reihenfolge kombiniert und als kontinuierlicher Stream an das Modell gesendet.

Da die meisten Frames leicht bleiben und nur wenige “upgegradet” werden, spart das System eine große Menge an Rechenleistung, während es gleichzeitig die wichtigsten Details erfasst, wenn sie wichtig sind:

Aus dem Papier, ein weiteres Beispiel, in dem das System vorübergehend Ressourcen erhöhen muss, um eine Farbe zu unterscheiden.

Daten und Tests

Um das System zu testen, bewerteten die Forscher es gegen die StreamingBench– und OVO-Bench-Video-Benchmarks, wobei sie die Verarbeitung von zukünftigem Inhalt (ein potenzielles Risiko in Offline-Tests) vermieden.

Das eingefrorene Multimodal Large Language Model (MLLM) war InternVL3.5-8B-Instruct, mit dem kausalen Trigger, der über CLIP ViT-B/16 implementiert wurde.

Der Graustufen-Stream wurde auf den Luminanzkanal im CIELAB-Farbraum beschränkt, gemäß vorheriger Arbeit, wobei die resultierenden Graustufen-Frames auf 224x224px vor der Patchification (der Aufteilung eines Bildes in kleine feste Blöcke, so dass jeder Block als separate Einheit vom Modell verarbeitet werden kann) verkleinert wurden.

Die RGB-Frames hingegen hatten eine höhere Bitrate und wurden bei 448x448px verarbeitet, wodurch 256 Token produziert wurden, im Gegensatz zu den 64 Token, die für die Graustufen-Frames produziert wurden.

Übliche Optimierungstools wurden verwendet, um die Entscheidungen des Systems zu treffen: CVXPY (eine Python-Bibliothek zum Einrichten von Optimierungsproblemen) und OSQP Solver (ein schneller Algorithmus, der berechnet, wann Farbe ausgelöst werden soll).

Video wurde mit 1 Bild pro Sekunde verarbeitet, mit einer Obergrenze von 128 Frames pro Clip, um die Rechenleistung niedrig zu halten.

Proprietäre Systeme, die getestet wurden, waren Gemini 1.5 Pro; GPT-4o; und Claude 3.5 Sonnet. Open-Source-Video-MLLMs, die getestet wurden, waren LLaVA-OneVision-7B; Video-LLaMA2-7B; und Qwen2.5-VL-7B.

Streaming-MLLMs, die getestet wurden, waren Flash-VStream-7B; VideoLLM-online-8B; Dispider-7B; und TimeChat-Online-7B.

InternVL-3.5-8B und Qwen3-VL-8B wurden in verschiedenen Konfigurationen getestet, die im ersten Ergebnistabelle unten im Zusammenhang mit StreamingBench aufgeführt sind:

Leistung auf StreamingBench für Echtzeit-Visuelle-Verständnis-Aufgaben, Vergleich von proprietären, Open-Source- und Streaming-MLLMs unter verschiedenen Farbbudgets. RGB (%) gibt den Anteil der Frames an, die nach der Auslösung in Farbe gehalten werden, wobei 100 volle Farbe und 0 Graustufen-only-Eingabe darstellt. ColorTrigger wird bei zwei Betriebspunkten ausgewertet, wobei 8,1 % und 34,3 % Farb-Frames beibehalten werden, und zeigt eine verbesserte Gesamtnauigkeit im Vergleich zum Graustufen-InternVL-3.5-8B-Baseline, während gleichzeitig der Farbverbrauch im Vergleich zur Vollfarben-Einstellung wesentlich reduziert wird.

Hier kommentieren die Autoren:

‘ColorTrigger erreicht eine wettbewerbsfähige Leistung auf der Real-time-Visual-Understanding-Subtask von StreamingBench.

‘Unser Modell mit 34,3 % RGB-Frames erreicht einen Score von 75,24, übertrifft das aktuelle Online-Modell Dispider-7B und ist nahe an TimeChat-Online-7B, während es mit proprietären Modellen wie Gemini 1.5 Pro (75,69) vergleichbar ist und GPT-4o (73,28) und Claude 3.5 Sonnet (72,44) übertrifft.’

InternVL-3.5-8B erreichte mit voller Farbe einen Score von 77,20, während ColorTrigger mit 34,3 % RGB-Frames einen Score von 75,24 erreichte – und sogar mit nur 8,1 % Farb-Frames einen Score von 70,72, was den Graustufen-Baseline von 62,08 um 8,64 % übertraf und mit anderen Streaming-Modellen wettbewerbsfähig blieb.

Als nächstes wurde OVO-Bench getestet:

Leistung auf OVO-Bench in drei Kategorien: Echtzeit-Visuelle-Wahrnehmung, Rückverfolgung und Vorwärts-Aktives-Reagieren, Vergleich von proprietären, Open-Source- und Streaming-MLLMs unter verschiedenen Farbbudgets. RGB (%) gibt den Anteil der Frames an, die nach der Auslösung in Farbe gehalten werden, wobei 100 volle Farbe und 0 Graustufen-only-Eingabe darstellt. ColorTrigger wird bei zwei Betriebspunkten ausgewertet, wobei 7,1 % und 33,1 % Farb-Frames beibehalten werden, und zeigt eine verbesserte Gesamtnauigkeit im Vergleich zum Graustufen-InternVL-3.5-8B-Baseline, während gleichzeitig der Farbverbrauch im Vergleich zur Vollfarben-Einstellung wesentlich reduziert wird.

Über diese Ergebnisse sagen die Autoren:

‘Unser Modell mit 33,1 % RGB-Frames erreicht einen Gesamtscore von 52,5, übertrifft fast alle existierenden Open-Source-Online-MLLMs. Im Vergleich zum Basismodell InternVL-3.5-8B mit voller RGB-Eingabe (57,7) erreicht ColorTrigger einen Score von 52,5, während der RGB-Frame-Verbrauch um 66,9 % reduziert wird, was nur einen 5,2-Punkte-Rückgang in der Gesamtleistung darstellt.

‘Diese moderate Verschlechterung ist von wesentlichen Gewinnen in der Effizienz begleitet, was die Wirksamkeit unserer adaptiven Routing-Strategie unterstreicht.’

Echtzeit-Visuelle-Wahrnehmung erreichte 65,2 – ein 11,4-Punkte-Gewinn gegenüber dem Graustufen-only-Baseline von 53,8. Selbst bei nur 7,1 % RGB-Frames (einer 92,9 %-Reduktion) behielt ColorTrigger einen Gesamtscore von 50,4, was die Graustufen-Einstellung um 2,5 Punkte übertraf.

Schließlich führten die Forscher einen Test gegen eine Offline-Video-Aufgabe durch (eine analytische Aufgabe, die nicht dazu gedacht ist, Latenz oder andere “Live”-Umgebungsbedingungen zu testen, unter Verwendung des Video-MME-Langzeit-Video-Verständnis-Benchmarks:

Leistungsvergleich der getesteten Systeme auf dem Video-MME-Benchmark.

Bei diesem Test erreichte das Modell einen Gesamtscore von 66,1, während es 37,6 % RGB-Frames verwendete, und übertraf damit den vollfarbigen InternVL-3.5-8B-Baseline-Score von 65,6, obwohl es 62,4 % weniger Farb-Frames verwendete.

Die Autoren kommentieren:

‘Dies zeigt, dass unser adaptives Auslösungsmechanismus nicht nur den Rechenaufwand reduziert, sondern tatsächlich die Leistung verbessern kann, indem er die RGB-Kapazität auf semantisch kritische Momente konzentriert.

‘Bemerkenswerterweise übertrifft ColorTrigger alle existierenden Online-MLLMs, einschließlich TimeChat-Online-7B bei 62,4 und Dispider-7B bei 57,2, was die Wirksamkeit der Kombination von kontinuierlichem Graustufen-Kontext mit selektiver RGB-Aufnahme für das Langzeit-Video-Verständnis bestätigt.’

Fazit

Ich freue mich immer, wenn ich solche Innovationen sehe, nicht zuletzt, weil die hohe und immer größer werdende Nachfrage nach (elektrischer) Energie von AI in den letzten Jahren viele bedenkliche Schlagzeilen produziert hat, und es ist gut zu sehen, dass Forschung, die sich zumindest indirekt mit diesem Problem befasst, durchgeführt wird.

Es ist zynisch tröstlich zu wissen, dass die durch solche Ansätze erzielten Energieeinsparungen durch kommerzielle Überlegungen motiviert sind, da diese weniger anfällig für kurzfristige politische Entscheidungen sind als die edleren, aber angreifbareren Sorgen über Energiekonservierung und globale Erwärmung. Zum Glück wird dasselbe Ziel durch unterschiedliche Gründe erreicht.

* Erstellt von mir, nur um die Idee des Papiers für den Leser zu erfassen.

Erstveröffentlichung am Donnerstag, 26. März 2026