Angle d’Anderson
Une ambiance des années 1970 pour la surveillance de l’IA à l’énergie

De nouvelles recherches montrent que la plupart des vidéos IA n’ont pas besoin de couleur du tout, l’activant uniquement à des moments clés et réduisant l’utilisation des données de plus de 90 % avec une perte d’exactitude minime.
Les caméras de streaming à distance et les autres appareils vidéo sans fil, alimentés par batterie, nécessitent des configurations de surveillance optimisées, car ils peuvent dépendre de sources d’alimentation instables, telles que le solaire, ou nécessiter des recharges périodiques, ou d’autres formes d’intervention humaine, dans des situations où, idéalement, personne ne devrait être présent.
Concomitamment à cette ligne de recherche, l’intérêt pour les accessoires équipés de caméras a également augmenté (même si de tels appareils étaient déjà étroitement contraints par les limites de puissance et de calcul), car l’IA de bord promet désormais de les rendre beaucoup plus utiles.
Au-delà de ces considérations, l’impulsion à long terme pour réduire les coûts de l’IA de bord et de la surveillance (en particulier dans les cas où ces économies n’ont pas besoin d’être transmises au client) font un cas de force pour l’innovation dans les approches de conservation de l’énergie pour les cas d’utilisation « de bord ».
Exprimez-vous
Dans le domaine de la vidéo-sensibilité en streaming, les appareils de surveillance de bord à ressources limitées doivent utiliser la moins de puissance possible, tout en dépensant suffisamment de ressources pour surveiller les événements « intéressants » – auquel cas, il vaudra la peine de dépenser plus de ressources.
En effet, c’est un cas d’utilisation similaire à celui des lumières à mouvement, qui fournissent de l’éclairage uniquement lorsque les capteurs à faible consommation d’énergie déterminent qu’il y a quelqu’un pour l’apprécier.
Depuis que la surveillance audio et la compression sont nettement moins gourmandes en ressources que la vidéo, plusieurs approches ces dernières années ont tenté d’utiliser des indices audio pour « activer » l’attention dans les systèmes contraints ; des cadres tels que Listen to Look et Egotrigger:

Dans le système Egotrigger, la déclenchement audio sélectif active la capture d’image à partir d’indices d’interaction main-objet, en réduisant les cadres redondants tout en préservant les performances de la mémoire épisodique dans les systèmes de lunettes intelligentes à ressources limitées. Source
Il est clair que l’audio n’est pas le médium idéal pour rechercher des événements visuels, puisque de nombreux événements essentiels peuvent ne pas avoir d’indice audio associé, ou peuvent survenir en dehors de la portée des microphones de bord.
Dormeur léger
Ce que pourrait être mieux, suggère une nouvelle étude, c’est un flux vidéo qui peut travailler avec l’IA pour augmenter les ressources dès qu’un événement surveillé se produit. La simulation ci-dessous * donne une idée générale du concept – une surveillance à basse résolution est maintenue au niveau de signal minimum nécessaire pour les cadres de détection d’objets pour fonctionner, et pour dire au système d’augmenter la résolution en raison du déclenchement d’un événement:
Une simulation du comportement souhaité – que le streaming et l’analyse fonctionnent à leur niveau de consommation de ressources le plus bas par défaut ; juste assez pour déclencher une consommation de ressources plus élevée lorsque des événements « intéressants » ou recherchés sont détectés dans le flux en noir et blanc. Le style de surveillance en noir et blanc peut être plutôt « rétro », mais il pourrait être un signe de ce qui est à venir. Cette vidéo a été créée par l’auteur uniquement à des fins d’illustration en relation avec les idées de base du nouveau document. Source:
Le nouveau travail, une collaboration académique entre diverses institutions du Royaume-Uni et Huawei, propose un schéma de surveillance de bord sans formation, facilité par l’IA, gris toujours, couleur à la demande – conçu pour fonctionner à faible utilisation de jetons lorsque aucun « événement clé » n’a lieu, et pour augmenter la consommation uniquement pour la durée de l’événement.
Dans les benchmarks de compréhension de la vidéo en streaming, le nouveau système, appelé ColorTrigger, a pu atteindre 91,6 % de la performance de référence en couleur tout en utilisant uniquement 8,1 % des trames RGB de ces normes:

Lorsque le modèle ne voit que la vidéo en noir et blanc, il confond les détails clés et donne des réponses incorrectes ; mais le déclenchement de la couleur aux bons moments élimine les ambiguïtés et corrige les erreurs déclenchées par les tâches qui dépendent de la couleur. Source
Le nouveau document s’intitule Couleur lorsqu’elle compte : déclenchement en ligne guidé par le gris pour la détection de vidéo en streaming toujours active, et provient de huit chercheurs issus de la Queen Mary University of London, de l’Université de Durham, de l’Imperial College London et du Huawei Noah’s Ark Lab. Le document dispose également d’une page de projet accompagnante.
Méthode
Pour préserver la structure temporelle dans le nouveau système, ColorTrigger maintient une surveillance en noir et blanc à faible bande passante. Un déclencheur en ligne causal analyse une fenêtre glissante (c’est-à-dire une plage de trames flexible autour d’un moment particulier, comme la détection d’un événement déclencheur) du flux à basse résolution:

La capture continue de RGB à haute résolution épuise rapidement la puissance, donc l’enregistrement s’arrête tôt et les moments clés peuvent être manqués. À l’inverse, ColorTrigger maintient un flux en noir et blanc à faible puissance en cours d’exécution en tout temps, et n’active la caméra RGB que à des moments sélectionnés – prolongeant ainsi le temps d’enregistrement, tout en capturant les détails visuels nécessaires pour répondre à des requêtes ultérieures. Source
Lorsque le système est en mode « passif » (c’est-à-dire qu’il n’a pas encore identifié d’événement déclencheur), son routeur de jetons dynamique alloue une capacité limitée à un décodeur asymétrique, toujours à la recherche de redondance, et d’événements indiquant de la nouveauté, auquel cas le flux de jetons répriorise la capacité sur la compression:

Schéma de ColorTrigger. Le système analyse une fenêtre glissante d’images récentes pour détecter la redondance et le changement, déclenchant la capture de RGB à haute résolution uniquement lorsque nécessaire, dans le cadre d’un budget basé sur les crédits. Un routeur de jetons dynamique alloue moins de jetons aux entrées en noir et blanc et plus aux trames RGB sélectionnées, en préservant l’ordre temporel pour le traitement ultérieur du modèle de langage multimodal (MLLM).
À chaque trame, le système doit décider si le moment actuel contient de nouvelles informations qui valent la peine d’être capturées en couleur. L’histoire récente des trames en noir et blanc dans la fenêtre glissante permet à ColorTrigger de comparer la trame actuelle à son passé immédiat. Chaque trame est convertie en une représentation de fonction compacte, et ces fonctions sont comparées les unes aux autres pour mesurer à quel point leurs trames hôtes sont similaires ou différentes.
Ce processus de comparaison est organisé dans une structure qui résume à quel point chaque trame chevauche les autres, capturant efficacement si la scène se répète ou change. Une étape d’optimisation légère attribue un score d’importance à chaque trame de la fenêtre, en faveur de la nouveauté.
Équilibre des couleurs
Pour éviter une utilisation excessive de la couleur, un système de « crédits » simple limite à quel point la couleur peut être déclenchée dans le temps. Les crédits s’accumulent progressivement et sont dépensés lorsque la couleur est demandée, garantissant que les périodes d’activité sont autorisées, mais que l’utilisation globale reste contrôlée. Une trame n’est « améliorée » en couleur que si elle est à la fois informative et si suffisamment de crédits sont disponibles.
Le routeur de jetons dynamique contrôle le niveau de détail de chaque trame, au lieu de traiter chaque trame à pleine qualité. Lorsque rien d’important n’est détecté, la trame en noir et blanc est maintenue à basse résolution et transformée en un ensemble compressé de jetons. Lorsqu’un moment important est détecté, le système bascule en couleur et traite cette trame à une résolution plus élevée, offrant une représentation plus riche et plus détaillée.
Les deux types de trames passent par le même modèle, mais les trames en noir et blanc sont traitées de manière plus légère, tandis que les trames de couleur sélectionnées reçoivent plus d’attention. Les sorties sont ensuite combinées dans leur ordre d’origine et envoyées au modèle sous forme de flux continu.
Étant donné que la plupart des trames restent légères et que seules quelques-unes sont améliorées, le système économise une grande quantité de calcul tout en capturant les détails clés lorsqu’ils sont importants:

À partir du document, un autre exemple où le système doit temporairement augmenter les ressources pour distinguer une couleur.
Données et tests
Pour tester le système, les chercheurs l’ont évalué par rapport aux benchmarks de vidéo en streaming StreamingBench et OVO-Bench, en évitant le traitement de contenu futur (qui constitue un danger potentiel dans les tests hors ligne).
Le modèle de langage multimodal (MLLM) gelé utilisé était InternVL3.5-8B-Instruct, avec le déclencheur causal mis en œuvre via CLIP ViT-B/16.
Le flux en noir et blanc était limité au canal de luminance dans l’espace de couleur CIELAB, conformément à travaux antérieurs, avec les trames en noir et blanc résultantes redimensionnées à 224x224px avant patchification (le découpage d’une image en blocs fixes de petite taille, de sorte que chaque bloc puisse être traité comme une unité distincte par le modèle).
Les trames RGB, en revanche, bénéficiaient d’un débit plus élevé et étaient traitées à 448x448px, produisant 256 jetons, contrairement aux 64 jetons produits pour les trames en noir et blanc.
Des outils d’optimisation courants ont été utilisés pour prendre les décisions du système: CVXPY (une bibliothèque Python pour la configuration des problèmes d’optimisation), et OSQP Solver (un algorithme rapide qui calcule quand déclencher la couleur).
La vidéo a été traitée à 1 image par seconde, avec une limite de 128 trames par clip, pour garder la computation faible.
Les systèmes propriétaires testés étaient Gemini 1.5 Pro ; GPT-4o ; et Claude 3.5 Sonnet. Les MLLM vidéo open source testés étaient LLaVA-OneVision-7B ; Video-LLaMA2-7B ; et Qwen2.5-VL-7B.
Les MLLM de streaming testés étaient Flash-VStream-7B ; VideoLLM-online-8B ; Dispider-7B ; et TimeChat-Online-7B.
InternVL-3.5-8B et Qwen3-VL-8B ont été testés dans diverses configurations, détaillées dans le premier tableau de résultats ci-dessous, concernant StreamingBench:

Performances sur StreamingBench pour les tâches de compréhension visuelle en temps réel, en comparant les MLLM propriétaires, open source et de streaming sous différents budgets de couleur. RGB (%) indique la proportion de trames conservées en couleur après déclenchement, où 100 désigne la couleur complète et 0 désigne l’entrée en noir et blanc uniquement. ColorTrigger est évalué à deux points de fonctionnement, en conservant 8,1 % et 34,3 % de trames de couleur, et démontre une précision globale améliorée par rapport à la référence de base en noir et blanc InternVL-3.5-8B, tout en réduisant considérablement l’utilisation de la couleur par rapport au réglage en couleur complète.
Ici, les auteurs commentent:
‘ColorTrigger atteint des performances compétitives sur la sous-tâche de compréhension visuelle en temps réel de StreamingBench.
‘Notre modèle avec 34,3 % de trames RGB obtient un score de 75,24, surpassant le modèle en ligne récent Dispider-7B et proche de TimeChat-Online-7B, tout en étant comparable aux modèles propriétaires tels que Gemini 1.5 Pro (75,69) et surpassant GPT-4o (73,28) et Claude 3.5 Sonnet (72,44).’
InternVL-3.5-8B a obtenu un score de 77,20 en utilisant la couleur complète, tandis que ColorTrigger a atteint un score de 75,24 en utilisant 65,7 % de trames RGB en moins – et même avec seulement 8,1 % de trames de couleur, il a obtenu un score de 70,72, surpassant la référence de base en noir et blanc de 62,08 de 8,64 %, et restant compétitif avec les autres modèles de streaming.
Ensuite, OVO-Bench a été testé:

Performances sur OVO-Bench dans trois catégories : perception visuelle en temps réel, traçage inverse et réponse active en avant, en comparant les MLLM propriétaires, open source et de streaming sous différents budgets de couleur. RGB (%) indique la proportion de trames conservées en couleur après déclenchement, où 100 désigne la couleur complète et 0 désigne l’entrée en noir et blanc uniquement. ColorTrigger est évalué à deux points de fonctionnement, en conservant 7,1 % et 33,1 % de trames de couleur, et montre une précision globale améliorée par rapport à la référence de base en noir et blanc InternVL-3.5-8B, tout en réduisant considérablement l’utilisation de la couleur par rapport au réglage en couleur complète.
À propos de ces résultats, les auteurs déclarent:
‘Notre modèle avec 33,1 % de trames RGB obtient un score global de 52,5, surpassant presque tous les MLLM open source en ligne existants. Par rapport au modèle de base InternVL-3.5-8B avec entrée RGB complète (57,7), ColorTrigger obtient un score de 52,5 tout en réduisant l’utilisation de trames RGB de 66,9 %, ce qui représente une baisse de performance de seulement 5,2 points.
‘Cette dégradation modeste est accompagnée de gains importants en termes d’efficacité, démontrant l’efficacité de notre stratégie de routage adaptatif.’
La perception visuelle en temps réel a atteint un score de 65,2 – un gain de 11,4 points par rapport à la référence de base en noir et blanc de 53,8. Même en étant limité à seulement 7,1 % de trames RGB (une réduction de 92,9 %), ColorTrigger a maintenu un score global de 50,4, améliorant le réglage en noir et blanc de 2,5 points.
Enfin, les chercheurs ont mené un test contre une tâche de vidéo hors ligne (une tâche analytique non conçue pour tester la latence ou d’autres conditions environnementales « en direct », en utilisant le benchmark de compréhension de la vidéo à long terme Video-MME:

Comparaison des performances des systèmes testés sur le benchmark Video-MME.
Dans ce test, le modèle a obtenu un score global de 66,1, tout en utilisant 37,6 % de trames RGB, surpassant le score de référence de base InternVL-3.5-8B de 65,6, malgré l’utilisation de 62,4 % de trames RGB en moins.
Les auteurs commentent:
‘Cela démontre que notre mécanisme de déclenchement adaptatif ne réduit pas seulement le coût de calcul, mais peut également améliorer les performances en concentrant la capacité RGB sur les moments sémantiquement critiques.
‘Notamment, ColorTrigger surpasse tous les MLLM en ligne existants, y compris TimeChat-Online-7B à 62,4 et Dispider-7B à 57,2, confirmant l’efficacité de la combinaison d’un contexte en noir et blanc continu avec une acquisition RGB sélective pour la compréhension de la vidéo à long terme.’
Conclusion
Je suis toujours ravi de voir des innovations de ce type, ne serait-ce que parce que les besoins élevés et croissants de l’IA en matière de puissance (électrique) ont produit des titres peu flatteurs pendant longtemps, et il est bon de voir des recherches qui abordent indirectement ce problème.
Il est cyniquement rassurant de savoir que les économies d’énergie réalisées dans ces incursions sont motivées par des considérations commerciales, puisque celles-ci sont moins susceptibles d’être affectées par les décisions politiques à court terme que les préoccupations plus nobles, mais plus vulnérables, liées à la conservation de l’énergie et au réchauffement climatique. Heureusement, la même fin est atteinte, pour des raisons différentes.
* Créé par moi, juste pour encapsuler l’idée du document pour le lecteur.
Publié pour la première fois jeudi 26 mars 2026












