Surveillance

L’IA découvre l’activité secrète révélée par les murs vides

Published September 9, 2021

Updated April 28, 2026

Martin Anderson

Une collaboration de recherche, comprenant des contributeurs de NVIDIA et du MIT, a développé une méthode d’apprentissage automatique qui peut identifier des personnes cachées simplement en observant l’éclairage indirect sur un mur voisin, même lorsque les personnes ne sont pas près des sources de lumière. La méthode a une précision proche de 94 % lorsqu’elle tente d’identifier le nombre de personnes cachées, et peut également identifier l’activité spécifique d’une personne cachée en amplifiant massivement les rebonds de lumière qui sont invisibles à l’œil humain et aux méthodes standard d’amplification d’images.

Perturbations imperceptibles de la lumière, amplifiées par la nouvelle méthode, qui utilise des réseaux de neurones convolutifs pour identifier les zones de changement. Source : https://www.youtube.com/watch?v=K4PapXyX-bI

Le nouveau document est intitulé Ce que vous pouvez apprendre en regardant un mur vide, avec des contributions de NVIDIA et du MIT, ainsi que de l’Institut de technologie d’Israël.

Les approches antérieures pour « voir autour des murs » ont reposé sur des sources de lumière contrôlables ou des connaissances préalables de sources connues d’occlusion, alors que la nouvelle technique peut se généraliser à toute nouvelle pièce, sans nécessité de recalibration. Les deux réseaux de neurones convolutifs qui individuent les personnes cachées ont utilisé des données obtenues à partir de seulement 20 scènes.

Le projet est destiné à des situations à haut risque, critiques en matière de sécurité, pour les opérations de recherche et de sauvetage, les tâches de surveillance générales de la police, les scénarios de réponse d’urgence, pour la détection de chutes chez les personnes âgées, et comme moyen de détecter les piétons cachés pour les véhicules autonomes.

Évaluation passive

Comme c’est souvent le cas avec les projets de vision par ordinateur, la tâche centrale était d’identifier, de classer et d’exploiter les changements d’état perçus dans un flux d’images. La concaténation des changements conduit à des modèles de signature qui peuvent être utilisés pour identifier un nombre d’individus ou pour détecter l’activité d’un ou plusieurs individus.

Le travail ouvre la possibilité d’une évaluation de scène complètement passive, sans nécessité d’utiliser des surfaces réfléchissantes, signaux Wi-Fi, radar, son ou tout autre « circonstance spéciale » requise dans d’autres efforts de recherche de ces dernières années qui ont cherché à établir la présence humaine cachée dans un environnement dangereux ou critique.

Un scénario de collecte de données de type utilisé pour la nouvelle recherche. Les sujets sont soigneusement positionnés pour ne pas projeter d’ombres ou pour ne pas occulter directement les lumières, et aucune surface réfléchissante ou autre « vecteur de triche » n’est autorisée. Source : https://arxiv.org/pdf/2108.13027.pdf

En effet, la lumière ambiante pour le scénario typique envisagé pour l’application submergerait toute perturbation mineure causée par la lumière réfléchie des personnes cachées ailleurs dans la scène. Les chercheurs calculent que la contribution de perturbation de lumière des individus serait généralement inférieure à 1 % de la lumière visible totale.

Suppression de l’éclairage statique

Pour extraire le mouvement d’une image de mur apparemment statique, il est nécessaire de calculer la moyenne temporelle de la vidéo et de la supprimer de chaque trame. Les modèles de mouvement résultants sont généralement en dessous du seuil de bruit même des équipements vidéo de bonne qualité, et en effet, une grande partie du mouvement se produit dans un espace de pixel négatif.

Pour remédier à cela, les chercheurs échantillonnent la vidéo à un facteur de 16 et mettent à l’échelle la vidéo résultante à un facteur de 50, tout en ajoutant un niveau de gris moyen pour discerner la présence de pixels négatifs (qui ne pouvaient pas être comptabilisés par le bruit de base du capteur de vidéo).

La différence entre le mur perçu par l’homme et la perturbation extraite des individus cachés. Puisque la qualité de l’image est une question centrale dans cette recherche, veuillez vous référer à la vidéo officielle à la fin de l’article pour une image de meilleure qualité.

La fenêtre d’opportunité pour percevoir le mouvement est très fragile et peut être affectée même par le flicker des lumières à une fréquence de 60 Hz. Par conséquent, cette perturbation naturelle doit également être évaluée et supprimée de la vidéo avant que le mouvement induit par la personne ne se manifeste.

Enfin, le système produit des tracés espace-temps qui signalent un nombre spécifique d’habitants de la pièce cachée – des signatures visuelles discrètes :

Tracés espace-temps de signature représentant différents nombres de personnes cachées dans une pièce.

Différentes activités humaines entraîneront également des perturbations de signature qui peuvent être classées et reconnues par la suite :

Les tracés espace-temps de signature pour l’inactivité, la marche, l’accroupissement, les mains qui font des signes et le saut.

Pour produire un flux de travail automatisé basé sur l’apprentissage automatique pour la reconnaissance de personnes cachées, des images variées provenant de 20 scénarios appropriés ont été utilisées pour former deux réseaux de neurones opérant sur des configurations largement similaires – l’un pour compter le nombre de personnes dans une scène, et l’autre pour identifier tout mouvement se produisant.

Test

Les chercheurs ont testé le système formé dans dix environnements réels non vus conçus pour recréer les limitations anticipées pour le déploiement final. Le système a pu atteindre une précision allant jusqu’à 94,4 % (sur 256 trames – généralement un peu plus de 8 secondes de vidéo) pour classer le nombre de personnes cachées, et jusqu’à 93,7 % de précision (dans les mêmes conditions) pour classer les activités. Même si la précision diminue avec moins de trames source, ce n’est pas une diminution linéaire, et même 64 trames atteindront un taux de précision de 79,4 % pour l’évaluation du « nombre de personnes » (contre près de 95 % pour quatre fois le nombre de trames).

Même si la méthode est robuste aux changements de luminosité basés sur les conditions météorologiques, elle a du mal dans une scène éclairée par une télévision, ou dans des circonstances où les personnes portent des vêtements monochromes de la même couleur que le mur réfléchissant.

Plus de détails sur la recherche, y compris des images de meilleure qualité des extractions, peuvent être vus dans la vidéo officielle ci-dessous.

Unite.AI

L’IA découvre l’activité secrète révélée par les murs vides

Évaluation passive

Suppression de l’éclairage statique

Test

You may like