Intelligence artificielle
Les ‘routes secrètes’ qui peuvent déjouer les systèmes de reconnaissance des piétons

Une nouvelle collaboration de recherche entre Israël et le Japon soutient que les systèmes de détection des piétons possèdent des faiblesses inhérentes, permettant aux individus bien informés d’éviter les systèmes de reconnaissance faciale en naviguant soigneusement à travers les zones où les réseaux de surveillance sont les moins efficaces.
Avec l’aide de vidéos publiques de Tokyo, New York et San Francisco, les chercheurs ont développé une méthode automatisée de calcul de tels itinéraires, basée sur les systèmes de reconnaissance d’objets les plus populaires susceptibles d’être utilisés dans les réseaux publics.

Les trois intersections utilisées dans l’étude : Shibuya Crossing à Tokyo, Japon ; Broadway, New York ; et Castro District, San Francisco. Source : https://arxiv.org/pdf/2501.15653
En utilisant cette méthode, il est possible de générer des cartes de chaleur de confiance qui délimitent les zones à l’intérieur du flux de la caméra où les piétons sont les moins susceptibles de fournir un résultat de reconnaissance faciale positif :

À droite, nous voyons la carte de chaleur de confiance générée par la méthode des chercheurs. Les zones rouges indiquent une faible confiance, et une configuration de position, de pose de caméra et d’autres facteurs qui sont susceptibles de gêner la reconnaissance faciale.
En théorie, une telle méthode pourrait être instrumentalisée dans une application de localisation ou dans une autre plateforme pour diffuser les itinéraires les moins « reconnaissables » de A à B dans n’importe quelle localisation calculée.
La nouvelle étude propose une telle méthodologie, intitulée Technique d’amélioration de la confidentialité basée sur la localisation (L-PET) ; elle propose également une contre-mesure intitulée Seuil adaptatif basé sur la localisation (L-BAT), qui utilise essentiellement les mêmes routines, mais utilise ensuite les informations pour renforcer et améliorer les mesures de surveillance, au lieu de concevoir des moyens pour éviter d’être reconnu ; et dans de nombreux cas, de telles améliorations ne seraient pas possibles sans un investissement supplémentaire dans les infrastructures de surveillance.
L’étude pose donc un potentiel conflit technologique d’escalade entre ceux qui cherchent à optimiser leurs itinéraires pour éviter la détection et la capacité des systèmes de surveillance à utiliser pleinement les technologies de reconnaissance faciale.
Les méthodes antérieures pour déjouer la détection sont moins élégantes que celle-ci et reposent sur des approches adverses, telles que TnT Attacks, et l’utilisation de motifs imprimés pour confondre l’algorithme de détection.

Le travail de 2019 « Fooling automated surveillance cameras : adversarial patches to attack person detection » a démontré un motif imprimé adverse capable de convaincre un système de reconnaissance qu’aucune personne n’est détectée, permettant une sorte d’« invisibilité ». Source : https://arxiv.org/pdf/1904.08653
Les chercheurs derrière la nouvelle étude observent que leur approche nécessite moins de préparation, sans besoin de concevoir des accessoires adverses portables (voir image ci-dessus).
Le document est intitulé Une technique d’amélioration de la confidentialité pour éviter la détection par les caméras de vidéo de rue sans utiliser d’accessoires adverses, et provient de cinq chercheurs issus de l’Université Ben-Gurion du Néguev et de Fujitsu Limited.
Méthode et tests
Conformément aux travaux précédents tels que Adversarial Mask, AdvHat, adversarial patches, et divers autres travaux similaires, les chercheurs supposent que le « piéton attaquant » connaît quel système de détection d’objets est utilisé dans le réseau de surveillance. Ce n’est en fait pas une hypothèse déraisonnable, en raison de l’adoption généralisée de systèmes open source de pointe tels que YOLO dans les systèmes de surveillance des entreprises comme Cisco et Ultralytics (actuellement la force motrice centrale du développement de YOLO).
Le document suppose également que le piéton a accès à un flux en direct sur Internet fixé sur les emplacements à calculer, ce qui, encore une fois, est une hypothèse raisonnable dans la plupart des endroits susceptibles d’avoir une intensité de couverture.

Des sites tels que 511ny.org offrent l’accès à de nombreuses caméras de surveillance dans la zone de NYC. Source : https://511ny.or
Outre cela, le piéton a besoin d’accéder à la méthode proposée, et à la scène elle-même (c’est-à-dire les intersections et les itinéraires dans lesquels un itinéraire « sûr » est à établir).
Pour développer L-PET, les auteurs ont évalué l’effet de l’angle du piéton par rapport à la caméra ; l’effet de la hauteur de la caméra ; l’effet de la distance ; et l’effet de l’heure de la journée. Pour obtenir la vérité terrain, ils ont photographié une personne aux angles 0°, 45°, 90°, 135°, 180°, 225°, 270° et 315°.

Observations de vérité terrain réalisées par les chercheurs.
Ils ont répété ces variations à trois hauteurs de caméra différentes (0,6 m, 1,8 m, 2,4 m), et avec des conditions d’éclairage variées (matin, après-midi, nuit et conditions de « laboratoire »).
En alimentant ces vidéos au Faster R-CNN et au YOLOv3 détecteurs d’objets, ils ont constaté que la confiance de l’objet dépend de l’acuité de l’angle du piéton, de la distance du piéton, de la hauteur de la caméra et des conditions météorologiques/luminosité*.
Les auteurs ont ensuite testé un plus large éventail de détecteurs d’objets dans le même scénario : Faster R-CNN ; YOLOv3 ; SSD ; DiffusionDet ; et RTMDet.
Les auteurs déclarent :
« Nous avons constaté que les cinq architectures de détecteurs d’objets sont affectées par la position du piéton et la lumière ambiante. De plus, nous avons constaté que pour trois des cinq modèles (YOLOv3, SSD et RTMDet), l’effet persiste à travers tous les niveaux de lumière ambiante. »
Pour étendre la portée, les chercheurs ont utilisé des vidéos prises à partir de caméras de trafic publiques dans trois emplacements : Shibuya Crossing à Tokyo, Broadway à New York et le Castro District à San Francisco.
Chaque emplacement a fourni entre cinq et six enregistrements, avec environ quatre heures de vidéo par enregistrement. Pour analyser les performances de détection, un cadre a été extrait toutes les deux secondes et traité à l’aide d’un détecteur d’objets Faster R-CNN. Pour chaque pixel dans les cadres obtenus, la méthode a estimé la confiance moyenne des boîtes de délimitation de détection de « personne » présentes dans ce pixel.
« Nous avons constaté que dans les trois emplacements, la confiance du détecteur d’objets variait en fonction de l’emplacement des personnes dans le cadre. Par exemple, dans les vidéos de Shibuya Crossing, il y a de grandes zones de faible confiance plus éloignées de la caméra, ainsi que plus proches de la caméra, où un poteau obscurcit partiellement les piétons qui passent. »
La méthode L-PET est essentiellement cette procédure, arguablement « armée » pour obtenir un itinéraire à travers une zone urbaine qui est le moins susceptible de résulter en la reconnaissance réussie du piéton.
En revanche, L-BAT suit la même procédure, avec la différence qu’il met à jour les scores dans le système de détection, créant une boucle de rétroaction conçue pour obvier l’approche L-PET et rendre les « zones aveugles » du système plus efficaces.
(En termes pratiques, cependant, améliorer la couverture sur la base des cartes de chaleur obtenues nécessiterait plus que la simple mise à niveau de la caméra située à la position attendue ; sur la base des critères de test, y compris l’emplacement, cela nécessiterait l’installation de caméras supplémentaires pour couvrir les zones négligées – il pourrait donc être argumenté que la méthode L-PET escalade cette « guerre froide » particulière dans un scénario très coûteux)

La confiance moyenne de détection des piétons pour chaque pixel, à travers divers cadres de détecteurs, dans la zone observée de Castro Street, analysée à partir de cinq vidéos. Chaque vidéo a été enregistrée dans des conditions d’éclairage différentes : lever du soleil, jour, coucher du soleil et deux réglages de nuit distincts. Les résultats sont présentés séparément pour chaque scénario d’éclairage.
En ayant converti la représentation matricielle basée sur les pixels en une représentation graphique adaptée à la tâche, les chercheurs ont adapté l’algorithme de Dijkstra pour calculer les itinéraires optimaux pour les piétons pour naviguer à travers les zones avec une détection de surveillance réduite.
Au lieu de trouver le chemin le plus court, l’algorithme a été modifié pour minimiser la confiance de détection, en traitant les régions à haute confiance comme des zones à « coût » plus élevé. Cette adaptation a permis à l’algorithme d’identifier les itinéraires passant par des zones aveugles ou des zones de faible détection, en guidant efficacement les piétons le long d’itinéraires avec une visibilité réduite pour les systèmes de surveillance.

Une visualisation montrant la transformation de la carte de chaleur de la scène d’une matrice basée sur les pixels en une représentation basée sur un graphique.
Les chercheurs ont évalué l’impact du système L-BAT sur la détection des piétons à l’aide d’un ensemble de données construit à partir des enregistrements de quatre heures de trafic piétonnier public.
Pour peupler la collection, un cadre a été traité toutes les deux secondes à l’aide d’un détecteur d’objets SSD. À partir de chaque cadre, une boîte de délimitation a été sélectionnée contenant une personne détectée comme un échantillon positif, et une autre zone aléatoire sans personnes détectées a été utilisée comme un échantillon négatif. Ces échantillons jumeaux ont formé un ensemble de données pour évaluer deux modèles Faster R-CNN – l’un avec L-BAT appliqué, et l’autre sans.
Les performances des modèles ont été évaluées en vérifiant combien ils identifiaient avec précision les échantillons positifs et négatifs : une boîte de délimitation chevauchant un échantillon positif était considérée comme un vrai positif, tandis qu’une boîte de délimitation chevauchant un échantillon négatif était étiquetée comme un faux positif.
Les métriques utilisées pour déterminer la fiabilité de la détection de L-BAT étaient la zone sous la courbe (AUC) ; le taux de vrai positif (TPR) ; le taux de faux positifs (FPR) ; et la confiance moyenne de vrai positif. Les chercheurs affirment que l’utilisation de L-BAT a amélioré la confiance de détection tout en maintenant un taux de vrai positif élevé (bien qu’avec une légère augmentation des faux positifs).
En conclusion, les auteurs notent que l’approche a certaines limites. L’une est que les cartes de chaleur générées par leur méthode sont spécifiques à une heure de la journée. Bien qu’ils n’en fassent pas état, cela indiquerait qu’une approche plus large et à plusieurs niveaux serait nécessaire pour tenir compte de l’heure de la journée dans un déploiement plus flexible.
Ils observent également que les cartes de chaleur ne seront pas transférées à différentes architectures de modèles, et sont liées à un modèle de détecteur d’objets spécifique. Puisque le travail proposé est essentiellement une preuve de concept, des architectures plus habiles pourraient, à première vue, également être développées pour remédier à cette dette technique.
Conclusion
Toute nouvelle méthode d’attaque pour laquelle la solution est « payer pour de nouvelles caméras de surveillance » a certains avantages, puisque l’expansion des réseaux de caméras civiques dans les zones très surveillées peut être un défi politique, ainsi qu’une dépense civique notable qui nécessitera généralement un mandat des électeurs.
Peut-être la plus grande question posée par le travail est « Les systèmes de surveillance fermés utilisent-ils des cadres SOTA open source tels que YOLO ? ». C’est, bien sûr, impossible à savoir, puisque les fabricants des systèmes propriétaires qui alimentent de nombreux réseaux de caméras d’État et civiques (au moins aux États-Unis) soutiendraient que la divulgation d’une telle utilisation pourrait les exposer à des attaques.
Néanmoins, la migration de l’informatique et du code propriétaire interne vers le code open source mondial et global suggérerait que quiconque testerait la contention des auteurs avec (par exemple) YOLO pourrait bien réussir immédiatement.
* Je n’inclurai normalement les résultats de tableaux liés lorsque ceux-ci sont fournis dans le document, mais dans ce cas, la complexité des tableaux du document les rend peu éclairants pour le lecteur occasionnel, et un résumé est donc plus utile.
Publié pour la première fois mardi 28 janvier 2025












