Surveillance

Déterminer l’étendue de la surveillance vidéo à l’aide des données de Google Street View

Published May 12, 2021

Updated April 28, 2026

Martin Anderson

La couverture continue de Google Street View des voies de circulation du monde représente peut-être l’enregistrement visuel le plus complet, le plus cohérent et le plus constant de la société mondiale, à l’exception des pays qui imposent des interdictions aux véhicules de collecte de données du géant de la recherche.

En tant que contributeur générant des revenus à l’infrastructure de Google Maps, le panopticon de Google Street View est une riche veine de données pour l’analyse d’apprentissage automatique. Outre sa propension à capturer involontairement des actes criminels, il a été utilisé pour estimer le revenu régional à partir de la qualité des voitures dans les images de Google Street View, évaluer la verdure dans les environnements urbains, identifier les poteaux d’utilité, classer les bâtiments et estimer la composition démographique des quartiers américains, entre autres initiatives.

Statistiques limitées sur la diffusion des caméras de surveillance aux États-Unis

Malgré l’utilisation généralisée des données de Google Maps pour les initiatives d’apprentissage automatique axées sur la société, il existe très peu de jeux de données basés sur Street View qui incluent des exemples étiquetés de caméras de surveillance. Le jeu de données Mapillary Vistas est l’un des rares disponibles qui offrent cette fonctionnalité, bien qu’il inclue moins de 20 caméras de surveillance publiques étiquetées aux États-Unis.

Une grande partie de l’infrastructure de surveillance vidéo aux États-Unis n’intersecte l’État que lorsque les autorités exigent des images corroborantes après des incidents locaux qui peuvent avoir été enregistrés. Au-delà des réglementations d’urbanisme et dans le contexte de lois sur la vie privée permissives qui ne font pas grand-chose pour résoudre la surveillance privée des espaces publics, il n’y a pas de cadre administratif fédéral qui puisse fournir des statistiques précises sur le nombre de caméras publiques aux États-Unis.

Les données anecdotiques et les enquêtes limitées suggèrent que la diffusion des caméras vidéo aux États-Unis peut être à parité avec la Chine, mais il est difficile de le prouver.

Identification des caméras de vidéo dans les images de Google Street View

Compte tenu de ce manque de données disponibles, des chercheurs de l’Université de Stanford ont mené une étude sur la prévalence, la fréquence et la distribution des caméras de vidéo publiques qui peuvent être identifiées dans les images de Google Street View.

Les chercheurs ont créé un cadre de détection de caméras qui a évalué 1,6 million d’images de Google Street View dans 10 grandes villes américaines et six autres grandes villes d’Asie et d’Europe.

Dans l’ordre décroissant de la densité de caméras, Boston est en tête de la liste des villes américaines examinées dans la recherche, avec une densité récente ou actuelle de 0,63 et un nombre total de caméras de 1 600. Malgré cela, New York a beaucoup plus de caméras (10 100) dispersées sur une plus grande surface. Source : https://arxiv.org/pdf/2105.01764.pdf

Parmi les villes américaines, Boston a été trouvé avoir la densité la plus élevée de caméras identifiées, tandis que New York a le plus grand nombre de caméras, avec 10 100 caméras, réparties sur une plus grande distance. En Asie, Tokyo a un nombre massif de 21 700 caméras estimées, mais Séoul a un nombre de caméras plus petit (13 900) concentré de manière beaucoup plus dense. Bien que 13 000 caméras aient été identifiées pour les images de Street View de Londres, Paris bat ce record en termes de placements identifiés (13 000) et de densité de couverture.

Les chercheurs observent que la densité de caméras varie considérablement entre les quartiers et les zones des villes.

Parmi les autres facteurs limitants pour l’exactitude de l’enquête (que nous aborderons), les chercheurs observent que les caméras dans les zones résidentielles sont trois fois plus difficiles à identifier que celles placées dans les parcs publics, les zones industrielles et les zones d’utilisation mixte – probablement parce que l’effet dissuasif est de plus en plus objectionable ou controversé dans les zones résidentielles, ce qui rend les placements camouflés ou discrets plus probables.

En considérant les villes étudiées en Europe et en Asie, Séoul est en tête de la liste des environnements urbains les plus surveillés, avec Paris non loin derrière.

Densité de caméras de surveillance dans les villes des États-Unis, d'Asie et d'Europe, selon la recherche de Stanford.

Lorsqu’une zone a une majorité d’habitants ethniques ou minoritaires définie par le recensement, la fréquence des placements de caméras augmente de manière notable, même en tenant compte de tous les facteurs atténuants pris en compte par les chercheurs de Stanford.

La fréquence des caméras de surveillance augmente en proportion directe avec l’augmentation de la démographie minoritaire dans un quartier, selon la recherche de Stanford.

La recherche a été menée sur deux périodes, 2011-2015 et 2016-2020. Bien que les données montrent une croissance constante et parfois anormale de l’installation de caméras de surveillance sur la période de neuf ans, les chercheurs suggèrent que cette prolifération de caméras de surveillance peut avoir atteint un « plateau temporaire ».

Méthodologie

Les chercheurs ont initialement compilé deux jeux de données d’images de Street View, dont l’un ne comportait pas de placements de caméras de vidéo, et ont généré des masques de segmentation pour ces derniers. Un modèle de segmentation a été formé sur ces jeux de données contre un jeu de données de validation (de San Francisco – voir « Facteurs limitants » ci-dessous).

Ensuite, le modèle de sortie a été exécuté contre des images de Street View aléatoires, avec toutes les détections de caméras positives confirmées par des humains, et les faux positifs supprimés.

À gauche, l’image brute de Google Street View. Ensuite, le masque de segmentation adapté. Troisième, une identification de caméra dérivée algorithmiquement. Droite, un placement vérifié par un humain.

Enfin, le cadre a calculé le champ de vision des angles de caméra impliqués afin d’estimer l’étendue de la couverture, regroupée par les empreintes des bâtiments impliqués et les spécifications du réseau routier.

D’autres données contributives pour cette matrice incluaient des spécifications de bâtiments d’OpenStreetMap, et l’utilisation de cartes du recensement américain pour s’assurer que l’étude était limitée aux limites administratives de chaque ville. De plus, le projet a utilisé des données de localisation de caméras de San Francisco d’une étude de la Electronic Frontier Foundation (EFF), avec les images de Google Street View accessibles via l’ API statique.

Les chercheurs ont estimé la couverture en calculant le champ de vision des caméras de Google Street View contre les données d’OpenStreetMap.

Facteurs limitants

Les chercheurs reconnaissent un certain nombre de facteurs limitants qui doivent être pris en compte lors de l’examen des résultats.

Premièrement, que les caméras identifiées par le système d’apprentissage automatique ont toutes été vérifiées ou infirmées par un examen humain, et que cet examen est un processus falible.

Deuxièmement, l’étude a été limitée par la résolution disponible des images de Street View, qui a restreint les chercheurs à identifier les caméras placées dans un rayon de trente mètres. Cela signifie non seulement que certaines caméras peuvent avoir été « inventées » par une résolution limitée, mais aussi que de nombreuses caméras en dehors de cette portée (telles que des caméras de niveau élevé, des placements obscurs et des micro-caméras dans les fixations de sonnette) ne sont probablement pas identifiées.

Enfin, l’estimation de la recall du modèle spécifique à la ville peut être un facteur limitant pour l’exactitude des résultats, puisque la ville de San Francisco, où la fréquence des caméras de surveillance avait déjà été étiquetée dans des travaux antérieurs de l’EFF, a été appliquée à d’autres juridictions pour rendre l’étude réalisable.

Martin Anderson

Écrivain sur l'apprentissage automatique, spécialiste de domaine en synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.

Unite.AI

Déterminer l’étendue de la surveillance vidéo à l’aide des données de Google Street View

Statistiques limitées sur la diffusion des caméras de surveillance aux États-Unis

Identification des caméras de vidéo dans les images de Google Street View

Méthodologie

Facteurs limitants

You may like