Vigilancia

Determinar el alcance de la vigilancia por video a través de los datos de Google Street View

Published May 12, 2021

Updated April 28, 2026

Martin Anderson

La cobertura continua de Google Street View de las vías del mundo representa posiblemente el registro visual más completo, consistente y coherente de la sociedad global, con la excepción de países que imponen prohibiciones a los vehículos de recolección de datos de la gigante de la búsqueda.

Como contribuyente que genera ingresos a la infraestructura de Google Maps, el panóptico de Google Street View es una rica veta de datos para el análisis de aprendizaje automático. Además de su tendencia a capturar involuntariamente actos delictivos, se ha utilizado para estimar el ingreso regional a partir de la calidad de los coches en las imágenes de Google Street View, evaluar la vegetación en entornos urbanos, identificar postes de servicios, clasificar edificios y estimar la composición demográfica de los barrios de EE. UU., entre muchas otras iniciativas.

Estadísticas limitadas sobre la difusión de cámaras de vigilancia en los Estados Unidos

A pesar del uso generalizado de los datos de Google Maps para iniciativas de aprendizaje automático socialmente conscientes, hay muy pocos conjuntos de datos basados en Street View que incluyen ejemplos etiquetados de cámaras de vigilancia. El conjunto de datos Mapillary Vistas es uno de los pocos disponibles que ofrecen esta funcionalidad, aunque incluye menos de 20 cámaras de video públicas etiquetadas en los Estados Unidos.

Mucha de la infraestructura de vigilancia por video en EE. UU. solo se cruza con el Estado cuando las autoridades solicitan imágenes de corroboración después de incidentes locales que pueden haber sido grabados. Más allá de las regulaciones de zonificación, y en el contexto de leyes de privacidad permisivas que no abordan la vigilancia privada de espacios públicos, no hay marco administrativo federal que pueda proporcionar estadísticas precisas sobre el número de cámaras públicas en EE. UU.

Los datos anecdóticos y las encuestas limitadas sostienen que la difusión de cámaras de video en EE. UU. puede ser similar a la de China, pero no es fácil de probar.

Identificar cámaras de video en imágenes de Google Street View

Considerando esta falta de datos disponibles, los investigadores de la Universidad de Stanford han realizado un estudio sobre la prevalencia, frecuencia y distribución de las cámaras de video públicas que se pueden identificar en las imágenes de Google Street View.

Los investigadores crearon un marco de detección de cámaras que evaluó 1,6 millones de imágenes de Google Street View en 10 ciudades importantes de EE. UU. y seis ciudades importantes de Asia y Europa.

En orden descendente de densidad de cámaras, Boston encabeza la lista de ciudades de EE. UU. examinadas en la investigación, con una densidad reciente o actual de 0,63 y un total de 1.600 cámaras. A pesar de esto, la ciudad de Nueva York tiene muchas más cámaras (10.100) dispersas en una área más grande. Fuente: https://arxiv.org/pdf/2105.01764.pdf

De las ciudades de EE. UU., Boston se encontró que tiene la mayor densidad de cámaras identificadas, mientras que la ciudad de Nueva York tiene la mayor número de cámaras con 10.100, dispersas en una distancia mayor. En Asia, Tokio tiene un total de 21.700 cámaras estimadas, pero Seúl tiene un número menor de cámaras (13.900) concentradas de manera más densa. Aunque se identificaron 13.000 cámaras para las imágenes de Street View de Londres, París supera esto tanto en términos de colocaciones identificadas (13.00) como en densidad de cobertura.

Los investigadores observan que la densidad de las cámaras varía ampliamente entre los barrios y zonas de las ciudades.

Entre otros factores limitantes para la precisión de la encuesta (que abordaremos a continuación), los investigadores observan que las cámaras en áreas residenciales son tres veces más difíciles de identificar que aquellas colocadas en parques públicos, áreas industriales y zonas de uso mixto – probablemente porque el efecto disuasivo es cada vez más objetable o controvertido en zonas residenciales, lo que hace que los emplazamientos ocultos o discretos sean más probables.

Considerando las ciudades estudiadas en Europa y Asia, Seúl ocupa el primer lugar como el entorno urbano más vigilado, con París no muy lejos.

Densidad de cámaras de vigilancia en ciudades de EE. UU., Asia y Europa, según la investigación de Stanford.

Donde una zona tiene una mayoría de residentes étnicos o minoritarios definida por el censo, la frecuencia de colocación de cámaras aumenta notablemente, incluso con todos los factores atenuantes considerados por los investigadores de Stanford.

La frecuencia de las cámaras de vigilancia aumenta en proporción directa con el aumento de la demografía minoritaria en un barrio, según la investigación de Stanford.

La investigación se llevó a cabo en dos períodos de tiempo, 2011-2015 y 2016-2020. Aunque los datos muestran un crecimiento constante y a veces anormal de la colocación de cámaras de vigilancia durante el período de nueve años, los investigadores sugieren que esta proliferación de cámaras de vigilancia puede haber alcanzado un ‘plato temporal’.

Metodología

Los investigadores inicialmente compilaron dos conjuntos de datos de las imágenes de Street View, uno de los cuales no presentaba colocaciones de cámaras de video, y generaron máscaras de segmentación para estos. Un modelo de segmentación se entrenó en estos conjuntos de datos contra un conjunto de datos de validación (de San Francisco – ver ‘Factores limitantes’ a continuación).

Luego, el modelo de salida se ejecutó contra imágenes de Street View aleatorias, con todas las detecciones de cámaras positivas confirmadas por humanos y los falsos positivos eliminados.

Izquierda, la imagen cruda de Google Street View. A continuación, la máscara de segmentación adaptada. Tercero, una identificación de cámara derivada algorítmicamente. Derecha, una colocación verificada por humanos.

Finalmente, el marco calculó el campo de visión de los ángulos de cámara involucrados para estimar la extensión de la cobertura, recopilada contra las huellas de los edificios involucrados y las especificaciones de la red de carreteras.

Otros datos contribuyentes para esta matriz incluyeron especificaciones de edificios de OpenStreetMap, y el uso de mapas del censo de EE. UU. para garantizar que el estudio se limitara a los límites administrativos de cada ciudad. Además, el proyecto utilizó datos de ubicación de cámaras de San Francisco de un estudio de la Electronic Frontier Foundation (EFF), con las imágenes de Google Street View accedidas a través de la API estática.

Los investigadores estimaron la cobertura calculando el campo de visión de las cámaras de Google Street View contra datos de OpenStreetMap.

Factores limitantes

Los investigadores reconocen una serie de factores limitantes que deben considerarse al revisar los resultados.

En primer lugar, que las cámaras identificadas por el sistema de aprendizaje automático fueron posteriormente verificadas o negadas por revisión humana, y que esta revisión es un proceso falible.

En segundo lugar, el estudio se vio limitado por la resolución disponible de las imágenes de Street View, que restringió a los investigadores a identificar cámaras colocadas dentro de los 30 metros de la POV. Esto no solo significa que algunas cámaras pueden haber sido ‘inventadas’ a través de una resolución limitada, sino que muchas fuera de este ámbito (como cámaras de alto nivel, colocaciones ocultas y microcámaras en accesorios de timbre) probablemente no hayan sido identificadas.

Finalmente, estimar el recuerdo del modelo específico de la ciudad puede ser un factor limitante en la precisión de los resultados, ya que la ciudad de San Francisco, donde la frecuencia de las cámaras de vigilancia ya había sido etiquetada en un trabajo previo de la EFF, se aplicó a otras jurisdicciones para hacer que el estudio fuera factible.