Vigilância

Determinando a Extensão da Vigilância por Vídeo por meio de Dados do Google Street View

Published May 12, 2021

Updated April 28, 2026

Martin Anderson

A cobertura contínua do Google Street View das vias do mundo representa possivelmente o registro visual mais completo, consistente e coerente da sociedade global, com a exceção de países que impossam proibições nos veículos de coleta de dados do gigante da busca.

Como um contribuinte que entrega receita para a infraestrutura do Google Maps, o panóptico do Google Street View é um rico filão de dados para análise de aprendizado de máquina. Além de sua propensão a capturar involuntariamente atos criminosos, ele foi usado para estimar a renda regional a partir da qualidade dos carros em imagens do Google Street View, avaliar a vegetação em ambientes urbanos, identificar postes de utilidade, classificar prédios e estimar a composição demográfica dos bairros dos EUA, entre muitas outras iniciativas.

Estatísticas Limitadas sobre a Difusão de Câmeras de Vigilância nos Estados Unidos

Apesar do amplo uso dos dados do Google Maps para iniciativas de aprendizado de máquina socialmente conscientes, existem muito poucos conjuntos de dados baseados no Street View que incluem exemplos rotulados de câmeras de vigilância. O conjunto de dados Mapillary Vistas é um dos poucos disponíveis que oferece essa funcionalidade, embora inclua menos de 20 câmeras de vídeo públicas rotuladas nos Estados Unidos.

Muito da infraestrutura de vigilância por vídeo nos EUA só intersecta o Estado quando as autoridades exigem imagens de apoio após incidentes locais que podem ter sido gravados. Além das regulamentações de zoneamento, e no contexto de leis de privacidade permissivas que fazem pouco para abordar a vigilância privada de espaços públicos, não há quadro administrativo federal que possa fornecer estatísticas rigorosas sobre o número de câmeras públicas nos EUA.

Dados anedóticos e pesquisas limitadas sustentam que a difusão de câmeras de vídeo nos EUA pode ser semelhante à da China, mas não é fácil provar.

Identificando Câmeras de Vídeo em Imagens do Google Street View

Considerando essa falta de dados disponíveis, pesquisadores da Universidade de Stanford realizaram um estudo sobre a prevalência, frequência e distribuição das câmeras de vídeo públicas que podem ser identificadas em imagens do Google Street View.

Os pesquisadores criaram um quadro de detecção de câmeras que avaliou 1,6 milhão de imagens do Google Street View em 10 cidades principais dos EUA e seis outras cidades principais da Ásia e da Europa.

Em ordem decrescente de densidade de câmeras, Boston lidera a lista de cidades dos EUA examinadas na pesquisa, com uma densidade recente ou atual de 0,63 e um total de 1.600 câmeras. Apesar disso, a cidade de Nova York tem muito mais câmeras (10.100) dispersas sobre uma área maior. Fonte: https://arxiv.org/pdf/2105.01764.pdf

Das cidades dos EUA, Boston foi encontrada com a maior densidade de câmeras identificadas, enquanto a cidade de Nova York tem o maior número de câmeras, com 10.100, espalhadas por uma área maior. Na Ásia, Tóquio tem um número impressionante de 21.700 câmeras estimadas, mas Seul tem um número menor de câmeras (13.900) concentradas de forma muito mais densa. Embora 13.000 câmeras tenham sido identificadas para imagens do Street View de Londres, Paris supera isso tanto em termos de colocação identificada (13.000) quanto de densidade de cobertura.

Os pesquisadores observam que a densidade de câmeras varia amplamente entre os bairros e zonas das cidades.

Entre outros fatores limitantes para a precisão da pesquisa (que abordaremos a seguir), os pesquisadores observam que as câmeras em áreas residenciais são três vezes mais difíceis de identificar do que aquelas colocadas em parques públicos, áreas industriais e zonas de uso misto – presumivelmente porque o efeito “dissuasório” é cada vez mais questionável ou controverso em zonas residenciais, tornando mais provável o uso de câmeras disfarçadas ou discretas.

Considerando as cidades estudadas na Europa e na Ásia, Seul ocupa o primeiro lugar como o ambiente urbano mais vigilado, com Paris não muito atrás.

Densidade de câmeras de vigilância em cidades dos EUA, Ásia e Europa, de acordo com a pesquisa de Stanford.

Onde uma zona tem uma maioria de residentes étnicos ou minoritários definida pelo censo, a frequência de colocação de câmeras aumenta notavelmente, mesmo com todos os fatores mitigantes considerados pelos pesquisadores de Stanford.

A frequência de câmeras de vigilância aumenta em proporção direta com o aumento da demografia minoritária em um bairro, de acordo com a pesquisa de Stanford.

A pesquisa foi realizada em dois períodos de tempo, 2011–2015 e 2016–2020. Embora os dados mostrem um crescimento consistente e às vezes anormal da colocação de câmeras de vigilância ao longo do período de nove anos, os pesquisadores sugerem que essa proliferação de câmeras de vigilância pode ter atingido um “platô temporário”.

Metodologia

Os pesquisadores inicialmente compilaram dois conjuntos de dados de imagens do Street View, um dos quais não apresentava colocação de câmeras de vídeo, e geraram máscaras de segmentação para esses. Um modelo de segmentação foi treinado nesses conjuntos de dados contra um conjunto de validação (de São Francisco – veja ‘Fatores Limitantes’ abaixo).

Em seguida, o modelo de saída foi executado contra imagens aleatórias do Street View, com todas as detecções de câmeras positivas confirmadas por humanos e falsos positivos removidos.

À esquerda, a imagem bruta do Google Street View. Em seguida, a máscara de segmentação adaptada. Terceiro, uma identificação de câmera derivada algoritmicamente. À direita, uma colocação verificada por humanos.

Por fim, o quadro calculou o campo de visão dos ângulos de câmera envolvidos para estimar a extensão da cobertura, compilada contra as pegadas dos prédios envolvidos e as especificações da rede rodoviária.

Outros dados contribuintes para essa matriz incluíram especificações de prédios do OpenStreetMap e o uso de mapas do censo dos EUA para garantir que o estudo fosse restrito aos limites administrativos de cada cidade. Além disso, o projeto usou dados de localização de câmeras de São Francisco de um estudo da Electronic Frontier Foundation (EFF), com as imagens do Google Street View acessadas via a Static API.

Os pesquisadores estimaram a cobertura calculando o campo de visão das câmeras do Google Street View contra dados do OpenStreetMap.

Fatores Limitantes

Os pesquisadores admitem uma série de fatores limitantes que devem ser considerados ao revisar os resultados.

Em primeiro lugar, que as câmeras identificadas pelo sistema de aprendizado de máquina foram subsequentemente verificadas ou negadas por revisão humana, e que essa revisão é um processo falível.

Em segundo lugar, o estudo foi limitado pela resolução disponível das imagens do Street View, que restringiu os pesquisadores a identificar câmeras colocadas dentro de trinta metros do POV. Isso não apenas significa que algumas câmeras podem ter sido “inventadas” devido à resolução limitada, mas também que muitas fora desse âmbito (como câmeras de nível alto, colocação obscurecida e microcâmeras em suportes de campainha) provavelmente não foram identificadas.

Por fim, estimar a recall do modelo específico da cidade pode ser um fator limitante na precisão dos resultados, desde que a cidade de São Francisco, onde a frequência de câmeras de vigilância já havia sido rotulada em trabalhos anteriores da EFF, foi aplicada a outras jurisdições para tornar o estudo viável.