Connect with us

Inteligência artificial

As ‘Rotas Secretas’ Que Podem Frustrar os Sistemas de Reconhecimento de Pedestres

mm
ChatGPT-4o: Variation on prompt: ‘a 1792x1024 feature image depicting an orthogonal ariel view looking down on NYC's 42nd street area. Most of the image should have a blue hue, but within the sidewalk areas there should be red-tinted pathways indicated, like a kind of map route. Make it like The Sims.’

Uma nova colaboração de pesquisa entre Israel e Japão sustenta que os sistemas de detecção de pedestres possuem fraquezas inerentes, permitindo que indivíduos bem informados evitem os sistemas de reconhecimento facial navegando por rotas cuidadosamente planejadas em áreas onde as redes de vigilância são menos eficazes.

Com a ajuda de imagens públicas de Tóquio, Nova York e São Francisco, os pesquisadores desenvolveram um método automatizado de calcular tais rotas, com base nos sistemas de reconhecimento de objetos mais populares provavelmente em uso em redes públicas.

As três cruzamentos usados no estudo: Shibuya Crossing em Tóquio, Japão; Broadway, Nova York; e Castro District, São Francisco. Fonte: https://arxiv.org/pdf/2501.15653

As três cruzamentos usados no estudo: Shibuya Crossing em Tóquio, Japão; Broadway, Nova York; e Castro District, São Francisco. Fonte: https://arxiv.org/pdf/2501.15653

Por esse método, é possível gerar mapas de calor de confiança que demarcam áreas dentro da imagem da câmera onde os pedestres são menos prováveis de fornecer um reconhecimento facial positivo:

À direita, vemos o mapa de calor de confiança gerado pelo método dos pesquisadores. As áreas vermelhas indicam baixa confiança, e uma configuração de postura, pose da câmera e outros fatores que são prováveis de impedir o reconhecimento facial.

À direita, vemos o mapa de calor de confiança gerado pelo método dos pesquisadores. As áreas vermelhas indicam baixa confiança, e uma configuração de postura, pose da câmera e outros fatores que são prováveis de impedir o reconhecimento facial.

Em teoria, tal método poderia ser instrumentalizado em um aplicativo de localização ou alguma outra plataforma para disseminar as rotas menos ‘amigáveis’ ao reconhecimento de A a B em qualquer local calculado.

O novo artigo propõe tal metodologia, intitulada Técnica de Privacidade Baseada em Localização (L-PET); também propõe uma contramedida intitulada Limiar Adaptativo Baseado em Localização (L-BAT), que basicamente executa as mesmas rotinas, mas então usa as informações para reforçar e melhorar as medidas de vigilância, em vez de criar maneiras de evitar ser reconhecido; e, em muitos casos, tais melhorias não seriam possíveis sem um investimento adicional na infraestrutura de vigilância.

O artigo, portanto, estabelece uma possível guerra tecnológica de escalada entre aqueles que buscam otimizar suas rotas para evitar a detecção e a capacidade dos sistemas de vigilância de fazer uso total das tecnologias de reconhecimento facial.

Métodos anteriores de frustrar a detecção são menos elegantes do que este, e centram-se em abordagens adversárias, como TnT Attacks, e o uso de padrões impressos para confundir o algoritmo de detecção.

O trabalho de 2019 ‘Fooling automated surveillance cameras: adversarial patches to attack person detection’ demonstrou um padrão impresso adversário capaz de convencer um sistema de reconhecimento de que nenhuma pessoa é detectada, permitindo uma espécie de ‘invisibilidade. Fonte: https://arxiv.org/pdf/1904.08653

O trabalho de 2019 ‘Fooling automated surveillance cameras: adversarial patches to attack person detection’ demonstrou um padrão impresso adversário capaz de convencer um sistema de reconhecimento de que nenhuma pessoa é detectada, permitindo uma espécie de ‘invisibilidade. Fonte: https://arxiv.org/pdf/1904.08653

Os pesquisadores por trás do novo artigo observam que sua abordagem requer menos preparação, sem a necessidade de criar itens adversários vestíveis (veja a imagem acima).

O artigo é intitulado Uma Técnica de Privacidade para Evitar Detecção por Câmeras de Vídeo de Rua sem Usar Acessórios Adversários, e vem de cinco pesquisadores da Universidade Ben-Gurion do Negev e da Fujitsu Limited.

Método e Testes

De acordo com trabalhos anteriores, como Adversarial Mask, AdvHat, padrões adversários, e várias outras saídas semelhantes, os pesquisadores supõem que o pedestre ‘atacante’ sabe qual é o sistema de detecção de objetos sendo usado na rede de vigilância. Isso é, na verdade, uma suposição razoável, devido à adoção generalizada de sistemas de código aberto de última geração, como o YOLO, em sistemas de vigilância de empresas como Cisco e Ultralytics (atualmente a força motriz central no desenvolvimento do YOLO).

O artigo também supõe que o pedestre tem acesso a um fluxo de vídeo ao vivo na internet fixado nos locais a serem calculados, o que, novamente, é uma suposição razoável na maioria dos lugares prováveis de ter uma intensidade de cobertura.

Sites como 511ny.org oferecem acesso a muitas câmeras de vigilância na área de NYC. Fonte: https://511ny.or

Sites como 511ny.org oferecem acesso a muitas câmeras de vigilância na área de NYC. Fonte: https://511ny.or

Além disso, o pedestre precisa ter acesso ao método proposto e à cena em si (ou seja, as cruzamentos e rotas em que uma rota ‘segura’ é a ser estabelecida).

Para desenvolver a L-PET, os autores avaliaram o efeito do ângulo do pedestre em relação à câmera; o efeito da altura da câmera; o efeito da distância; e o efeito do horário do dia. Para obter a verdade do terreno, eles fotografaram uma pessoa nos ângulos 0°, 45°, 90°, 135°, 180°, 225°, 270° e 315°.

Observações de verdade do terreno realizadas pelos pesquisadores.

Observações de verdade do terreno realizadas pelos pesquisadores.

Eles repetiram essas variações em três alturas de câmera diferentes (0,6m, 1,8m, 2,4m) e com condições de iluminação variadas (manhã, tarde, noite e condições de ‘laboratório’).

Alimentando esse vídeo para os detectores de objetos Faster R-CNN e YOLOv3, eles encontraram que a confiança do objeto depende da acuidade do ângulo do pedestre, da distância do pedestre, da altura da câmera e das condições climáticas/iluminação*.

Os autores então testaram uma gama mais ampla de detectores de objetos no mesmo cenário: Faster R-CNN; YOLOv3; SSD; DiffusionDet; e RTMDet.

Os autores afirmam:

‘Descobrimos que todos os cinco arquitetos de detecção de objetos são afetados pela posição do pedestre e pela luz ambiente. Além disso, descobrimos que, para três dos cinco modelos (YOLOv3, SSD e RTMDet), o efeito persiste em todos os níveis de luz ambiente.’

Para estender o escopo, os pesquisadores usaram imagens tiradas de câmeras de trânsito públicas em três locais: Shibuya Crossing em Tóquio, Broadway em Nova York e o Castro District em São Francisco.

Cada local forneceu entre cinco e seis gravações, com aproximadamente quatro horas de vídeo por gravação. Para analisar o desempenho da detecção, um quadro foi extraído a cada dois segundos e processado usando um detector de objetos Faster R-CNN. Para cada pixel nos quadros obtidos, o método estimou a confiança média das caixas delimitadoras de detecção de ‘pessoa’ presentes naquele pixel.

‘Descobrimos que, em todos os três locais, a confiança do detector de objetos variou dependendo da localização das pessoas no quadro. Por exemplo, nas imagens da Shibuya Crossing, há grandes áreas de baixa confiança mais distantes da câmera, bem como mais próximas da câmera, onde um poste parcialmente obscurece os pedestres que passam.’

O método L-PET é basicamente esse procedimento, argumentavelmente ‘armado’ para obter uma rota por uma área urbana que é menos provável de resultar no pedestre sendo reconhecido com sucesso.

Em contraste, o L-BAT segue o mesmo procedimento, com a diferença de que ele atualiza as pontuações no sistema de detecção, criando um loop de feedback projetado para obviar a abordagem L-PET e tornar as ‘áreas cegas’ do sistema mais eficazes.

(Em termos práticos, no entanto, melhorar a cobertura com base nos mapas de calor obtidos exigiria mais do que apenas uma atualização da câmera sentada na posição esperada; com base nos critérios de teste, incluindo localização, exigiria a instalação de câmeras adicionais para cobrir as áreas negligenciadas – portanto, pode-se argumentar que o método L-PET escala essa particular ‘guerra fria’ em um cenário muito caro mesmo)

A confiança média de detecção de pedestres para cada pixel, em diferentes estruturas de detector, na área observada da Castro Street, analisada em cinco vídeos. Cada vídeo foi gravado em diferentes condições de iluminação: nascer do sol, dia, pôr do sol e dois conjuntos distintos de configurações noturnas. Os resultados são apresentados separadamente para cada cenário de iluminação.

A confiança média de detecção de pedestres para cada pixel, em diferentes estruturas de detector, na área observada da Castro Street, analisada em cinco vídeos. Cada vídeo foi gravado em diferentes condições de iluminação: nascer do sol, dia, pôr do sol e dois conjuntos distintos de configurações noturnas. Os resultados são apresentados separadamente para cada cenário de iluminação.

Tendo convertido a representação matricial baseada em pixel em uma representação gráfica adequada para a tarefa, os pesquisadores adaptaram o algoritmo de Dijkstra para calcular rotas ótimas para os pedestres navegarem por áreas com detecção de vigilância reduzida.

Em vez de encontrar o caminho mais curto, o algoritmo foi modificado para minimizar a confiança de detecção, tratando regiões de alta confiança como áreas com ‘custo’ mais alto. Essa adaptação permitiu que o algoritmo identificasse rotas que passam por pontos cegos ou zonas de baixa detecção, efetivamente guiando os pedestres por rotas com visibilidade reduzida para os sistemas de vigilância.

Uma visualização que mostra a transformação da imagem da cena de uma matriz baseada em pixel para uma representação baseada em gráfico.

Uma visualização que mostra a transformação da imagem da cena de uma matriz baseada em pixel para uma representação baseada em gráfico.

Os pesquisadores avaliaram o impacto do sistema L-BAT na detecção de pedestres com um conjunto de dados construído a partir das gravações de quatro horas de tráfego de pedestres públicos. Para popular o conjunto, um quadro foi processado a cada dois segundos usando um detector de objetos SSD.

De cada quadro, uma caixa delimitadora foi selecionada contendo uma pessoa detectada como uma amostra positiva, e outra área aleatória sem pessoas detectadas foi usada como uma amostra negativa. Essas amostras gêmeas formaram um conjunto de dados para avaliar dois modelos Faster R-CNN – um com o L-BAT aplicado e um sem.

O desempenho dos modelos foi avaliado verificando como eles identificavam amostras positivas e negativas com precisão: uma caixa delimitadora que se sobrepunha a uma amostra positiva era considerada um verdadeiro positivo, enquanto uma caixa delimitadora que se sobrepunha a uma amostra negativa era rotulada como falso positivo.

As métricas usadas para determinar a confiabilidade de detecção do L-BAT foram Área Sob a Curva (AUC); taxa de verdadeiros positivos (TPR); taxa de falsos positivos (FPR); e confiança média de verdadeiros positivos. Os pesquisadores afirmam que o uso do L-BAT melhorou a confiança de detecção, mantendo uma alta taxa de verdadeiros positivos (embora com um ligeiro aumento de falsos positivos).

Em conclusão, os autores observam que a abordagem tem algumas limitações. Uma delas é que os mapas de calor gerados por seu método são específicos de um determinado horário do dia. Embora eles não o expliquem, isso indicaria que uma abordagem mais ampla e em múltiplos níveis seria necessária para levar em conta o horário do dia de uma forma mais flexível.

Eles também observam que os mapas de calor não serão transferidos para diferentes arquiteturas de modelo, e estão vinculados a um modelo de detector de objetos específico. Como o trabalho proposto é essencialmente uma prova de conceito, arquiteturas mais habilidosas também poderiam ser desenvolvidas para remediar essa dívida técnica.

Conclusão

Qualquer novo método de ataque para o qual a solução é ‘pagar por novas câmeras de vigilância’ tem alguma vantagem, desde que expandir as redes de câmeras cívicas em áreas altamente vigiadas possa ser politicamente desafiador, bem como representar um gasto cívico notável que geralmente precisará de um mandato de votante.

Talvez a maior pergunta colocada pelo trabalho seja ‘Os sistemas de vigilância de código fechado aproveitam os frameworks de código aberto SOTA, como o YOLO?’. Isso, é claro, é impossível de saber, pois os fabricantes dos sistemas proprietários que alimentam muitas redes de câmeras estatais e cívicas (pelo menos nos EUA) argumentariam que divulgar tal uso poderia abri-los a ataques.

No entanto, a migração da TI do governo e do código proprietário para o código de código aberto e global sugeriria que qualquer um que testasse a afirmação dos autores com (por exemplo) YOLO poderia muito bem acertar na primeira tentativa.

 

* Eu normalmente incluiria resultados de tabelas relacionados quando eles são fornecidos no artigo, mas, neste caso, a complexidade das tabelas do artigo as torna pouco esclarecedoras para o leitor casual, e um resumo é, portanto, mais útil.

Publicado pela primeira vez na terça-feira, 28 de janeiro de 2025

Escritor sobre aprendizado de máquina, especialista em síntese de imagem humana. Ex-chefe de conteúdo de pesquisa da Metaphysic.ai.