Inteligencia Artificial
Las 'rutas secretas' que pueden burlar los sistemas de reconocimiento de peatones

Una nueva colaboración de investigación entre Israel y Japón sostiene que los sistemas de detección de peatones poseen debilidades inherentes, lo que permite que individuos bien informados evadan los sistemas de reconocimiento facial navegando por rutas cuidadosamente planificadas a través de áreas donde las redes de vigilancia son menos efectivas.
Con la ayuda de Imágenes disponibles públicamente Desde Tokio, Nueva York y San Francisco, los investigadores desarrollaron un método automatizado para calcular dichas trayectorias, basándose en los sistemas de reconocimiento de objetos más populares que probablemente se utilicen en redes públicas.

Los tres cruces utilizados en el estudio: el cruce de Shibuya en Tokio, Japón; Broadway, Nueva York; y el distrito Castro, San Francisco. Fuente: https://arxiv.org/pdf/2501.15653
Con este método es posible generar mapas de calor de confianza que delimitan áreas dentro de la transmisión de la cámara donde los peatones tienen menos probabilidades de proporcionar un reconocimiento facial positivo:

A la derecha, vemos el mapa de calor de confianza generado por el método de los investigadores. Las áreas rojas indican baja confianza y una configuración de postura, pose de cámara y otros factores que probablemente impidan el reconocimiento facial.
En teoría, un método de este tipo podría instrumentalizarse en una aplicación que tenga en cuenta la ubicación, o en algún otro tipo de plataforma para difundir las rutas menos "favorables al reconocimiento" de A a B en cualquier ubicación calculada.
El nuevo artículo propone una metodología de este tipo, titulada Técnica de mejora de la privacidad basada en la ubicación (L-PET); también propone una contramedida titulada Umbral adaptativo basado en la ubicación (L-BAT), que básicamente ejecuta exactamente las mismas rutinas, pero luego utiliza la información para reforzar y mejorar las medidas de vigilancia, en lugar de idear formas de evitar ser reconocido; y en muchos casos, tales mejoras no serían posibles sin una mayor inversión en la infraestructura de vigilancia.
Por lo tanto, el documento plantea una posible guerra tecnológica de escalada entre aquellos que buscan optimizar sus rutas para evitar ser detectados y la capacidad de los sistemas de vigilancia para aprovechar al máximo las tecnologías de reconocimiento facial.
Los métodos anteriores de detección de frustraciones son menos elegantes que este y se centran en enfoques adversarios, Tales como Ataques de TnTy el uso de patrones impresos para confundir el algoritmo de detección.

El trabajo de 2019 'Engañar a las cámaras de vigilancia automatizadas: parches adversarios para atacar la detección de personas' demostró un patrón impreso adversario capaz de convencer a un sistema de reconocimiento de que no se detecta a ninguna persona, lo que permite una especie de 'invisibilidad'. Fuente: https://arxiv.org/pdf/1904.08653
Los investigadores detrás del nuevo artículo observan que su enfoque requiere menos preparación y no es necesario diseñar artículos portátiles adversarios (ver imagen de arriba).
El se titula Una técnica para mejorar la privacidad y evitar ser detectado por las cámaras de video de la calle sin usar accesorios adversarios, y proviene de cinco investigadores de la Universidad Ben-Gurion del Néguev y Fujitsu Limited.
Método y pruebas
De acuerdo con trabajos anteriores como Máscara adversaria, Sombrero de publicidad, parches adversarios, y otras salidas similares, los investigadores suponen que el peatón "atacante" sabe qué sistema de detección de objetos se está utilizando en la red de vigilancia. En realidad, no se trata de una suposición descabellada, debido a la adopción generalizada de sistemas de código abierto de última generación como YOLO en sistemas de vigilancia de empresas como Cisco Ultralíticos (actualmente la fuerza impulsora central en el desarrollo de YOLO).
El documento también supone que el peatón tiene acceso a una transmisión en vivo en Internet fija en las ubicaciones a calcular, lo que, nuevamente, es un suposición razonable en la mayoría de los lugares es probable que haya una intensidad de cobertura.

Sitios como 511ny.org ofrecen acceso a muchas cámaras de vigilancia en el área de la ciudad de Nueva York. Fuente: https://511ny.or
Además de esto, el peatón necesita tener acceso al método propuesto y a la escena misma (es decir, los cruces y rutas en los que se debe establecer una ruta "segura").
Para desarrollar la técnica L-PET, los autores evaluaron el efecto del ángulo del peatón en relación con la cámara, el efecto de la altura de la cámara, el efecto de la distancia y el efecto de la hora del día. Para obtener la verdad sobre el terreno, fotografiaron a una persona en los ángulos 0°, 45°, 90°, 135°, 180°, 225°, 270° y 315°.

Observaciones de verdad de campo realizadas por los investigadores.
Repitieron estas variaciones a tres alturas de cámara diferentes (0.6 m, 1.8 m, 2.4 m) y con distintas condiciones de iluminación (mañana, tarde, noche y condiciones de "laboratorio").
Alimentando este metraje a la R-CNN más rápido YOLOv3 detectores de objetos, descubrieron que la confianza del objeto depende de la agudeza del ángulo del peatón, la distancia del peatón, la altura de la cámara y las condiciones climáticas/de iluminación*.
Luego, los autores probaron una gama más amplia de detectores de objetos en el mismo escenario: Faster R-CNN; YOLOv3; SSD; DifusiónDet; y RTMDet.
Los autores declaran:
'Descubrimos que las cinco arquitecturas de detectores de objetos se ven afectadas por la posición del peatón y la luz ambiental. Además, descubrimos que para tres de los cinco modelos (YOLOv3, SSD y RTMDet) el efecto persiste en todos los niveles de luz ambiental.'
Para ampliar el alcance, los investigadores utilizaron imágenes tomadas de cámaras de tráfico disponibles públicamente en tres lugares: el cruce de Shibuya en Tokio, Broadway en Nueva York y el distrito Castro en San Francisco.
Cada ubicación proporcionó entre cinco y seis grabaciones, con aproximadamente cuatro horas de metraje por grabación. Para analizar el rendimiento de detección, se extrajo un fotograma cada dos segundos y se procesó utilizando un detector de objetos Faster R-CNN. Para cada píxel de los fotogramas obtenidos, el método estimó la confianza media de que los cuadros delimitadores de detección de "persona" estuvieran presentes en ese píxel.
"Descubrimos que en las tres ubicaciones, la fiabilidad del detector de objetos variaba según la ubicación de las personas en el encuadre. Por ejemplo, en la filmación del cruce de Shibuya, hay grandes áreas de baja fiabilidad más alejadas de la cámara, así como más cerca de ella, donde un poste oculta parcialmente a los peatones que pasan".
El método L-PET es esencialmente este procedimiento, posiblemente "utilizado como arma" para obtener un camino a través de un área urbana que tenga menos probabilidades de lograr que el peatón sea reconocido con éxito.
Por el contrario, L-BAT sigue el mismo procedimiento, con la diferencia de que actualiza las puntuaciones en el sistema de detección, creando un bucle de retroalimentación diseñado para obviar el enfoque L-PET y hacer que las "áreas ciegas" del sistema sean más efectivas.
(Sin embargo, en términos prácticos, mejorar la cobertura en base a los mapas de calor obtenidos requeriría más que simplemente una actualización de la cámara ubicada en la posición esperada; en base a los criterios de prueba, incluida la ubicación, requeriría la instalación de cámaras adicionales para cubrir las áreas descuidadas; por lo tanto, se podría argumentar que el método L-PET convierte esta particular "guerra fría" en un escenario muy costoso)

La confianza media en la detección de peatones para cada píxel, en distintos marcos de detección, en el área observada de Castro Street, analizada en cinco vídeos. Cada vídeo se grabó en diferentes condiciones de iluminación: amanecer, día, atardecer y dos entornos nocturnos distintos. Los resultados se presentan por separado para cada escenario de iluminación.
Después de haber convertido la representación matricial basada en píxeles en una representación gráfica Adecuados para la tarea, los investigadores adaptaron el Algoritmo de Dijkstra Calcular rutas óptimas para que los peatones puedan transitar por áreas con detección de vigilancia reducida.
En lugar de encontrar el camino más corto, el algoritmo se modificó para minimizar la confianza en la detección, tratando las regiones de alta confianza como áreas con un "costo" más alto. Esta adaptación permitió que el algoritmo identificara rutas que pasaban por puntos ciegos o zonas de baja detección, guiando de manera efectiva a los peatones por caminos con visibilidad reducida para los sistemas de vigilancia.

Una visualización que representa la transformación del mapa de calor de la escena desde una matriz basada en píxeles a una representación basada en gráficos.
Los investigadores evaluaron el impacto del sistema L-BAT en la detección de peatones con un conjunto de datos creado a partir de las grabaciones de cuatro horas de tráfico peatonal público mencionadas anteriormente. Para completar la colección, se procesó un fotograma cada dos segundos utilizando un detector de objetos SSD.
De cada cuadro, se seleccionó un cuadro delimitador que contenía una persona detectada como muestra positiva y se utilizó otra área aleatoria sin personas detectadas como muestra negativa. Estas muestras gemelas formaron un conjunto de datos para evaluar dos modelos Faster R-CNN: uno con L-BAT aplicado y otro sin él.
El rendimiento de los modelos se evaluó verificando con qué precisión identificaban muestras positivas y negativas: un cuadro delimitador superpuesto a una muestra positiva se consideró un verdadero positivo, mientras que un cuadro delimitador superpuesto a una muestra negativa se etiquetó como un falso positivo.
Las métricas utilizadas para determinar la confiabilidad de detección de L-BAT fueron Área bajo la curva (AUC); tasa de verdaderos positivos (TPR); tasa de falsos positivos (FPR); y confianza media de verdaderos positivos. Los investigadores afirman que el uso de L-BAT mejoró la confianza de detección manteniendo al mismo tiempo una alta tasa de verdaderos positivos (aunque con un ligero aumento de falsos positivos).
Para finalizar, los autores señalan que el enfoque tiene algunas limitaciones. Una de ellas es que los mapas de calor generados por su método son específicos de un momento particular del día. Aunque no lo explican en detalle, esto indicaría que se necesitaría un enfoque más amplio y de múltiples niveles para tener en cuenta el momento del día en una implementación más flexible.
También observan que los mapas de calor no se pueden transferir a diferentes arquitecturas de modelos y que están vinculados a un modelo de detector de objetos específico. Dado que el trabajo propuesto es esencialmente una prueba de concepto, es de suponer que también se podrían desarrollar arquitecturas más hábiles para remediar esta deuda técnica.
Conclusión
Cualquier nuevo método de ataque cuya solución sea "pagar por nuevas cámaras de vigilancia" tiene alguna ventaja, ya que expandir las redes de cámaras cívicas en áreas altamente vigiladas puede ser políticamente desafiante, además de representar un gasto cívico notable que normalmente necesitará un mandato electoral.
Quizás la pregunta más grande que plantea la obra es '¿Los sistemas de vigilancia de código cerrado aprovechan marcos SOTA de código abierto como YOLO?'Por supuesto, es imposible saberlo, ya que los creadores de los sistemas propietarios que alimentan tantas redes de cámaras estatales y cívicas (al menos en los EE. UU.) argumentarían que revelar dicho uso podría exponerlos a ataques.
No obstante, la migración de la TI gubernamental y del código propietario interno al código global y de fuente abierta sugeriría que cualquiera que ponga a prueba la afirmación de los autores con (por ejemplo) YOLO podría ganar el premio gordo inmediatamente.
* Normalmente incluiría los resultados de las tablas relacionadas cuando se proporcionan en el artículo, pero en este caso la complejidad de las tablas del artículo las hace poco esclarecedoras para el lector ocasional, y por lo tanto un resumen es más útil.
Publicado por primera vez el martes 28 de enero de 2025