Ángulo de Anderson

Detección de contacto visual desde la postura corporal con aprendizaje automático

mm

Investigadores de Francia y Suiza han desarrollado un sistema de visión por computadora que puede estimar si una persona está mirando directamente a la cámara ‘ego’ de un sistema de inteligencia artificial basándose únicamente en la forma en que la persona está parada o moviéndose.

El nuevo marco utiliza información muy reducida para hacer esta evaluación, en forma de puntos clave semánticos (ver imagen a continuación), en lugar de intentar analizar principalmente la posición de los ojos en imágenes de caras. Esto hace que el método de detección resultante sea muy ligero y ágil, en comparación con arquitecturas de detección de objetos más intensivas en datos, como YOLO.

El nuevo marco evalúa si una persona en la calle está mirando el sensor de captura de la IA, basándose únicamente en la disposición de su cuerpo. Aquí, las personas resaltadas en verde probablemente están mirando la cámara, mientras que las de rojo probablemente están mirando hacia otro lado. Fuente: https://arxiv.org/pdf/2112.04212.pdf

El nuevo marco evalúa si una persona en la calle está mirando el sensor de captura de la IA, basándose únicamente en la disposición de su cuerpo. Aquí, las personas resaltadas en verde probablemente están mirando la cámara, mientras que las de rojo probablemente están mirando hacia otro lado. Fuente: https://arxiv.org/pdf/2112.04212.pdf

Aunque el trabajo está motivado por el desarrollo de mejores sistemas de seguridad para vehículos autónomos, los autores del nuevo artículo admiten que podría tener aplicaciones más generales en otras industrias, observando ‘incluso en ciudades inteligentes, la detección de contacto visual puede ser útil para comprender mejor el comportamiento de los peatones, por ejemplo, identificar hacia dónde se dirigen su atención o qué señales de tráfico están mirando’.

Para ayudar a desarrollar este y posteriores sistemas, los investigadores han compilado un nuevo y completo conjunto de datos llamado LOOK, que aborda directamente los desafíos específicos de la detección de contacto visual en escenarios arbitrarios, como escenas de calles percibidas desde la cámara de un vehículo autónomo, o escenas de multitudes informales a través de las cuales un robot puede necesitar navegar y ceder el paso a los peatones.

Resultados del marco, con 'miradores' identificados en verde.

Resultados del marco, con ‘miradores’ identificados en verde.

La investigación se titula ¿Prestan atención los peatones? Detección de contacto visual en la naturaleza, y proviene de cuatro investigadores de la iniciativa de investigación Visual Intelligence for Transportation (VITA) en Suiza, y uno de la Universidad de la Sorbona.

Arquitectura

La mayoría de los trabajos previos en este campo se han centrado en la atención del conductor, utilizando el aprendizaje automático para analizar la salida de cámaras orientadas al conductor, y dependiendo de una vista constante, fija y cercana del conductor – un lujo que es poco probable que esté disponible en las alimentaciones de baja resolución de cámaras de televisión públicas, donde las personas pueden estar demasiado lejos para que un sistema de análisis facial resuelva su disposición ocular, y donde otras occlusiones (como gafas de sol) también se interponen.

Más central al objetivo declarado del proyecto, las cámaras orientadas hacia afuera en los vehículos autónomos no necesariamente estarán en un escenario óptimo, lo que hace que la información de puntos clave de ‘bajo nivel’ sea ideal como base para un marco de análisis de la mirada. Los sistemas de vehículos autónomos necesitan una forma altamente receptiva y rápida de entender si un peatón – que puede bajar de la acera al camino del coche – ha visto el vehículo autónomo. En tal situación, la latencia podría significar la diferencia entre la vida y la muerte.

La arquitectura modular desarrollada por los investigadores toma una imagen (generalmente) de todo el cuerpo de una persona, de la que se extraen articulaciones 2D en una forma base, esquelética.

La arquitectura del nuevo sistema de detección de contacto visual francés-suizo.

La arquitectura del nuevo sistema de detección de contacto visual francés-suizo.

La postura se normaliza para eliminar información en el eje Y, para crear una representación ‘plana’ de la postura que la pone en paridad con los miles de posturas conocidas aprendidas por el algoritmo (que también han sido ‘aplanadas’), y sus banderas/etiquetas binarias asociadas (es decir, 0: No mirando o 1: Mirando).

La postura se compara con el conocimiento interno del algoritmo sobre cuán bien esa postura corresponde a imágenes de otros peatones que han sido identificados como ‘mirando a la cámara’ – anotaciones realizadas utilizando herramientas personalizadas de navegador desarrolladas por los autores para los trabajadores de Amazon Mechanical Turk que participaron en el desarrollo del conjunto de datos LOOK.

Cada imagen en LOOK fue sometida a escrutinio por cuatro trabajadores de AMT, y solo se incluyeron imágenes donde tres de cada cuatro trabajadores estuvieron de acuerdo en el resultado en el conjunto de datos final.

La información de la parte superior de la cabeza, el núcleo de mucho trabajo previo, es uno de los indicadores menos confiables de la mirada en escenarios urbanos arbitrarios, y se incorpora como una corriente de datos opcional en la arquitectura donde la calidad de captura y la cobertura son suficientes para respaldar una decisión sobre si la persona está mirando la cámara o no. En el caso de personas muy distantes, esta no será una información útil.

Datos

Los investigadores derivaron LOOK de varios conjuntos de datos anteriores que no están adaptados por defecto a esta tarea. Los dos únicos conjuntos de datos que comparten directamente el ámbito del proyecto son JAAD y PIE, y cada uno tiene limitaciones.

JAAD es una oferta de 2017 de la Universidad de York en Toronto, que contiene 390,000 ejemplos etiquetados de peatones, incluyendo cajas delimitadoras y anotaciones de comportamiento. De estos, solo 17,000 están etiquetados como Mirando al conductor (es decir, la cámara ego). El conjunto de datos cuenta con 346 clips de 30 fps que se ejecutan a 5-10 segundos de footage de cámara a bordo grabada en América del Norte y Europa. JAAD tiene un alto incidente de repeticiones, y el número total de peatones únicos es solo 686.

El PIE más reciente (2019), de la Universidad de York en Toronto, es similar a JAAD, en el sentido de que presenta footage de 30 fps a bordo, esta vez derivado de seis horas de conducción a través del centro de Toronto, lo que produce 700,000 peatones anotados y 1,842 peatones únicos, de los cuales solo 180 están mirando la cámara.

En cambio, los investigadores del nuevo artículo compilaron los datos más aptos de tres conjuntos de datos anteriores de conducción autónoma: KITTI, JRDB, y NuScenes, respectivamente del Instituto de Tecnología de Karlsruhe en Alemania, Stanford y la Universidad de Monash en Australia, y una vez spin-off de MIT llamado Nutonomy.

Esta curación resultó en un conjunto diverso de capturas de cuatro ciudades – Boston, Singapur, Tübingen y Palo Alto. Con alrededor de 8000 perspectivas de peatones etiquetadas, los autores afirman que LOOK es el conjunto de datos más diverso para la detección de contacto visual ‘en la naturaleza’.

Entrenamiento y Resultados

La extracción, el entrenamiento y la evaluación se realizaron en una sola NVIDIA GeForce GTX 1080ti con 11 GB de VRAM, que opera en un procesador Intel Core i7-8700 que se ejecuta a 3,20 GHz.

Los autores encontraron que no solo su método mejora las líneas de base actuales en al menos un 5%, sino que también los modelos resultantes entrenados en JAAD se generalizan muy bien a datos no vistos, un escenario probado mediante la mezcla de una serie de conjuntos de datos.

Dado que las pruebas realizadas fueron complejas y tuvieron que hacer provisiones para modelos basados en cultivos (mientras que la isolación y el cultivo de la cara no son centrales para la arquitectura de la nueva iniciativa), véase el artículo para obtener resultados detallados.

Resultados de la precisión promedio (AP) como porcentaje y función de la altura de la caja delimitadora en píxeles para pruebas a través del conjunto de datos JAAD, con los resultados de los autores en negrita.

Resultados de la precisión promedio (AP) como porcentaje y función de la altura de la caja delimitadora en píxeles para pruebas a través del conjunto de datos JAAD, con los resultados de los autores en negrita.

Los investigadores han lanzado su código públicamente, con el conjunto de datos disponible aquí, y el código fuente en GitHub.

Los autores concluyen con la esperanza de que su trabajo inspiren más esfuerzos de investigación en lo que describen como un ‘tema importante pero pasado por alto’.

Escritor sobre aprendizaje automático, especialista en síntesis de imágenes humanas. Anterior jefe de contenido de investigación en Metaphysic.ai.