Ângulo de Anderson

Detecção de Contato Visual a Partir da Pose Corporal com Aprendizado de Máquina

Publicado em 10 de dezembro de 2021

Atualizado em 24 de maio de 2026

Por

Martin Anderson

Pesquisadores da França e da Suíça desenvolveram um sistema de visão computacional que pode estimar se uma pessoa está olhando diretamente para a câmera ‘ego’ de um sistema de IA com base apenas na forma como a pessoa está de pé ou se movendo.

O novo quadro utiliza informações muito reducionais para fazer essa avaliação, na forma de pontos-chave semânticos (veja a imagem abaixo), em vez de tentar principalmente analisar a posição dos olhos em imagens de rostos. Isso torna o método de detecção resultante muito leve e ágil, em comparação com arquiteturas de detecção de objetos mais intensivas em dados, como o YOLO.

O novo quadro avalia se uma pessoa na rua está olhando para o sensor de captura da IA, com base apenas na disposição do seu corpo. Aqui, as pessoas destacadas em verde são provavelmente olhando para a câmera, enquanto as que estão em vermelho são mais prováveis de estar olhando para longe. Fonte: https://arxiv.org/pdf/2112.04212.pdf

Embora o trabalho seja motivado pelo desenvolvimento de melhores sistemas de segurança para veículos autônomos, os autores do novo artigo admitem que ele pode ter aplicações mais gerais em outras indústrias, observando ‘mesmo em cidades inteligentes, a detecção de contato visual pode ser útil para entender melhor o comportamento dos pedestres, por exemplo, identificar para onde sua atenção está ou quais sinais públicos eles estão olhando’.

Para ajudar no desenvolvimento posterior desse e de outros sistemas, os pesquisadores compilaram um novo e abrangente conjunto de dados chamado LOOK, que aborda diretamente os desafios específicos da detecção de contato visual em cenários arbitrários, como cenas de rua percebidas a partir da câmera de um veículo autônomo ou cenas de multidão casual pelas quais um robô pode precisar navegar e se desviar do caminho dos pedestres.

Resultados do quadro, com ‘olhadores’ identificados em verde.

A pesquisa é intitulada Os Pedestres Prestam Atenção? Detecção de Contato Visual no Mundo Real e vem de quatro pesquisadores da iniciativa de pesquisa Visual Intelligence for Transportation (VITA) na Suíça e um da Universidade de Sorbonne.

Arquitetura

A maioria dos trabalhos anteriores nesse campo foi centrada na atenção do motorista, usando aprendizado de máquina para analisar a saída de câmeras voltadas para o motorista e dependendo de uma visão constante, fixa e próxima do motorista – um luxo que é improvável estar disponível nos feeds de baixa resolução de câmeras de TV públicas, onde as pessoas podem estar muito distantes para que um sistema de análise facial possa resolver sua disposição ocular, e onde outras oclusões (como óculos de sol) também se intrometem.

Mais central para o objetivo do projeto, as câmeras voltadas para fora em veículos autônomos não estarão necessariamente em um cenário ótimo, tornando a informação de ‘baixo nível’ de pontos-chave ideal como base para um quadro de análise de olhar. Os sistemas de veículos autônomos precisam de uma maneira altamente responsiva e extremamente rápida de entender se um pedestre – que pode sair da calçada para o caminho do carro – viu o veículo autônomo. Nessa situação, a latência pode significar a diferença entre a vida e a morte.

A arquitetura modular desenvolvida pelos pesquisadores recebe uma imagem (geralmente) de corpo inteiro de uma pessoa, da qual são extraídos 2D articulações em uma forma base, esquelética.

A arquitetura do novo sistema de detecção de contato visual franco-suíço.

A pose é normalizada para remover informações no eixo Y, para criar uma representação ‘plana’ da pose que a coloca em paridade com as milhares de poses conhecidas aprendidas pelo algoritmo (que também foram ‘aplanadas’), e suas bandeiras binárias/labels associadas (ou seja, 0: Não Olhando ou 1:Olhando).

A pose é comparada com o conhecimento interno do algoritmo sobre como bem essa postura corresponde a imagens de outros pedestres que foram identificados como ‘olhando para a câmera’ – anotações feitas usando ferramentas de navegador personalizadas desenvolvidas pelos autores para os trabalhadores da Amazon Mechanical Turk que participaram do desenvolvimento do conjunto de dados LOOK.

Cada imagem em LOOK foi submetida a escrutínio por quatro trabalhadores da AMT, e apenas imagens onde três de quatro concordaram com o resultado foram incluídas na coleção final.

Informações de corte de cabeça, o núcleo de muito trabalho anterior, estão entre os indicadores menos confiáveis de olhar em cenários urbanos arbitrários e são incorporados como um fluxo de dados opcional na arquitetura onde a qualidade de captura e cobertura é suficiente para apoiar uma decisão sobre se a pessoa está olhando para a câmera ou não. No caso de pessoas muito distantes, isso não será um dado útil.

Dados

Os pesquisadores derivaram LOOK de vários conjuntos de dados anteriores que não são por padrão adequados para essa tarefa. Os dois únicos conjuntos de dados que compartilham diretamente o âmbito do projeto são JAAD e PIE, e cada um tem limitações.

JAAD é uma oferta de 2017 da Universidade de York em Toronto, contendo 390.000 exemplos rotulados de pedestres, incluindo caixas delimitadoras e anotações de comportamento. Desses, apenas 17.000 são rotulados como Olhando para o motorista (ou seja, a câmera ego). O conjunto de dados apresenta 346 clips de 30fps executados a 5-10 segundos de filmagem de câmera a bordo registrada na América do Norte e Europa. JAAD tem um alto incidente de repetições, e o número total de pedestres únicos é apenas 686.

O mais recente (2019) PIE, da Universidade de York em Toronto, é semelhante ao JAAD, pois apresenta filmagem a bordo de 30fps, desta vez derivada de seis horas de condução pelo centro de Toronto, o que produz 700.000 pedestres anotados e 1.842 pedestres únicos, dos quais apenas 180 estão olhando para a câmera.

Em vez disso, os pesquisadores do novo artigo compilaram os dados mais apropriados de três conjuntos de dados anteriores de condução autônoma: KITTI, JRDB e NuScenes, respectivamente do Instituto de Tecnologia de Karlsruhe na Alemanha, Stanford e Universidade de Monash na Austrália, e um spin-off do MIT chamado Nutonomy.

Essa curadoria resultou em um conjunto diversificado de capturas de quatro cidades – Boston, Singapura, Tübingen e Palo Alto. Com cerca de 8.000 perspectivas de pedestres rotuladas, os autores afirmam que LOOK é o conjunto de dados mais diversificado para detecção de contato visual ‘no mundo real’.

Treinamento e Resultados

Extração, treinamento e avaliação foram realizados em uma única placa gráfica NVIDIA GeForce GTX 1080ti com 11gb de VRAM, operando em um processador Intel Core i7-8700 com 3,20GHz.

Os autores descobriram que não apenas seu método melhora as linhas de base atuais em pelo menos 5%, mas também que os modelos resultantes treinados em JAAD generalizam muito bem para dados não vistos, um cenário testado misturando uma variedade de conjuntos de dados.

Como o teste realizado foi complexo e teve que fazer provisão para modelos baseados em corte (enquanto a isolamento e corte de face não são centrais para a arquitetura da nova iniciativa), veja o artigo para resultados detalhados.

Resultados para precisão média (AP) como porcentagem e função da altura da caixa delimitadora em pixels para testes na base de dados JAAD, com os resultados dos autores em negrito.

Os pesquisadores liberaram seu código publicamente, com o conjunto de dados disponível aqui e o código-fonte no GitHub.

Os autores concluem com a esperança de que seu trabalho inspire esforços de pesquisa adicionais em um tópico que descrevem como ‘importante, mas negligenciado’.

Conjunto de dados JAAD, com os resultados dos autores em negrito.[/caption] Os pesquisadores liberaram seu código publicamente, com o conjunto de dados disponível aqui, e o código-fonte no GitHub. Os autores concluem com a esperança de que seu trabalho inspire esforços de pesquisa adicionais em um tópico que descrevem como ‘importante, mas negligenciado’.