Inteligência artificial
Estudo mostra que modelos de IA não correspondem ao processamento visual humano

Um novo estudo da Universidade de York mostra que as redes neurais convolucionais profundas (DCNNs) não correspondem ao processamento visual humano usando a percepção de forma configural. De acordo com o professor James Elder, coautor do estudo, isso pode ter implicações sérias e perigosas no mundo real para aplicativos de IA.
O novo estudo intitulado “Os modelos de aprendizado profundo falham em capturar a natureza configuracional da percepção da forma humana”foi publicado na revista Cell Press iCiência.
Foi um estudo colaborativo de Elder, que ocupa a Cátedra de Pesquisa em Visão Humana e Computacional de York, bem como o cargo de codiretor do Centro de IA e Sociedade de York, e do professor Nicholas Baker, que é professor assistente de psicologia e ex-VISTA pós-doutorado em York.
Novos estímulos visuais “Frankensteins”
A equipe contou com novos estímulos visuais chamados de “Frankensteins”, que os ajudaram a explorar como o cérebro humano e as DCNNs processam propriedades holísticas e configurativas de objetos.
“Frankensteins são simplesmente objetos que foram desmontados e montados do jeito errado”, diz Elder. “Como resultado, eles têm todos os recursos locais certos, mas nos lugares errados.”
O estudo descobriu que os DCNNs não são confundidos pelos Frankensteins como o sistema visual humano. Isso revela uma insensibilidade às propriedades de objetos de configuração.
“Nossos resultados explicam por que os modelos profundos de IA falham sob certas condições e apontam para a necessidade de considerar tarefas além do reconhecimento de objetos para entender o processamento visual no cérebro”, continua Elder. “Esses modelos profundos tendem a usar 'atalhos' ao resolver tarefas complexas de reconhecimento. Embora esses atalhos possam funcionar em muitos casos, eles podem ser perigosos em alguns dos aplicativos de IA do mundo real em que estamos trabalhando atualmente com nossos parceiros do setor e do governo.”

Imagem: Universidade de York
Implicações do mundo real
Elder diz que uma dessas aplicações são os sistemas de segurança de tráfego por vídeo.
“Os objetos em uma cena de tráfego intenso – os veículos, bicicletas e pedestres – obstruem uns aos outros e chegam aos olhos do motorista como uma mistura de fragmentos desconectados”, diz ele. “O cérebro precisa agrupar corretamente esses fragmentos para identificar as categorias e localizações corretas dos objetos. Um sistema de IA para monitoramento de segurança no trânsito que só é capaz de perceber os fragmentos individualmente falhará nessa tarefa, potencialmente interpretando mal os riscos para os usuários vulneráveis da estrada”.
Os pesquisadores também dizem que as modificações no treinamento e na arquitetura destinadas a tornar as redes mais semelhantes ao cérebro não alcançaram o processamento configural. Nenhuma das redes poderia prever com precisão os julgamentos de objetos humanos julgamento por julgamento.
“Especulamos que, para corresponder à sensibilidade configuracional humana, as redes devem ser treinadas para resolver uma gama mais ampla de tarefas de objetos além do reconhecimento da categoria”, conclui Elder












