Intelligenza Artificiale
Lo studio mostra che i modelli di intelligenza artificiale non corrispondono all'elaborazione visiva umana

Un nuovo studio della York University mostra che le reti neurali convoluzionali profonde (DCNN) non corrispondono all'elaborazione visiva umana utilizzando la percezione della forma configurale. Secondo il professor James Elder, coautore dello studio, ciò potrebbe avere implicazioni nel mondo reale serie e pericolose per le applicazioni di intelligenza artificiale.
Il nuovo studio intitolato “I modelli di deep learning non riescono a catturare la natura configurativa della percezione della forma umana” è stato pubblicato sulla rivista Cell Press iScienza.
Si è trattato di uno studio collaborativo di Elder, che detiene la York Research Chair in Human and Computer Vision, nonché la posizione di co-direttore del Center for AI & Society di York, e del professor Nicholas Baker, che è un assistente professore di psicologia ed ex VISTA borsista post-dottorato a York.
Nuovi stimoli visivi "Frankenstein"
Il team ha fatto affidamento su nuovi stimoli visivi denominati "Frankenstein", che li hanno aiutati a esplorare il modo in cui sia il cervello umano che i DCNN elaborano le proprietà olistiche e configurative degli oggetti.
"I Frankenstein sono semplicemente oggetti che sono stati smontati e rimontati nel modo sbagliato", dice Elder. "Di conseguenza, hanno tutte le giuste caratteristiche locali, ma nei posti sbagliati".
Lo studio ha scoperto che i DCNN non sono confusi dai Frankenstein come lo è il sistema visivo umano. Ciò rivela un'insensibilità alle proprietà configurabili dell'oggetto.
"I nostri risultati spiegano perché i modelli di intelligenza artificiale profonda falliscono in determinate condizioni e indicano la necessità di considerare compiti oltre il riconoscimento degli oggetti per comprendere l'elaborazione visiva nel cervello", continua Elder. “Questi modelli profondi tendono a prendere 'scorciatoie' quando risolvono complessi compiti di riconoscimento. Sebbene queste scorciatoie possano funzionare in molti casi, possono essere pericolose in alcune delle applicazioni di intelligenza artificiale del mondo reale su cui stiamo attualmente lavorando con i nostri partner del settore e del governo".

Immagine: Università di York
Implicazioni nel mondo reale
Elder dice che una di queste applicazioni sono i sistemi di sicurezza video del traffico.
"Gli oggetti in una scena di traffico intenso - i veicoli, le biciclette e i pedoni - si ostacolano a vicenda e arrivano all'occhio di un guidatore come un miscuglio di frammenti sconnessi", dice. “Il cervello ha bisogno di raggruppare correttamente quei frammenti per identificare le categorie e le posizioni corrette degli oggetti. Un sistema di intelligenza artificiale per il monitoraggio della sicurezza del traffico che è in grado di percepire solo i frammenti individualmente fallirà in questo compito, fraintendendo potenzialmente i rischi per gli utenti della strada vulnerabili».
I ricercatori affermano anche che le modifiche alla formazione e all'architettura volte a rendere le reti più simili al cervello non hanno raggiunto l'elaborazione configurale. Nessuna delle reti potrebbe prevedere con precisione i giudizi sugli oggetti umani prova per prova.
"Ipotizziamo che per corrispondere alla sensibilità configurativa umana, le reti debbano essere addestrate per risolvere una gamma più ampia di compiti oggetto al di là del riconoscimento di categoria", conclude Elder












