Inteligența artificială
Studiul arată că modelele AI nu se potrivesc cu procesarea vizuală umană

Un nou studiu de la Universitatea York arată că rețelele neuronale convoluționale profunde (DCNN) nu se potrivesc cu procesarea vizuală umană prin utilizarea percepției configurate a formei. Potrivit profesorului James Elder, coautor al studiului, acest lucru ar putea avea implicații grave și periculoase în lumea reală pentru aplicațiile AI.
Noul studiu intitulat „Modelele de învățare profundă nu reușesc să surprindă natura configurațională a percepției formei umane” a fost publicat în revista Cell Press iScience.
A fost un studiu în colaborare al lui Elder, care deține Catedra de cercetare York în viziune umană și computerizată, precum și poziția de co-director al Centrului York pentru AI și Societate și profesorul Nicholas Baker, care este profesor asistent de psihologie și fost VISTA. bursier postdoctoral la York.
Stimuli vizuali noi „Frankensteins”
Echipa s-a bazat pe stimuli vizuali noi, denumiți „Frankenstein”, care i-au ajutat să exploreze modul în care atât creierul uman, cât și DCNN-urile procesează proprietățile holistice, configurabile ale obiectului.
„Frankenstein-urile sunt pur și simplu obiecte care au fost desfăcute și puse la loc în sens greșit”, spune Elder. „Ca urmare, au toate caracteristicile locale potrivite, dar în locuri greșite.”
Studiul a constatat că DCNN-urile nu sunt confundate de Frankenstein așa cum este sistemul vizual uman. Acest lucru dezvăluie o insensibilitate la proprietățile configurabile ale obiectului.
„Rezultatele noastre explică de ce modelele AI profunde eșuează în anumite condiții și indică necesitatea de a lua în considerare sarcini dincolo de recunoașterea obiectelor pentru a înțelege procesarea vizuală din creier”, continuă Elder. „Aceste modele profunde tind să ia „comenzi rapide” atunci când rezolvă sarcini complexe de recunoaștere. Deși aceste comenzi rapide pot funcționa în multe cazuri, ele pot fi periculoase în unele dintre aplicațiile AI din lumea reală la care lucrăm în prezent cu partenerii noștri din industrie și guvernamentali.”

Imagine: Universitatea York
Implicații în lumea reală
Elder spune că una dintre aceste aplicații este sistemele de siguranță video în trafic.
„Obiectele dintr-o scenă de trafic aglomerată – vehiculele, bicicletele și pietonii – se obstrucționează reciproc și ajung la ochiul unui șofer ca un amestec de fragmente deconectate”, spune el. „Creierul trebuie să grupeze corect acele fragmente pentru a identifica categoriile și locațiile corecte ale obiectelor. Un sistem AI pentru monitorizarea siguranței traficului care este capabil să perceapă doar fragmentele în mod individual va eșua în această sarcină, înțelegând potențial greșit riscurile pentru utilizatorii vulnerabili ai drumurilor.”
Cercetătorii spun, de asemenea, că modificările aduse antrenamentului și arhitecturii menite să facă rețelele mai asemănătoare creierului nu au realizat procesarea configurată. Niciuna dintre rețele nu a putut prezice cu exactitate judecățile despre obiecte umane proces cu proces.
„Speculăm că, pentru a se potrivi cu sensibilitatea configurației umane, rețelele trebuie antrenate pentru a rezolva o gamă mai largă de sarcini de obiecte dincolo de recunoașterea categoriei”, conchide Elder.