Kunstig intelligens
Studie viser, at AI-modeller ikke matcher menneskelig visuel bearbejdning

En ny studie fra York University viser, at dybe convolutionelle neurale netværk (DCNNs) ikke matcher menneskelig visuel bearbejdning ved at bruge konfigurationsform perception. Ifølge professor James Elder, medforfatter af studiet, kan dette have alvorlige og farlige virkelighedsimplicationer for AI-anvendelser.
Den nye studie med titlen “Deep learning models fail to capture the configural nature of human shape perception” blev offentliggjort i Cell Press-tidsskriftet iScience.
Det var en samarbejdsstudie mellem Elder, der besidder York Research Chair i Human og Computer Vision, samt stillingen som co-direktør for York’s Center for AI & Society, og professor Nicholas Baker, der er en assistent psykologiprofessor og tidligere VISTA-postdoc-fellow ved York.
Ny visuel stimuli “Frankensteins”
Holdet afhængigt af nye visuelle stimuli, der blev kaldt “Frankensteins”, som hjalp dem med at undersøge, hvordan både det menneskelige hjerte og DCNNs behandler holistiske, konfigurationsobjekt-egenskaber.
“Frankensteins er blot objekter, der er taget fra hinanden og sat sammen på forkert måde,” siger Elder. “Som resultat har de alle de rigtige lokale funktioner, men på forkerte steder.”
Studiet fandt, at DCNNs ikke er forvirret af Frankensteins som det menneskelige visuelle system er. Dette afslører en insensitivitet over for konfigurationsobjekt-egenskaber.
“Vores resultater forklarer, hvorfor dybe AI-modeller fejler under visse betingelser og peger på behovet for at overveje opgaver ud over objektgenkendelse for at forstå visuel bearbejdning i hjernen,” fortsætter Elder. “Disse dybe modeller tager ‘genveje’, når de løser komplekse genkendelsesopgaver. Selvom disse genveje kan fungere i mange tilfælde, kan de være farlige i nogle af de virkelighedsanvendelser, vi arbejder på med vores industri- og regeringspartnere.”

Image: York University
Virkelighedsimplicationer
Elder siger, at en af disse anvendelser er trafikvideo-sikkerhedssystemer.
“Objekterne i en travl trafikscene — køretøjer, cyklister og fodgængere — blokerer hinanden og ankommer til øjet på en chauffør som en samling af løsrevne fragmenter,” siger han. “Hjernen har brug for at korrekt gruppere disse fragmenter for at identificere de korrekte kategorier og placeringer af objekterne. Et AI-system til trafiksikkerheds-overvågning, der kun kan opfatte fragmenterne individuelt, vil fejle i denne opgave og potentielt misforstå risikoen for sårbare vejbrugere.”
Forskerne siger også, at ændringer i træning og arkitektur rettet mod at gøre netværk mere hjernelignende ikke opnåede konfigurationsbearbejdning. Ingen af netværkene kunne nøjagtigt forudsige prøve-for-prøve menneskelige objektbedømmelser.
“Vi spekulerer på, at for at matche menneskelig konfigurationsfølsomhed, netværkene må trænes til at løse en bredere række af objekt-opgaver ud over kategorigenkendelse,” afslutter Elder










