Kunsmatige Intelligensie

Oorinterpretasie kan 'n groter en meer onoplosbare bedreiging wees as om oor te pas

Opgedateer on Desember 9, 2022

As jou goeie vriendin Alice daarvan hou om geel truie te dra, gaan jy baie meer geel truie sien as die gemiddelde persoon. Na 'n rukkie is dit moontlik dat wanneer jy 'n verskillende vrou wat 'n geel trui dra, die kernkonsep Alice sal na vore kom.

As jy 'n vrou sien wat 'n geel trui dra wat lyk na Alice 'n bietjie, jy kan haar selfs 'n oomblik vir jou vriendin misgis.

Maar dit is nie Alice. Uiteindelik gaan jy dit besef geel trui is nie 'n nuttige sleutel om Alice te identifiseer nie, aangesien sy hulle nooit in die somer dra nie, en ook nie altyd in die winter dra nie. Op 'n manier in die vriendskap sal jy begin afgradeer geel trui as moontlik Alice identifiseerder, omdat jou ervaring daarvan onbevredigend was, en die kognitiewe energie wat gebruik word om dit in stand te hou kortpad word nie gereeld beloon nie.

As jy egter 'n rekenaarvisie-gebaseerde herkenningstelsel is, is dit heel moontlik dat jy Alice oral sien waar jy 'n geel trui sien.

Dit is nie jou skuld nie; jy is aangekla om Alice ten alle koste te identifiseer, uit die minimum beskikbare inligting, en daar is geen tekort aan kognitiewe hulpbronne om hierdie reduktiewe te handhaaf nie Alice krip.

Ongewone onderskeidingsvermoë

Volgens 'n onlangse referaat van die MIT Computer Science & Artificial Intelligence Laboratory (CSAIL) en Amazon Web Services, hierdie sindroom, gedoop oorinterpretasie, is algemeen in die rekenaarvisie (CV) navorsingsveld; kan nie versag word deur oorpassing aan te spreek nie (aangesien dit nie 'n direkte aanvulling van oorpas is nie); word algemeen bewys in navorsing wat die twee mees invloedryke datastelle in beeldherkenning en transformasie gebruik, CIFAR-10 en IMAGEnet; en het geen maklike middels nie – beslis nie goedkoop middels.

Die navorsers het bevind dat wanneer insetteopleidingsbeelde tot slegs 5% van hul samehangende inhoud verminder is, 'n wye reeks gewilde raamwerke voortgegaan het om die beelde korrek te klassifiseer, wat in die meeste gevalle as visuele 'brabbeltaal' vir enige menslike waarnemer voorkom:

Oorspronklike opleidingsbeelde van CIFAR-10, verminder tot net 5% van die oorspronklike piekselinhoud, maar tog korrek geklassifiseer deur 'n reeks hoogs gewilde rekenaarvisieraamwerke teen 'n akkuraatheid van tussen 90-99%. Bron: https://arxiv.org/pdf/2003.08907.pdf

In sommige gevalle vind die klassifikasieraamwerke eintlik hierdie afgeskaalde beelde makliker om korrek te klassifiseer as die volle rame in die oorspronklike opleidingsdata, met die outeurs wat waarneem '[CNN's] is meer selfversekerd op hierdie pieksel-substelle as op volledige beelde'.

Dit dui op 'n potensieel ondermynende tipe 'bedrog' wat as algemene praktyk voorkom vir CV-stelsels wat maatstafdatastelle soos CIFAR-10 en ImageNet gebruik, en maatstafraamwerke soos VGG16, ResNet20, en ResNet18.

Oorinterpretasie het noemenswaardige gevolge vir CV-gebaseerde outonome voertuigstelsels, wat die afgelope tyd in fokus gekom het met Tesla se besluit om beeldinterpretasie bo LiDAR en ander straalgebaseerde waarnemingstelsels vir selfbestuuralgoritmes te bevoordeel.

Alhoewel 'kortpadleer' 'n bekende uitdaging, en 'n veld van aktiewe navorsing in rekenaarvisie, sê die koerant se skrywers dat die Duitse/Kanadese navorsing wat veral die probleem in 2019 geraam het, erken nie dat die 'onwaar' pixel-subversamelings wat oorinterpretasie kenmerk 'statisties geldige data' is, wat moontlik aangespreek moet word in terme van argitektuur en hoërvlakbenaderings, eerder as deur noukeuriger samestelling van datastelle.

Die papier is getiteld Oorinterpretasie onthul beeldklassifikasiemodelpatologieë, en kom van Brandon Carter, Siddhartha Jain en David Gifford by CSAIL, in samewerking met Jonas Mueller van Amazon Web Services. Kode vir die vraestel is beskikbaar by https://github.com/gifford-lab/overinterpretation.

Ontleed die data

Die data-gestroopte beelde wat die navorsers gebruik het, word deur hulle genoem Voldoende invoer-subversamelings (SIS) – in werklikheid bevat 'n SIS-prent die minimum moontlike 'buitenste onderstel' wat 'n beeld goed genoeg kan omlyn om 'n rekenaarvisiestelsel in staat te stel om die oorspronklike onderwerp van die beeld te identifiseer (bv. hond, skip, Ens.)

In die bostaande ry sien ons volledige ImageNet-bekragtigingsbeelde; hieronder, die SIS-substelle, korrek geklassifiseer deur 'n Inception V3-model met 90% vertroue, blykbaar gebaseer op alles wat oorbly van die beeld - agtergrondkonteks. Natuurlik het die laaste kolom noemenswaardige implikasies vir naambordherkenning in selfbestuurvoertuigalgoritmes.

In kommentaar op die resultate wat in die bostaande beeld verkry is, neem die navorsers waar:

'Ons vind SIS-pixels is buite die werklike voorwerp gekonsentreer wat die klasetiket bepaal. Byvoorbeeld, in die "pizza"-beeld is die SIS gekonsentreer op die vorm van die bord en die agtergrondtafel, eerder as die pizza self, wat daarop dui dat die model swak kan veralgemeen op beelde wat verskillende sirkelvormige items op 'n tafel bevat. In die "reusepanda"-beeld bevat die SIS bamboes, wat waarskynlik in die versameling ImageNet-foto's vir hierdie klas verskyn het.

'In die "verkeerslig" en "straatteken"-beelde bestaan die SIS uit pixels in die lug, wat daarop dui dat outonome voertuigstelsels wat van hierdie modelle afhanklik kan wees, noukeurig geëvalueer moet word vir oorinterpretasie-patologieë.'

SIS-beelde word nie lukraak geskeer nie, maar is vir die projek geskep deur 'n Batched Gradient Backselect-proses, op Begin V3 en ResNet50 via PyTorch. Die beelde word afgelei deur 'n ablasieroetine wat die verband in ag neem tussen 'n model se vermoë om 'n beeld akkuraat te klassifiseer en die areas waarin die oorspronklike data iteratief verwyder word.

Om die geldigheid van SIS te bevestig, het die skrywers 'n proses van ewekansige pixelverwydering, en het die resultate 'aansienlik minder insiggewend' in toetse gevind, wat aandui dat SIS-beelde werklik die minimum data verteenwoordig wat gewilde modelle en datastelle nodig het om aanvaarbare voorspellings te maak.

'n Kykie na enige van die verminderde beelde dui daarop dat hierdie modelle moet misluk in ooreenstemming met menslike vlakke van visuele onderskeiding, wat sal lei tot 'n mediaan akkuraatheid van minder as 20%.

Met SIS-beelde wat tot net 5% van hul oorspronklike pixels verminder is, behaal mense skaars 'n 'groter as ewekansige' klassifikasie-sukseskoers, teenoor die 90-99% sukseskoers van die gewilde datastelle en raamwerke wat in die koerant bestudeer is.

Beyond The Overfit

Ooraanpassing vind plaas wanneer 'n masjienleermodel so wyd op 'n datastel oefen dat dit vaardig word om voorspellings te maak vir daardie spesifieke data, maar is baie minder effektief (of selfs heeltemal ondoeltreffend) op vars data wat na opleiding daaraan bekendgestel word (buite verspreiding data).

Die navorsers merk op dat die huidige akademiese en nywerheidsbelangstelling in die bekamping van ooraanpassing nie terselfdertyd oorinterpretasie gaan oplos nie, want die gestroopte pixel-subversamelings wat identifiseerbare beelde vir rekenaars en onsinnige daubs vir mense verteenwoordig, is eintlik werklik toepaslike data, eerder as 'n 'obsessiewe' konsentrasie op swak saamgestelde of anemiese data:

'Overinterpretasie hou verband met oorpassing, maar oorpassing kan gediagnoseer word deur verminderde toetsakkuraatheid. Oorinterpretasie kan voortspruit uit ware statistiese seine in die onderliggende datastelverspreiding wat toevallig voortspruit uit spesifieke eienskappe van die databron (bv. dermatoloë se liniale).

'Overinterpretasie kan dus moeiliker wees om te diagnoseer, aangesien dit besluite erken wat deur statisties geldige kriteria geneem word, en modelle wat sulke kriteria gebruik, kan uitblink op maatstawwe.'

Moontlike oplossings

Die skrywers stel voor dat modelsamestelling, waar veelvuldige argitekture bydra tot die evaluering en opleidingsproses, kan 'n manier help om oorinterpretasie te versag. Hulle het ook gevind dat aansoek gedoen insette uitval, wat oorspronklik ontwerp is om oorpassing te belemmer, het gelei tot ''n klein afname' in CIFAR-10-toetsakkuraatheid (wat waarskynlik wenslik is), maar 'n 'beduidende' (~6%) toename in die modelle se akkuraatheid op ongesiene data. Die lae syfers dui egter daarop dat dit onwaarskynlik is dat enige daaropvolgende genesing vir ooraanpassing ten volle oorinterpretasie sal aanspreek.

Die skrywers gee die moontlikheid toe om te gebruik opvallende kaarte om aan te dui watter areas van 'n prent pertinent is vir kenmerk-onttrekking, maar let daarop dat dit die doelwit van geoutomatiseerde beeldontleding verslaan en menslike annotasie vereis wat op skaal onuitvoerbaar is. Hulle neem verder waar dat opvallende kaarte gevind is slegs ruwe beramers in terme van insig in modelbedrywighede.

Die referaat sluit af:

'Gegewe die bestaan van nie-opvallende pixel-subsets wat alleen voldoende is vir korrekte klassifikasie, kan 'n model uitsluitlik op sulke patrone staatmaak. In hierdie geval behoort 'n interpreteerbaarheidsmetode wat die model getrou beskryf hierdie onsinnige rasionale uit te voer, terwyl interpreteerbaarheidsmetodes wat rasionale teenoor menslike voorgangers vooroordeel, resultate kan lewer wat gebruikers mislei om te dink hul modelle optree soos bedoel.'

Eerste gepubliseer 13 Januarie 2022.