tynkä Ylitulkinta voi olla suurempi ja vaikeampi uhka kuin liiallinen sovittaminen - Unite.AI
Liity verkostomme!

Tekoäly

Ylitulkinta voi olla suurempi ja vaikeampi uhka kuin liiallinen sovittaminen

mm
Päivitetty on

Jos hyvä ystäväsi Alice pitää keltaisista neulepuseroista, tulet näkemään paljon enemmän keltaisia ​​neulepuseroita kuin tavalliset ihmiset. Jonkin ajan kuluttua on mahdollista, että kun näet a eri nainen yllään keltainen villapaita, ydinkonsepti Alice tulee mieleen.

Jos näet naisen, jolla on yllään keltainen pusero, joka Muistuttaa Alice hieman, saatat jopa hetkellisesti sekoittaa hänet ystäväksesi.

Mutta se on emme Alice. Lopulta tulet ymmärtämään sen keltainen villapaita ei ole hyödyllinen avain Alicen tunnistamiseen, koska hän ei koskaan käytä niitä kesällä eikä aina myöskään talvella. Jollakin tavalla ystävyyteen alat laskea keltainen villapaita kuin mahdollista Alice tunniste, koska kokemuksesi siitä on ollut epätyydyttävä, ja sen ylläpitämiseen käytetty kognitiivinen energia oikotie ei usein palkita.

Jos käytät tietokonenäköön perustuvaa tunnistusjärjestelmää, on kuitenkin täysin mahdollista, että näet Alicen kaikkialla, missä näet keltaisen villapaidan.

Se ei ole sinun vikasi; sinut on määrätty tunnistamaan Liisa hinnalla millä hyvänsä, käytettävissä olevien vähimmäistietojen perusteella, eikä kognitiivisista resursseista ole pulaa tämän vähentävän toiminnan ylläpitämiseksi. Alice seimi.

Kummallinen erottelukyky

MIT Computer Science & Artificial Intelligence Laboratoryn (CSAIL) ja Amazon Web Servicesin tuoreen paperin mukaan tämä oireyhtymä on nimeltään ylitulkinta, on yleistä tietokonenäön (CV) tutkimusalalla; ei voida lieventää korjaamalla yliasennusta (koska se ei ole suora lisäys ylisovitukseen); on yleisesti havaittu tutkimuksessa, joka käyttää kahta vaikutusvaltaisinta tietojoukkoa kuvantunnistuksessa ja muuntamisessa, CIFAR-10 ja IMAGEnet; eikä sillä ole helppoja parannuskeinoja – ei todellakaan halpa korjaustoimenpiteitä.

Tutkijat havaitsivat, että kun syötetyt harjoituskuvat pienennettiin vain 5 prosenttiin niiden yhtenäisestä sisällöstä, monet suositut kehykset jatkoivat kuvien oikein luokittelua, jotka näyttävät useimmissa tapauksissa visuaalisilta "sisaruksilta" kenelle tahansa ihmistarkkailijalle:

Alkuperäiset harjoituskuvat CIFAR-10:stä, pienennetty vain 5 prosenttiin alkuperäisestä pikselisisällöstä, mutta silti oikein luokiteltu useiden erittäin suosittujen tietokonenäkökehysten mukaan 90-99 prosentin tarkkuudella. Lähde: https://arxiv.org/pdf/2003.08907.pdf

Alkuperäiset harjoituskuvat CIFAR-10:stä, pienennetty vain 5 prosenttiin alkuperäisestä pikselisisällöstä, mutta luokiteltu oikein useiden erittäin suosittujen tietokonenäkökehysten mukaan 90-99 prosentin tarkkuudella. Lähde: https://arxiv.org/pdf/2003.08907.pdf

Joissakin tapauksissa luokittelukehykset itse asiassa löytävät nämä pienennetyt kuvat helpompaa luokittelemaan alkuperäisen harjoitustiedon täydet kehykset oikein tekijöiden tarkkailemalla "[CNN:t] ovat luottavaisempia näissä pikselialajoukoissa kuin kokonaisissa kuvissa".

Tämä viittaa mahdollisesti heikentävään "huijauksen" tyyppiin, jota esiintyy yleisenä käytäntönä CV-järjestelmissä, jotka käyttävät vertailutietosarjoja, kuten CIFAR-10 ja ImageNet, sekä vertailukehyksiä, kuten VGG16, ResNet20ja ResNet18.

Ylitulkinnalla on huomattavia seurauksia CV-pohjaisissa autonomisissa ajoneuvojärjestelmissä, jotka ovat nousseet viime aikoina huomion kohteena. Teslan päätös suosia kuvien tulkintaa LiDAR:in ja muiden säteilypohjaisten tunnistusjärjestelmien sijaan itseohjautuvissa algoritmeissa.

Vaikka "pikaoppiminen" on a tunnettu haaste, ja aktiivisen tietokonenäön tutkimuksen kenttä, paperin kirjoittajat kommentoivat, että  Saksalainen/Kanadalainen tutkimus Vuonna 2019 ongelmaa erityisesti hahmotteleva seikka ei tunnusta, että ylitulkinnalle ominaiset "harhaanjohtavat" pikselien osajoukot ovat "tilastollisesti päteviä tietoja", joita on ehkä käsiteltävä arkkitehtuurin ja korkeamman tason lähestymistapojen kannalta sen sijaan, että tarkasteltaisiin tarkemmin tietojoukot.

- paperi on otsikko Ylitulkinta paljastaa kuvan luokittelumallin patologioita, ja tulee Brandon Carterilta, Siddhartha Jainilta ja David Giffordilta CSAILissa yhteistyössä Jonas Muellerin kanssa Amazon Web Services -palvelusta. Lehden koodi löytyy osoitteesta https://github.com/gifford-lab/overinterpretation.

Tietojen leikkaus

Tutkijoiden käyttämät datakuvioidut kuvat ovat he kutsuneet niitä Riittävästi syötetyt osajoukot (SIS) – käytännössä SIS-kuva sisältää mahdollisimman vähän "ulompaa runkoa", joka voi rajata kuvan riittävän hyvin, jotta tietokonenäköjärjestelmä pystyy tunnistamaan kuvan alkuperäisen kohteen (esim. koira, lähettää, Jne.).

Yllä olevalla rivillä näemme täydelliset ImageNet-validointikuvat; alla SIS-osajoukot, jotka on luokiteltu oikein Inception V3 -mallilla 90 %:n varmuudella, ilmeisesti kaiken jäljelle jääneen kuvan perusteella – taustakontekstin perusteella. Luonnollisesti viimeisellä sarakkeella on huomattavia vaikutuksia itseajavien ajoneuvojen algoritmien opasteiden tunnistamiseen.

Yllä olevalla rivillä näemme täydelliset ImageNet-validointikuvat; alla SIS-osajoukot, jotka on luokiteltu oikein Inception V3 -mallilla 90 %:n varmuudella, ilmeisesti kaiken jäljelle jääneen kuvan perusteella – taustakontekstin perusteella. Luonnollisesti viimeisellä sarakkeella on huomattavia vaikutuksia itseajavien ajoneuvojen algoritmien opasteiden tunnistamiseen.

Kommentoimalla yllä olevassa kuvassa saatuja tuloksia tutkijat havaitsevat:

SIS-pikselit ovat keskittyneet luokkatunnisteen määrittävän todellisen objektin ulkopuolelle. Esimerkiksi "pizza"-kuvassa SIS keskittyy lautasen ja taustapöydän muotoon itse pizzan sijaan, mikä viittaa siihen, että malli voisi yleistää huonosti kuvissa, jotka sisältävät erilaisia ​​pyöreitä esineitä pöydällä. "Jättipanda" -kuvassa SIS sisältää bambua, joka todennäköisesti esiintyi tämän luokan ImageNet-valokuvien kokoelmassa.

"Liikennevalo- ja katumerkkikuvissa SIS koostuu pikseleistä taivaalla, mikä viittaa siihen, että autonomiset ajoneuvojärjestelmät, jotka voivat riippua näistä malleista, tulisi arvioida huolellisesti ylitulkintahäiriöiden varalta."

SIS-kuvia ei leikata satunnaisesti, vaan ne on luotu projektia varten Batched Gradient Backselect -prosessilla, Aloitus V3 ja ResNet50 PyTorchin kautta. Kuvat johdetaan ablaatiorutiinilla, joka ottaa huomioon mallin kyvyn luokitella kuva tarkasti ja niiden alueiden välillä, joilta alkuperäinen data iteratiivisesti poistetaan.

SIS:n oikeellisuuden vahvistamiseksi kirjoittajat testasivat prosessia satunnainen pikselien poisto, ja havaitsi tulokset "huomattavasti vähemmän informatiivisiksi" testeissä, mikä osoittaa, että SIS-kuvat todella edustavat vähimmäistietoa, jonka suositut mallit ja tietojoukot tarvitsevat hyväksyttävien ennusteiden tekemiseen.

Vilkaisu mihin tahansa pienennettyyn kuvaan viittaa siihen, että näiden mallien pitäisi epäonnistua ihmisen visuaalisen erottelukyvyn mukaisesti, mikä johtaisi alle 20 %:n mediaanitarkkuuteen.

Kun SIS-kuvia on vähennetty vain 5 prosenttiin niiden alkuperäisistä pikseleistä, ihmiset tuskin saavuttavat "satunnaista suurempaa" luokittelun onnistumisprosenttia verrattuna julkaisussa tutkittujen suosittujen tietojoukkojen ja kehysten 90–99 prosentin onnistumisprosenttiin.

Kun SIS-kuvia on vähennetty vain 5 prosenttiin niiden alkuperäisistä pikseleistä, ihmiset tuskin saavuttavat "satunnaista suurempaa" luokittelun onnistumisprosenttia verrattuna julkaisussa tutkittujen suosittujen tietojoukkojen ja kehysten 90–99 prosentin onnistumisprosenttiin.

Beyond The Overfit

Ylisovitus tapahtuu, kun koneoppimismalli harjoittelee niin laajasti tietojoukkoa, että siitä tulee taitava tekemään ennusteita kyseiset tiedot, mutta se on paljon vähemmän tehokas (tai jopa täysin tehoton) tuoreissa tiedoissa, jotka tuodaan siihen harjoituksen jälkeen (pois jakelusta tiedot).

Tutkijat huomauttavat, että nykyinen akateeminen ja teollisuuden kiinnostus ylisovituksen torjuntaan ei tule samanaikaisesti ratkaisemaan ylitulkintaa, koska riisutut pikselien alajoukot, jotka edustavat tunnistettavia kuvia tietokoneille ja järjettömiä tahroja ihmisille, ovat itse asiassa. aidosti sovellettavia tietoja, sen sijaan, että keskittyisi huonosti kuratoituun tai aneemiseen tietoon:

"Ylitulkinta liittyy ylisovitukseen, mutta ylisovitus voidaan diagnosoida heikentyneellä testitarkkuudella. Ylitulkinta voi johtua todellisista tilastollisista signaaleista taustalla olevassa tietojoukkojakaumassa, joka sattuu johtumaan tietolähteen tietyistä ominaisuuksista (esim. ihotautilääkärien hallitsijat).

"Siksi ylitulkinta voi olla vaikeampi diagnosoida, koska se hyväksyy päätökset, jotka on tehty tilastollisesti kelvollisin kriteerein, ja tällaisia ​​kriteerejä käyttävät mallit voivat loistaa vertailuarvoissa."

Mahdolliset ratkaisut

Kirjoittajat ehdottavat sitä mallien kokoonpano, jossa useat arkkitehtuurit osallistuvat arviointi- ja koulutusprosessiin, voisivat jollain tavalla vähentää ylitulkintaa. He myös havaitsivat, että se haki syötteen keskeyttäminen, joka oli alun perin suunniteltu estämään yliasennus, johti "pieneen laskuun" CIFAR-10-testin tarkkuudessa (mikä on todennäköisesti toivottavaa), mutta "merkittävään" (noin 6 %) mallien tarkkuuden kasvuun näkymättömissä tiedoissa. Alhaiset luvut viittaavat kuitenkin siihen, että yliasennusten myöhemmät parannukset eivät todennäköisesti poista täysin ylitulkintaa.

Kirjoittajat myöntävät mahdollisuuden käyttää houkuttelevuuskartat osoittamaan, mitkä kuvan alueet ovat oleellisia piirteiden poimimiselle, mutta huomaa, että tämä kumoaa automaattisen kuvan jäsennyksen tavoitteen ja vaatii ihmisen tekemää huomautusta, joka ei ole mahdollista suuressa mittakaavassa. He huomauttavat lisäksi, että näkyvyyskarttojen on havaittu olevan vain karkeita arvioita mallitoimintojen ymmärtämisen kannalta.

Paperin lopputulos:

"Kun otetaan huomioon ei-merkittävien pikseliosajoukkojen olemassaolo, jotka yksinään riittävät oikeaan luokitteluun, malli voi luottaa pelkästään tällaisiin kuvioihin. Tässä tapauksessa mallia uskollisesti kuvaavan tulkintamenetelmän pitäisi tuottaa nämä järjettömät perustelut, kun taas tulkintamenetelmät, jotka painottavat perusteluja kohti ihmisen etuja, voivat tuottaa tuloksia, jotka johtavat käyttäjiä harhaan ajattelemaan, että heidän mallinsa käyttäytyvät tarkoitetulla tavalla.

 

 

Julkaistu ensimmäisen kerran 13.