Kunstig intelligens
Nytt verktøy kan vise forskerne hva GANs utelater fra et bilde

Nylig utviklet et team av forskere fra MIT-IBM Watson AI Lab en metode for å vise hva en Generative Adversarial Network (GAN) utelater fra et bilde når de blir bedt om å generere bilder. Studien ble kalt Seeing What a GAN Cannot Generate, og den ble nylig presentert på den internasjonale konferansen om datavisjon.
Generative Adversarial Networks har blitt mer robuste, sofistikerte og vidt brukte de siste årene. De har blitt ganske gode til å rendre bilder fullt av detaljer, så lenge bildet er begrenset til et relativt lite område. Men når GANs brukes til å generere bilder av større scener og miljøer, klarer de ikke å prestere like bra. I scenarier hvor GANs blir bedt om å rendre scener fullt av mange objekter og gjenstander, som en travel gate, utelater GANs ofte mange viktige aspekter av bildet.
Ifølge MIT News, ble forskningen utviklet i samarbeid med David Bau, en masterstudent ved avdelingen for elektroteknikk og datavitenskap ved MIT. Bau forklarte at forskerne vanligvis konsentrerer seg om å forbedre hva maskinlæringsystemer legger merke til og hvordan bestemte innputt kan kartlegges til bestemte utdata. Men Bau forklarte også at å forstå hva data som ignoreres av maskinlæringsmodeller ofte er like viktig, og at forskningsteamet håper at deres verktøy vil inspirere forskerne til å legge merke til den ignorerte dataen.
Baus interesse for GANs ble utløst av det faktum at de kunne brukes til å undersøke den svarte boksen til neurale nettverk og å få en intuitiv forståelse av hvordan nettverkene måtte være i stand til å resonere. Bau hadde tidligere arbeidet med et verktøy som kunne identifisere bestemte kluster av kunstige nerver, og merke dem som ansvarlige for representasjon av virkelige objekter som bøker, skyer og trær. Bau hadde også erfaring med et verktøy kalt GANPaint, som gjorde det mulig for kunstnere å fjerne og legge til bestemte egenskaper fra bilder ved å bruke GANs. Ifølge Bau avslørte GANPaint-applikasjonen et potensielt problem med GANs, et problem som ble åpenbart da Bau analyserte bildene. Som Bau fortalte MIT News:
“Min veileder har alltid oppmuntret oss til å se bort fra tallene og skrutinisere de faktiske bildene. Når vi så, sprang fenomenet rett ut: Folk ble droppet selektivt.”
Mens maskinlæringsystemer er designet for å trekke ut mønster fra bilder, kan de også ende opp med å ignorere relevante mønster. Bau og andre forskere eksperimenterte med å trene GANs på ulike innendørs og utendørs scener, men i alle ulike typer scener utelot GANs viktige detaljer i scenene, som biler, veiskilt, mennesker, sykler osv. Dette var sant selv når objektene som ble utelatt var viktige for scenen i spørsmål.
Forskingsteamet hypoteserte at når GANen blir trent på bilder, kan GANen finne det enklere å fange mønstrene i bildet som er enklere å representere, som store stasjonære objekter som landskap og bygninger. Den lærer disse mønstrene over andre, mer vanskelige å tolke mønster, som biler og mennesker. Det har vært allmenn kjennskap til at GANs ofte utelater viktige, meningsfulle detaljer når de genererer bilder, men studien fra MIT-teamet kan være den første gangen at GANs er demonstrert å utelate hele objekt-klasser innenfor et bilde.
Forskingsteamet påpeker at det er mulig for GANs å oppnå sine numeriske mål selv når de utelater objekter som mennesker bryr seg om når de ser på bilder. Hvis bilder generert av GANs skal brukes til å trene komplekse systemer som autonome kjøretøy, bør bildedataene bli nøye skrutinisert fordi det er en reell bekymring for at kritiske objekter som skilt, mennesker og andre biler kan bli utelatt fra bildene. Bau forklarte at deres forskning viser hvorfor prestasjonen til en modell ikke bare bør baseres på nøyaktighet:
“Vi må forstå hva nettverkene gjør og ikke gjør for å sikre at de gjør valgene vi ønsker at de skal gjøre.”












