Kunstig intelligens

Trene datamaskinsynsmodeller på tilfeldig støy i stedet for ekte bilder

oppdatert on Desember 9, 2022

Forskere fra MIT Computer Science & Artificial Intelligence Laboratory (CSAIL) har eksperimentert med å bruke tilfeldige støybilder i datasynsdatasett for å trene datasynsmodeller, og har funnet ut at metoden i stedet for å produsere søppel er overraskende effektiv:

Generative modeller fra eksperimentet, sortert etter ytelse. Kilde: https://openreview.net/pdf?id=RQUl8gZnN7O

Å mate tilsynelatende "visuell søppel" inn i populære datasynsarkitekturer bør ikke resultere i denne typen ytelse. Helt til høyre på bildet ovenfor representerer de svarte kolonnene nøyaktighetspoeng (på Imagenet-100) for fire 'ekte' datasett. Selv om datasettene med "tilfeldig støy" foran (bildet i forskjellige farger, se indeks øverst til venstre) ikke kan matche det, er de nesten alle innenfor respektable øvre og nedre grenser (røde stiplede linjer) for nøyaktighet.

I denne forstand betyr ikke 'nøyaktighet' at et resultat nødvendigvis ser ut som en ansikten kirkeen pizza, eller et hvilket som helst annet bestemt domene som du kan være interessert i å opprette en bildesyntese system, for eksempel et Generative Adversarial Network, eller et koder-/dekoderrammeverk.

Snarere betyr det at CSAIL-modellene har utledet bredt anvendelige sentrale 'sannheter' fra bildedata så tilsynelatende ustrukturerte at de ikke burde være i stand til å levere dem.

Mangfold vs. Naturalisme

Heller ikke disse resultatene kan tilskrives overmontering: en livlig diskusjon mellom forfatterne og anmelderne på Open Review avslører at blanding av forskjellig innhold fra visuelt forskjellige datasett (som "døde blader", "fractals" og "prosedyrestøy" - se bildet nedenfor) inn i et treningsdatasett faktisk forbedrer nøyaktighet i disse forsøkene.

Dette antyder (og det er litt av en revolusjonerende forestilling) en ny type "undertilpasning", der "mangfold" trumfer "naturalisme".

Prosjektsiden for initiativet lar deg interaktivt se de forskjellige typene tilfeldige bildedatasett som brukes i eksperimentet. Kilde: https://mbaradad.github.io/learning_with_noise/

De Prosjektet siden for initiativet lar deg interaktivt se de forskjellige typene tilfeldige bildedatasett som brukes i eksperimentet. Kilde: https://mbaradad.github.io/learning_with_noise/

Resultatene forskerne har oppnådd setter spørsmålstegn ved det grunnleggende forholdet mellom bildebaserte nevrale nettverk og de "virkelige verden"-bildene som blir kastet på dem i alarmerende større volumer hvert år, og innebærer at behovet for å skaffe, kuratere og på annen måte krangle hyperskala bildedatasett kan til slutt bli overflødig. Forfatterne sier:

«Gjeldende synssystemer er trent på enorme datasett, og disse datasettene har kostnader: kurering er dyrt, de arver menneskelige skjevheter, og det er bekymringer om personvern og bruksrettigheter. For å motvirke disse kostnadene har interessen økt for å lære fra billigere datakilder, for eksempel umerkede bilder.

"I denne artikkelen går vi et skritt videre og spør om vi kan gjøre unna virkelige bildedatasett helt, ved å lære av prosessuelle støyprosesser."

Forskerne antyder at den nåværende avlingen av maskinlæringsarkitekturer kan utlede noe langt mer fundamentalt (eller i det minste, uventet) fra bilder enn man tidligere har trodd, og at "nonsens"-bilder potensielt kan gi mye av denne kunnskapen langt mer. billig, selv med mulig bruk av ad hoc syntetiske data, via datasettgenereringsarkitekturer som genererer tilfeldige bilder på treningstidspunktet:

'Vi identifiserer to nøkkelegenskaper som gir gode syntetiske data for trening av synssystemer: 1)naturalisme, 2) mangfold. Interessant nok er de mest naturalistiske dataene ikke alltid de beste, siden naturalisme kan komme på bekostning av mangfold.

"Det faktum at naturalistiske data hjelper er kanskje ikke overraskende, og det antyder at virkelige data i stor skala har verdi. Vi finner imidlertid at det som er avgjørende ikke er at dataene er det ekte men sånn er det naturalistisk, dvs. den må fange opp visse strukturelle egenskaper til virkelige data.

"Mange av disse egenskapene kan fanges opp i enkle støymodeller."

Funksjonsvisualiseringer som er et resultat av en AlexNet-avledet koder på noen av de forskjellige 'tilfeldige bilde'-datasettene som brukes av forfatterne, og dekker det tredje og femte (endelige) konvolusjonslaget. Metoden som brukes her følger den som er beskrevet i Google AI-forskning fra 2017.

De papir, presentert på den 35. konferansen om nevrale informasjonsbehandlingssystemer (NeurIPS 2021) i Sydney, har tittelen Lær å se ved å se på støy, og kommer fra seks forskere ved CSAIL, med likt bidrag.

Arbeidet var anbefales ved konsensus for et søkelysvalg på NeurIPS 2021, med fagfellekommentatorer som karakteriserer artikkelen som "et vitenskapelig gjennombrudd" som åpner for et "stort studieområde", selv om det reiser like mange spørsmål som det besvarer.

I papiret konkluderer forfatterne:

"Vi har vist at når de er designet ved å bruke resultater fra tidligere forskning på naturlig bildestatistikk, kan disse datasettene trene visuelle representasjoner. Vi håper at denne artikkelen vil motivere studiet av nye generative modeller som er i stand til å produsere strukturert støy som oppnår enda høyere ytelse når de brukes i et mangfoldig sett med visuelle oppgaver.

'Vil det være mulig å matche ytelsen oppnådd med ImageNet-foropplæring? Kanskje i fravær av et stort treningssett spesifikt for en bestemt oppgave, kan det hende at den beste forhåndstreningen ikke bruker et standard reelt datasett som ImageNet.'