stub Deep Learning-modeller kan slite med å gjenkjenne AI-genererte bilder - Unite.AI
Kontakt med oss

Kunstig intelligens

Deep Learning-modeller kan slite med å gjenkjenne AI-genererte bilder

mm
oppdatert on

Funn fra en ny artikkel indikerer at toppmoderne AI er betydelig dårligere i stand til å gjenkjenne og tolke AI-syntetiserte bilder enn mennesker, noe som kan være bekymringsfullt i et kommende klima der maskinlæringsmodeller i økende grad trenes på syntetiske data, og hvor det ikke nødvendigvis vil være kjent om dataene er "ekte" eller ikke.

Her ser vi resnext101_32x8d_wsl prediksjonsmodellen som sliter i kategorien 'bagel'. I testene ble en gjenkjennelsesfeil ansett for å ha oppstått hvis kjernemålordet (i dette tilfellet 'bagel') ikke ble omtalt i de fem beste forutsagte resultatene. Kilde: https://arxiv.org/pdf/2208.10760.pdf

Her ser vi resnext101_32x8d_wsl prediksjonsmodellen som sliter i kategorien 'bagel'. I testene ble en gjenkjennelsesfeil ansett for å ha oppstått hvis kjernemålordet (i dette tilfellet 'bagel') ikke ble omtalt i de fem beste forutsagte resultatene. Kilde: https://arxiv.org/pdf/2208.10760.pdf

Den nye forskningen testet to kategorier av datamaskinvisjonsbasert gjenkjennelsesrammeverk: objektgjenkjenning og visuelt spørsmålssvar (VQA).

Til venstre, slutning suksesser og feil fra et objektgjenkjenningssystem; til høyre, VQA-oppgaver designet for å undersøke AI-forståelse av scener og bilder på en mer utforskende og betydningsfull måte. Kilder: https://arxiv.org/pdf/2105.05312.pdf og https://arxiv.org/pdf/1505.00468.pdf

Til venstre, slutning suksesser og feil fra et objektgjenkjenningssystem; til høyre, VQA-oppgaver designet for å undersøke AI-forståelse av scener og bilder på en mer utforskende og betydningsfull måte. Kilder: https://arxiv.org/pdf/2105.05312.pdf og https://arxiv.org/pdf/1505.00468.pdf

Av ti toppmoderne modeller testet på kuraterte datasett generert av rammeverk for bildesyntese DALL-E2 og midt på reisen, den best presterende modellen var i stand til å oppnå bare 60 % og 80 % topp-5-nøyaktighet på tvers av de to typene tester, mens ImageNet, trent på ikke-syntetiske data fra den virkelige verden, kan oppnå henholdsvis 91 % og 99 % i de samme kategoriene, mens menneskelig ytelse vanligvis er betydelig høyere.

Ta tak i problemer rundt distribusjonsskifte (aka 'Model Drift', der prediksjonsmodeller opplever redusert prediktiv kapasitet når de flyttes fra treningsdata til 'ekte' data), heter det i avisen:

«Mennesker er i stand til å gjenkjenne de genererte bildene og enkelt svare på spørsmål om dem. Vi konkluderer med at a) dype modeller sliter med å forstå det genererte innholdet, og kan gjøre det bedre etter finjustering, og b) det er et stort distribusjonsskifte mellom de genererte bildene og de virkelige fotografiene. Fordelingsskiftet ser ut til å være kategoriavhengig.'

Gitt volumet av syntetiske bilder som allerede flommer over internett i kjølvannet av forrige ukes oppsiktsvekkende åpen kildekode av de mektige Stabil diffusjon latent diffusjonssyntesemodell, oppstår naturlig nok muligheten for at når "falske" bilder strømmer inn i industristandard datasett som f.eks. Vanlig gjennomgang, kan variasjoner i nøyaktighet over årene bli betydelig påvirket av "uvirkelige" bilder.

Selv om syntetiske data har vært innledet som den potensielle redningsmannen for den datautsultede forskningssektoren for datasyn, som ofte mangler ressurser og budsjetter for hyperskalakurering, den nye strømmen av stabile diffusjonsbilder (sammen med den generelle økningen i syntetiske bilder siden ankomsten og kommersialisering of DALL-E2) kommer neppe alle med nyttige etiketter, merknader og hashtags som skiller dem ut som "falske" når grådige maskinsynssystemer skraper dem fra internett.

Utviklingshastigheten i rammeverk for bildesyntese med åpen kildekode har særlig overgått vår evne til å kategorisere bilder fra disse systemene, noe som fører til økende interesse for «falske bilder»-deteksjon systemer, lik deepfake deteksjon systemer, men har i oppgave å vurdere hele bilder i stedet for deler av ansikter.

De nytt papir har tittelen Hvor gode er dype modeller i å forstå de genererte bildene?, og kommer fra Ali Borji fra San Francisco maskinlæringsoppstart Quintic AI.

Data

Studien er før utgivelsen av stabil diffusjon, og eksperimentene bruker data generert av DALL-E 2 og Midjourney på tvers av 17 kategorier, inkludert elefant, sopp, pizza, pretzel, traktor og kanin.

Eksempler på bildene som de testede gjenkjennings- og VQA-systemene ble utfordret fra til å identifisere det viktigste nøkkelbegrepet.

Eksempler på bildene som de testede gjenkjennings- og VQA-systemene ble utfordret fra til å identifisere det viktigste nøkkelbegrepet.

Bilder ble hentet via nettsøk og via Twitter, og i samsvar med DALL-E 2s retningslinjer (minst, på den tiden), inkluderte ingen bilder med menneskelige ansikter. Kun bilder av god kvalitet, gjenkjennelige av mennesker, ble valgt.

To sett med bilder ble kurert, ett hver for objektgjenkjenning og VQA-oppgaver.

Antall bilder i hver testet kategori for gjenkjenning av objekter.

Antall bilder i hver testet kategori for gjenkjenning av objekter.

Testing av objektgjenkjenning

For objektgjenkjenningstestene ble ti modeller, alle trent på ImageNet, testet: AlexNet, ResNet152, MobileNetV2, DenseNet, ResNext, GoogleNet, ResNet101, Inception_V3, Deitog ResNext_WSL.

Noen av klassene i de testede systemene var mer granulære enn andre, noe som nødvendiggjorde bruk av gjennomsnittlige tilnærminger. For eksempel inneholder ImageNet tre klasser som beholder "klokker", og det var nødvendig å definere en slags voldgiftsmetrikk, der inkluderingen av en hvilken som helst "klokke" av hvilken som helst type i topp fem oppnådde etiketter for ethvert bilde ble sett på som en suksess i det tilfellet.

Ytelse per modell i 17 kategorier.

Ytelse per modell i 17 kategorier.

Den best presterende modellen i denne runden var resnext101_32x8d_ws, og oppnådde nesten 60 % for topp-1 (dvs. tidene hvor den foretrukne prediksjonen av fem gjetninger var det riktige konseptet nedfelt i bildet), og 80 % for topp-fem ( dvs. ønsket konsept var i det minste oppført et sted i modellens fem gjetninger om bildet).

Forfatteren antyder at denne modellens gode ytelse skyldes det faktum at den ble opplært for svakt overvåket prediksjon av hashtags i sosiale medieplattformer. Disse ledende resultatene, bemerker forfatteren, er imidlertid betydelig under det ImageNet er i stand til å oppnå på reelle data, dvs. 91 % og 99 %. Han antyder at dette skyldes en stor forskjell mellom distribusjonen av ImageNet-bilder (som også er skrapet fra nettet) og genererte bilder.

De fem vanskeligste kategoriene for systemet, i vanskelighetsrekkefølge, var drage, skilpadde, ekorn, solbriller og hjelm. Avisen bemerker at drage klasse blir ofte forvekslet med ballong, fallskjerm og paraply, selv om disse distinksjonene er trivielt enkle å individualisere for menneskelige observatører.

Visse kategorier, inkludert drage og skilpadde, forårsaket universell feil på tvers av alle modeller, mens andre (spesielt pretzel og traktor) resulterte i nesten universell suksess på tvers av de testede modellene.

Polariserende kategorier: noen av målkategoriene som ble valgt, tok enten alle modellene, eller så var det ganske enkelt for alle modellene å identifisere.

Polariserende kategorier: noen av målkategoriene som ble valgt, tok enten alle modellene, eller så var det ganske enkelt for alle modellene å identifisere.

Forfatterne postulerer at disse funnene indikerer at alle objektgjenkjenningsmodeller kan dele lignende styrker og svakheter.

Testing av visuelle spørsmålssvar

Deretter testet forfatteren VQA-modeller på åpent og fritt format VQA, med binære spørsmål (dvs. spørsmål der svaret bare kan være 'ja' eller 'nei'). Avisen bemerker at nyere toppmoderne VQA-modeller er i stand til å oppnå 95 % nøyaktighet på VQA-v2 datasett.

For dette teststadiet kuraterte forfatteren 50 bilder og formulerte 241 spørsmål rundt dem, hvorav 132 hadde positive svar og 109 negative. Gjennomsnittlig spørsmålslengde var 5.12 ord.

Denne runden brukte OFA modell, et oppgave-agnostisk og modalitets-agnostisk rammeverk for å teste oppgavens helhet, og var nylig den ledende scoreren i VQA-v2 test-std-sett. OFA oppnådde 77.27 % nøyaktighet på de genererte bildene, sammenlignet med sin egen 94.7 % poengsum i VQA-v2 test-std-settet.

Eksempelspørsmål og resultater fra VQA-delen av testene. 'GT' er 'Ground Truth', dvs. det riktige svaret.

Eksempelspørsmål og resultater fra VQA-delen av testene. 'GT' er 'Ground Truth', dvs. det riktige svaret.

Avisens forfatter antyder at en del av årsaken kan være at de genererte bildene inneholder semantiske konsepter fraværende fra VQA-v2-datasettet, og at spørsmålene skrevet for VQA-testene kan være mer utfordrende den generelle standarden for VQA-v2-spørsmål, selv om han mener at førstnevnte årsak er mer sannsynlig.

LSD i datastrømmen?

Mening Den nye spredningen av AI-syntetiserte bilder, som kan presentere umiddelbare konjunksjoner og abstraksjoner av kjernekonsepter som ikke eksisterer i naturen, og som vil være uoverkommelig tidkrevende å produsere via konvensjonelle metoder, kan presentere et spesielt problem for svakt overvåket data- samlesystemer, som kanskje ikke er i stand til å mislykkes på en elegant måte – hovedsakelig fordi de ikke var designet for å håndtere høyvolum, umerkede syntetiske data.

I slike tilfeller kan det være en risiko for at disse systemene vil samle en prosentandel av 'bisarre' syntetiske bilder i ukorrekte klasser ganske enkelt fordi bildene har forskjellige objekter som egentlig ikke hører sammen.

"Astronaut som rir på en hest" har kanskje blitt det mest emblematiske bildet for den nye generasjonen av bildesyntesesystemer - men disse "uvirkelige" relasjonene kan komme inn i ekte deteksjonssystemer med mindre forsiktighet tas. Kilde: https://twitter.com/openai/status/1511714545529614338?lang=en

"Astronaut som rir på en hest" har kanskje blitt det mest emblematiske bildet for den nye generasjonen av bildesyntesesystemer - men disse "uvirkelige" forholdene kan komme inn i ekte deteksjonssystemer med mindre forsiktighet tas. Kilde: https://twitter.com/openai/status/1511714545529614338?lang=en

Med mindre dette kan forhindres på forbehandlingsstadiet før opplæring, kan slike automatiserte rørledninger føre til at usannsynlige eller til og med groteske assosiasjoner trenes opp til maskinlæringssystemer, forringe deres effektivitet og risikere å overføre assosiasjoner på høyt nivå til nedstrømssystemer og underklasser og kategorier.

Alternativt kan usammenhengende syntetiske bilder ha en "kjølende effekt" på nøyaktigheten til senere systemer, i tilfelle det skulle dukke opp nye eller endrede arkitekturer som forsøker å gjøre rede for ad hoc syntetiske bilder, og kastet et for bredt nett.

I begge tilfeller kan syntetiske bilder i alderen etter stabil diffusjon vise seg å være en hodepine for forskningssektoren for datasyn, hvis innsats gjorde disse merkelige kreasjonene og egenskapene mulig – ikke minst fordi det setter sektorens håp om at innsamling og kurering av data kan til slutt bli langt mer automatisert enn det er nå, og langt rimeligere og tidkrevende.

 

Først publisert 1. september 2022.