Kontakt med oss

Kunstig intelligens

Plastisk kirurgi for GAN-genererte ansikter

mm
oppdatert on
Forbedringer i syntetisk genererte (GAN) bilder

Ny forskning ut av Sør-Korea lover å forbedre kvaliteten på syntetiske ansiktsdata opprettet av Generative Adversarial Networks (GANs).

Systemet er i stand til å identifisere bildeartefakter produsert av GAN-prosesser, og korrigere dem, til og med å erstatte hår som var skjult av en hette, erstatte deler av ansiktet som mangler i originalen, og fjerne okklusjoner som hender og solbriller , og fungerer også godt på scenisk og arkitektonisk produksjon.

GAN-korreksjon

Til venstre for hver kolonne, den originale GAN-utgangen med defekter, etterfulgt av to andre tilnærminger til gjenstandene, og til slutt av metoden som ble brukt av de sørkoreanske forskerne. Kilde: https://arxiv.org/pdf/2104.06118.pdf

De siste tilnærmingene for å forbedre kvaliteten på GAN-genererte bilder har tatt holdningen at artefakter er en yrkesmessig fare ved prosessen, og behandler metodikken som en "naturkraft", og de mer psykedeliske eller aberrasjonelle resultatene den kan produsere som en uunngåelig biprodukt.

I stedet foreslår den sørkoreanske forskningen faktisk å "fikse" berørte bilder på en måte som ikke forstyrrer den fortsatte generative kjeden, ved å identifisere fasetter som forårsaker artefakter, og redusere eller eliminere deres innflytelse i GAN-nettverket på et semi-overvåket nivå som overskrider og utvider de opprinnelige selvkorrigerende mekanismene i GAN-arkitekturen.

For prosjektet var det nødvendig å lage et bredt anvendelig håndmerket datasett med bilder som var hardt påvirket av GAN-artefakter. Opprinnelig brukte forskerne Frechet Inception Distance (FID), En metrisk som evaluerer kvaliteten på GAN-utdata ved å sammenligne funksjoner i bildene, som en kvalifiserende enhet. De 10,000 200,000 bildene med de høyeste FID-skårene blant en serie på 2,000 XNUMX bilder ble brukt som diskrete "artefaktenheter". Deretter håndmerket forskerne XNUMX genererte bilder, og klassifiserte hver som "normal" eller påvirket av FID-artefakter. Deretter ble det laget en modell for å klassifisere datasettet i artefakt-, normale og tilfeldige prøver fra den virkelige verden.

Etter dette, gradientvektet klasseaktiveringskartlegging (Grad-CAM) ble brukt til å generere masker for artefaktpåvirkede regioner, og effektivt automatisere merkingen av defekter.

Grad-CAM masker

På bildet ovenfor har Grad-CAM-maskene blitt brukt på utdata fra LSUN-Kirken utendørs datasett, og CelebA-HQ datasett.

Ved å analysere de 20 mest rammede resultatene fra en serie på 20,000 XNUMX bilder, genereres segmenteringsmasker, inn i hvilke områderepresentative resultater på tvers av generasjonene (som sannsynligvis vil være mer nøyaktige eller overbevisende enn artefaktene) kan erstattes ved å senke aktiveringen av de artefaktproduserende enhetene i påfølgende generasjoner.

Menneskelig evaluering av korreksjonene resulterte i at 53 % av de "reparerte" bildene ble merket som "normale", mens 97 % av originalbildene fortsatt viser betydelige forbedringer i forhold til originalene.

Forskerne hevder at denne metoden, med noe mindre omverktøy, også kan tilpasses NVIDIAs StyleGAN2.

Fjerning av GAN-briller

Fordelene med syntetiske data

Primært når det gjelder ansiktsdata, er den generelle knappheten på datasett fra den virkelige verden for datasyn en hindring for mangfoldig forskning i viktige forskningssektorer, som ansiktsgjenkjenning, følelsesgjenkjenning, medisinsk forskning og studier av mer granulær segmentering av topologien til ansikt, blant forskjellige andre felt.

Det nåværende tilbakeslaget mot gratis bruk av nettvendte data og ad hoc-samling av virkelige ansiktsbilder for inkludering i ansiktsdatabaser er en ekstra hindring for forskning, med et økende antall stater og nasjoner sprekker on web-skraping, og tilegnelse av bilder på sosiale medier til disse formålene.

I løpet av de siste ti årene har et begrenset antall høyt kuraterte ansiktsdatasett har tilbudt tilflukt fra denne typen usikkerhet, med ulike årlige offentlige forskningsutfordringer sentrert rundt dem. Dette har imidlertid uten tvil ført til at forskningsprosjekter har forvridd metodikkene sine spesifikt mot disse datasettene, med konsistente og sammenlignbare resultater fra år til år oppnådd til den høye kostnaden av mangel på mangfold i kildematerialet – en situasjon som blir verre for hvert år som ny forskning begrenser seg til disse begrensningene.

I tillegg har noen av disse 'tradisjonelle' datasettene kommet under kritikk på grunn av mangel på rasemessig mangfold, noe som tyder på at disse benchmarking-standvarene kanskje ikke anses som passende ressurser i nær fremtid.

Dette indikerer behovet for høykvalitets ansiktsdata som er realistiske, men hvor de medvirkende "virkelige verden"-bildene har blitt transformert langt til ugjenkjennelse. Selv om denne bruken av ekte ansiktsdata "på én gang" kan til slutt utløse problemer over proveniens av GAN-genererte ansikter, er det en snublestein som sannsynligvis ikke vil dukke opp før fremkomsten av juridiske og tekniske mekanismer for datainnsamling av denne typen har blitt etablert; og angående mulige endringer i juridiske rammer rundt problemet, er det fortsatt en mindre fare enn å bruke bilder av ekte mennesker.

Videre lesning:

Forbedre realismen til syntetiske bilder
Automatisk korrigering av interne enheter i generative nevrale nettverk