Kunstig intelligens

Plastikkirurgi for GAN-genererede ansigter

Opdateret on Juli 9, 2021

Forbedringer i syntetisk genererede (GAN) billeder

Ny forskning ud af Sydkorea lover at forbedre kvaliteten af syntetiske ansigtsdata skabt af Generative Adversarial Networks (GAN'er).

Systemet er i stand til at identificere billedartefakter produceret af GAN-processer og afhjælpe dem, selv til det punkt at erstatte hår, der var skjult af en hætte, erstatte dele af ansigtet, der helt mangler i originalen, og fjerne okklusioner såsom hænder og solbriller , og fungerer også godt på naturskønt og arkitektonisk output.

Tilbage for hver kolonne, det originale GAN-output med defekter, efterfulgt af to andre tilgange til artefakterne og til sidst af den metode, der blev brugt af de sydkoreanske forskere. Kilde: https://arxiv.org/pdf/2104.06118.pdf

De seneste tilgange til forbedring af kvaliteten af GAN-genererede billeder har taget den holdning, at artefakter er en erhvervsmæssig fare ved processen, idet metoden behandles som en 'naturkraft', og de mere psykedeliske eller aberrationelle resultater, som den kan producere som en uundgåeligt biprodukt.

I stedet foreslår den sydkoreanske forskning faktisk at 'fikse' berørte billeder på en måde, der ikke forstyrrer den fortsatte generative kæde, ved at identificere facetter, der forårsager artefakter, og reducere eller eliminere deres indflydelse i GAN-netværket på et semi-overvåget niveau, der overstiger og udvider de native selvkorrigerende mekanismer i GAN-arkitekturen.

For projektet var det nødvendigt at skabe et bredt anvendeligt håndmærket datasæt af billeder, der var hårdt påvirket af GAN-artefakter. Oprindeligt brugte forskerne Frechet Inception Distance (FID) Af de metrisk der evaluerer kvaliteten af GAN-output ved at sammenligne funktioner i billederne som en kvalificerende enhed. De 10,000 billeder med den højeste FID-score blandt en serie på 200,000 billeder blev brugt som diskrete 'artefaktenheder'. Efterfølgende håndmærkede forskerne 2,000 genererede billeder, der klassificerede hver som 'normal' eller påvirket af FID-artefakter. Derefter blev der oprettet en model til at klassificere datasættet i artefakt, normale og tilfældige prøver fra den virkelige verden.

Efter dette, gradientvægtet klasseaktiveringskortlægning (Grad-CAM) blev brugt til at generere masker til artefakt-ramte områder, hvilket effektivt automatiserer mærkningen af defekter.

På billedet ovenfor er Grad-CAM-maskerne blevet anvendt til output fra LSUN-Kirken udendørs datasæt og CelebA-HQ datasæt.

Ved at analysere de 20 mest berørte resultater fra en serie på 20,000 billeder genereres segmenteringsmasker, i hvilke områderepræsentative resultater på tværs af generationerne (som sandsynligvis vil være mere nøjagtige eller overbevisende end artefakterne) kan erstattes ved at sænke aktiveringen af de artefaktproducerende enheder i efterfølgende generationer.

Menneskelig evaluering af rettelserne resulterede i, at 53 % af de 'reparerede' billeder blev mærket som 'normale', mens 97 % af de originale billeder stadig viser væsentlige forbedringer i forhold til originalerne.

Forskerne hævder, at denne metode, med nogle mindre omværktøjer, også kan tilpasses til NVIDIAs StyleGAN2.

Fordelene ved syntetiske data

Primært med hensyn til ansigtsdata er den generelle knaphed på datasæt fra den virkelige verden til computersyn en hindring for forskelligartet forskning i vigtige forskningssektorer, såsom ansigtsgenkendelse, følelsesgenkendelse, medicinsk forskning og undersøgelser af mere granulær segmentering af topologien i ansigt blandt forskellige andre områder.

Det nuværende tilbageslag mod fri brug af web-vendte data og ad hoc indsamling af ansigtsbilleder fra den virkelige verden til inkludering i ansigtsdatabaser er en yderligere hindring for forskning med et voksende antal stater og nationer krakning ned on web-skrabning, og tilegnelse af billeder på sociale medier til disse formål.

I løbet af de sidste ti år har et begrænset antal højt kuraterede ansigtsdatasæt har tilbudt tilflugt fra denne form for usikkerhed med forskellige årlige offentlige forskningsudfordringer centreret omkring dem. Dette har dog uden tvivl ført til, at forskningsprojekter har fordrejet deres metoder specifikt mod disse datasæt med konsistente og sammenlignelige resultater fra år til år opnået til den høje pris af mangel på mangfoldighed i kildematerialet – en situation, der bliver værre hvert år ny forskning begrænser sig til disse grænser.

Derudover er nogle af disse 'traditionelle' datasæt kommet under kritik på grund af en mangel på racemæssig mangfoldighed, hvilket tyder på, at disse benchmarking-standvare måske ikke vil blive betragtet som egnede ressourcer i den nærmeste fremtid.

Dette betyder behovet for ansigtsdata af høj kvalitet, der er realistiske, men hvor de bidragende 'virkelige' billeder er blevet transformeret langt til ukendelighed. Selv hvis denne brug af virkelige ansigtsdata 'ved én fjernelse' i sig selv i sidste ende kan udløse problemer over herkomst af GAN-genererede ansigter, er det en anstødssten, der sandsynligvis ikke dukker op, før fremkomsten af juridiske og tekniske mekanismer til dataindsamling af denne art er blevet etableret; og hvad angår mulige ændringer af juridiske rammer omkring problemet, er det stadig en mindre fare end at bruge billeder af rigtige mennesker.