Kunstig intelligens
Et AI-system som kan gjøre bilder av mennesker mer ‘vakre’

Forskere fra Kina har utviklet et nytt AI-basert bildeforbedringssystem som kan gjøre bilder av en person mer ‘vakre’, basert på en ny tilnærming til forsterkingslæring.

Den nye tilnærmingen bruker et ‘ansiktsvakkerhetsprediksjonsnettverk’ for å iterere gjennom variasjoner av et bilde basert på en rekke faktorer, deriblant ‘belysning’ og øyeposer kan være kritiske faktorer. Her er de originale kildene (til venstre i hver kolonne) fra EigenGAN-systemet, med de nye resultater til høyre for disse. Kilde: https://arxiv.org/pdf/2208.04517.pdf
Teknikken bygger på innovasjoner funnet for EigenGAN-generatoren, et annet kinesisk prosjekt, fra 2021, som gjorde betydelige fremskritt i å identifisere og få kontroll over de mangfoldige semantiske attributtene i latentrommet til Generative Adversarial Networks (GANs).

EigenGAN-generatoren fra 2021 kunne individuere høynivåkonsepter som ‘hårfarge’ i latentrommet til en generativ adversarial nettverk. Det nye arbeidet bygger på denne innovative instrumenteringen for å levere et system som kan ‘forbedre’ kildebilder, men uten å endre den gjenkjennelige identiteten – et problem i tidligere tilnærminger. Kilde: https://arxiv.org/pdf/2104.12476.pdf
Systemet bruker et ‘estetisk poengnettverk’ som er avledet fra SCUT-FBP5500 (SCUT), en benchmarkdataset for ansiktsvakkerhetsprediksjon fra 2018, fra South China University of Technology i Guangzhou.

Fra 2018-papiret ‘SCUT-FBP5500: En mangfoldig benchmarkdataset for multi-paradigme ansiktsvakkerhetsprediksjon’, som tilbød et ‘ansiktsvakkerhetsprediksjonsnettverk’ (FBP) som kunne rangere ansikter etter oppfattet attraktivitet, men som ikke kunne faktisk transformere eller ‘oppgradere’ ansikter. Kilde: https://arxiv.org/pdf/1801.06345.pdf
I motsetning til det nye arbeidet, kan 2018-prosjektet ikke faktisk utføre transformasjoner, men inneholder algoritmiske verdiomdømmer for 5 500 ansikter, supplert av 60 blandede kjønnslabel (en 50/50-deling). Disse er inkorporert i det nye systemet som en effektiv diskriminatore for å informere transformasjoner som sannsynligvis vil forbedre ‘attraktiviteten’ til et bilde.
Interessant nok er det nye papiret tittel Attributt-kontrollert vakker kaukasiske ansiktsgenerering ved estetisk drevet forsterkingslæring. Grunnen til at alle raser unntatt kaukasiske er ekskludert fra systemet (se også at forskerne selv er kinesiske) er fordi kilde-dataene for SCUT skjevner betydelig mot asiatiske kilder (4 000 jevnt fordelt asiatiske kvinner/menn, 1 500 jevnt fordelt kaukasiske kvinner/menn), som gjør ‘gjennomsnittspersonen’ i den datasett brunhåret og bruneøydet.
Derfor var det nødvendig å ekskludere den asiatiske komponenten fra de originale dataene, eller å gå til den betydelige utgift av å gjenopprette dataene for å utvikle en metode som kanskje ikke ville fungert. I tillegg variasjon i kulturelle oppfatninger av vakkerhet vil uunngåelig bety at slike systemer vil trenge en viss grad av geografisk konfigurasjon i forhold til hva som utgjør ‘attraktivitet’.
Pertinente attributter
For å bestemme de primære bidragende faktorene til et ‘attraktivt’ bilde av en person, testet forskerne også effekten av ulike endringer i bildene, i forhold til hvordan slike forbedringer forbedret algoritmensk oppfatning av ‘vakkerhet’. De fant at minst en av aspektene er mer sentral for god fotografering enn god genetikk:

Foruten belysning, var aspektene som hadde størst innvirkning på vakkerhetspoeng bangs (som, i tilfelle av menn, ofte kan være ekvivalent med å ha en full hode av hår), kroppsholdning og øyedisponering (hvor engasjement med kameraets synsvinkel er en fillip til attraktivitet).
(Med hensyn til ‘leppfarge’, fungerer det nye systemet, som kan fungere effektivt på både mannlige og kvinnelige fremstillinger av kjønn, ikke å individuere kjønnsutseende, men snarere å bruke det nye diskriminatorensystemet som en ‘filter’ i denne hensight)
Metode
Belønningfunksjonen i forsterkingslæringmekanismen i det nye systemet er drevet av en enkel regresjon over SCUT-dataene, som utgangsvakkerhetsprediksjoner.
Treningsystemet itererer over datainndata (nederst til venstre i skjematisk nedenfor). Først ekstraherer et forhåndstrænet ResNet18-modell (trænet på ImageNet) funksjoner fra de fem identiske (‘y’) bildene. Deretter er en potensiell transformasjonsaksjon avledet fra det skjulte tilstanden til en fullt tilkoblet lag (GRUCell, i bildet nedenfor), og transformasjonene anvendes, hvilket fører til fem endrede bilder som mates inn i estetisk poengnettverket, hvis rangeringer, Darwin-stil, vil bestemme hvilke variasjoner som vil bli utviklet og hvilke som vil bli forkastet.
Estetisk poengnettverket bruker en Efficient Channel Attention (ECA)-modul, mens en tilpasning av en forhåndstrænet instans av EfficientNet-B4 er tildelt å ekstrahere 1 792 funksjoner fra hvert bilde.
Etter normalisering gjennom en ReLU-aktiveringsfunksjon, er en 4-dimensjonal vektor oppnådd tilbake fra ECA-modulen, som deretter er flattet til en en-dimensjonal vektor etter aktivering og adaptiv gjennomsnittlig pooling. Til slutt er resultater matet inn i regresjonsnettverket, som henter en estetisk poeng.

En kvalitativ sammenligning av utgang fra systemet. I bunnraden ser vi den aggregerte summen av alle de individuerte aspektene som er identifisert av EigenGAN-metoden og deretter forbedret. Gjennomsnittlige FID-poeng for bildene er til venstre for bilderekkene (høyere er bedre).
Tester og brukerstudie
Fem varianter av den foreslåtte metoden ble evaluert algoritmisk (se bildet ovenfor), med Fréchet-inception-avstand (FID, kontroversiell i noen kvartaler) poeng tildelt en total av 1 000 bilder som ble satt gjennom systemet.
Forskerne påpeker at å forbedre belysningen oppnådde en bedre attraktivitetspoeng for personene i bildene enn flere andre mer ‘åpenbare’ mulige endringer (dvs. til det faktiske utseendet til personen avbildet).
For en viss grad er testing av systemet på denne måten begrenset av eksentrisitetene til SCUT-dataene, som ikke har mange ‘lyse smiler’, og forfatterne argumenterer for at dette kunne over-rangere den mer typiske ‘gåtefulle’ looken i dataene, i sammenligning med de sannsynlige preferansene til potensielle målbrukere (antageligvis, i dette tilfelle, en vestlig marked).
Likevel, siden hele systemet henger på gjennomsnitts meningene til bare 60 personer (i EigenGAN-papiret), og siden kvaliteten som studeres er langt fra empirisk, kan det argumenteres for at prosedyren er mer lydhør enn datasettet.
Selv om det behandles svært kort i papiret, ble bilder fra EigenGAN og systemets egne fem varianter også vist i en begrenset brukerstudie (åtte deltakere), som ble bedt om å velge det ‘beste bildet’ (ordet ‘attraktivt’ ble unngått).

Ovenfor, GUI-presentasjonen til den lille studiegruppen; nedenfor, resultater.
Resultatene indikerer at det nye systemets utgang oppnådde den høyeste valgsfrekvensen blant deltakerne (‘MAES’ i bildet ovenfor).
(Måløst?) Forfølgelse av vakkerhet
Nyttien av et slikt system er vanskelig å etablere, til tross for hva som ser ut til å være en merkelig lokus av innsats i Kina mot disse målene. Ingen er omtalt i den nye publikasjonen.
Det tidligere EigenGAN-papiret foreslår* at et vakkerhetsgjenkjenningssystem kunne bli brukt i ansikts makeup-synteserekommandasjonsystemer, estetisk kirurgi, ansiktsforbedring, eller innholdsbasert bildehenting.
Antageligvis kunne en slik tilnærming også bli brukt på dating-nettsteder, av sluttbrukere, for å ‘forbedre’ deres egne profilbilder til en garantert ‘lykke-skudd’, som en alternativ til å bruke foreldede bilder eller bilder av andre personer.
Liksom kunne dating-nettsteder selv ‘rangere’ sine kunder for å skape rangeringer og sogar begrensede-tilgangsnivåer, selv om dette antageligvis bare ville fungere via en liveness-autentiseringsfangst, snarere enn innsendte bilder (som likaledes kunne bli ‘forbedret’ av kundene, hvis tilnærmingen skulle bli populær).
I reklame kunne en algoritmebasert metode for å vurdere vakkerhet (en teknologi forutsagt av den avdøde science fiction-forfatteren Michael Crichton i hans 1982-kino-utgivelse Looker) bli brukt til å velge den ikke-forbedrede kreative utgangen som sannsynligvis ville engasjere et målpublikum, mens evnen til å faktisk maksimere den estetiske innvirkningen av ansiktsbilder, uten å faktisk overskrive dem i stil med deepfakes, kunne forbedre allerede effektive bilder som var ment å tiltrekke offentlig interesse.
Det nye arbeidet støttes av den nasjonale naturvitenskapelige fonden i Kina, det åpne fondprosjektet til statens nøkkelaboratorium for kompleks systemledelse og kontroll, og prosjektet til filosofi- og samfunnsvitenskapelig forskning fra Kinas utdanningsministerium, blant andre støttespillere.
* Mange av EigenGAN-papirets anbefalinger peker mot en kommersiell tilgjengelig bok fra 2016 med tittelen ‘Computermodeller for ansiktsvakkerhetsanalyse’, snarere enn akademiske ressurser.
Først publisert 11. august 2022.













