Artificiell intelligens
Ett AI-system som kan göra bilder av mĂ€nniskor mer ‘vackra’

Forskare från Kina har utvecklat ett nytt AI-baserat bildförbättringssystem som kan göra bilder av en person mer ‘vackra’, baserat på en ny approach till förstärkt inlärning.

Den nya metoden använder ett ‘facial beauty prediction network’ för att iterera genom variationer på en bild baserat på ett antal faktorer, bland vilka ‘belysning’ och ögonposering kan vara kritiska faktorer. Här är de ursprungliga källorna (till vänster om varje kolumn) från EigenGAN-systemet, med de nya resultaten till höger om dessa. Källa: https://arxiv.org/pdf/2208.04517.pdf
Tekniken bygger på innovationer som upptäckts för EigenGAN-generering, ett annat kinesiskt projekt från 2021, som gjorde betydande framsteg i att identifiera och få viss kontroll över de olika semantiska attributen inom det latenta utrymmet för Generative Adversarial Networks (GANs).

EigenGAN-genereringen från 2021 kunde individuera högnivåkoncept som ‘hårfärg’ inom det latenta utrymmet för en generativ adversarial nätverk. Det nya arbetet bygger på denna innovativa instrumenteringsförmåga för att leverera ett system som kan ‘försköna’ källbilder, men utan att ändra den igenkännliga identiteten – ett problem i tidigare tillvägagångssätt. Källa: https://arxiv.org/pdf/2104.12476.pdf
Systemet använder ett ‘aesthetics score network’ som hämtats från SCUT-FBP5500 (SCUT), en benchmark-dataset för ansiktsvackerhetsprediktion från South China University of Technology i Guangzhou.

Från 2018 års artikel ‘SCUT-FBP5500: A Diverse Benchmark Dataset for Multi-Paradigm Facial Beauty Prediction’, som erbjöd ett ‘Facial beauty prediction’ (FBP) nätverk som kunde ranka ansikten efter upplevd attraktivitet, men som inte kunde faktiskt transformera eller ‘uppgradera’ ansikten. Källa: https://arxiv.org/pdf/1801.06345.pdf
Till skillnad från det nya arbetet kan 2018 års projekt inte faktiskt utföra transformationer, men innehåller algoritmiska värderingsdomar för 5 500 ansikten, tillhandahållna av 60 blandade könsmässiga etiketter (en 50/50-fördelning). Dessa har införlivats i det nya systemet som en effektiv diskriminatör, för att informera transformationer som sannolikt kommer att förbättra ‘attraktiviteten’ hos en bild.
Intressant nog är den nya artikeln titeln Attribute Controllable Beautiful Caucasian Face Generation by Aesthetics Driven Reinforcement Learning. Anledningen till att alla raser utom kaukasier är uteslutna från systemet (se också att forskarna själva är kineser) är att källdata för SCUT är betydligt snedvriden mot asiatiska källor (4 000 jämnt fördelade asiatiska kvinnor/män, 1 500 jämnt fördelade kaukasiska kvinnor/män), vilket gör ‘genomsnittspersonen’ i den dataseten till brunt hår och bruna ögon.
Därför var det nödvändigt att utesluta den asiatiska komponenten från de ursprungliga data, eller så var det nödvändigt att återuppbygga data för att utveckla en metod som kanske inte skulle ha fungerat. Dessutom innebär variation i kulturella uppfattningar om skönhet oundvikligen att sådana system kommer att behöva en viss grad av geografisk konfigurerbarhet i fråga om vad som utgör ‘attraktivitet’.
Pertinent Attributes
För att bestämma de primära bidragande faktorerna till en ‘attraktiv’ bild av en person, testade forskarna också effekten av olika förändringar i bilderna, i termer av hur väl sådana tillägg förbättrade algoritmens uppfattning om ‘skönhet’. De fann att åtminstone en av aspekterna är mer central för bra fotografering än bra genetik:

Förutom belysning, var de aspekter som hade den största inverkan på skönhetsscore ‘bangs’ (vilket, i fallet med män, ofta kan vara ekvivalent med att ha ett fullt huvud av hår), kroppsställning och ögonuttryck (där engagemang med kameravyn är en positiv faktor för attraktivitet).
(Med avseende på ‘läppstiftsfärg’, fungerar det nya systemet, som kan fungera effektivt på både manliga och kvinnliga presentationer av kön, inte som en individuell könsskillnad, utan förlitar sig på det nya diskrimineringsystemet som ett ‘filter’ i detta avseende)
Metod
Belöningsfunktionen i förstärkt inlärningsmekanismen i det nya systemet drivs av en enkel regression över SCUT-data, som utmatar ansiktsvackerhetsprediktioner.
Träningsystemet itererar över datainmatningsbilder (nederst till vänster i schemat nedan). Initialt extraherar ett förtränat ResNet18-modell (tränat på ImageNet) funktioner från de fem identiska (‘y’) bilderna. Nästa, en potentiell transformerande åtgärd härleds från det dolda tillståndet för ett fullständigt anslutet lager (GRUCell, i bilden nedan), och transformationerna appliceras, vilket leder till fem förändrade bilder som matas in i skönhetsscorenätverket, vars rankningar, Darwin-style, kommer att bestämma vilka variationer som kommer att utvecklas och vilka som kommer att förkastas.
Skönhetsscorenätverket använder ett Efficient Channel Attention (ECA) modul, medan en anpassning av en förtränad instans av EfficientNet-B4 är uppgiften att extrahera 1 792 funktioner från varje bild.
Efter normalisering genom en ReLU-aktiveringsfunktion, erhålls en 4-dimensionell vektor tillbaka från ECA-modulen, som sedan plattas till en 1-dimensionell vektor efter aktivering och adaptiv genomsnittspoolning. Slutligen matas resultaten in i regressionsnätverket, som hämtar en skönhetsscore.

En kvalitativ jämförelse av systemets utdata. I den nedre raden ser vi den ackumulerade summan av alla de individuerade aspekter som har identifierats av EigenGAN-metoden och sedan förbättrats. Genomsnittliga FID-poäng för bilderna är till vänster om bildraderna (högre är bättre).
Tester och användarstudie
Fem varianter av den föreslagna metoden utvärderades algoritmiskt (se bild ovan), med Fréchet inception distance (FID, kontroversiell i vissa kretsar) poäng tilldelades till totalt 1 000 bilder som passerade genom systemet.
Forskarna noterar att förbättring av belysningen uppnådde en bättre attraktivitetsscore för ämnena på fotografierna än flera andra mer ‘uppenbara’ möjliga förändringar (dvs. till den faktiska utseendet på personen som avbildas).
För att viss del är testning av systemet på detta sätt begränsat av de egenskaper som SCUT-data har, som inte har många ‘ljusa leenden’, och författarna hävdar att detta kunde överdrivet rangordna det mer typiska ‘gåtfulla’ utseendet i data, i jämförelse med de troliga preferenserna hos potentiella målgrupper (förmodligen, i detta fall, en västerländsk marknad).
Men eftersom hela systemet vilar på de genomsnittliga åsikterna från bara 60 personer (i EigenGAN-artikeln), och eftersom kvaliteten som studeras är långt ifrån empirisk, kan det hävdas att proceduren är mer sund än datasetet.
Även om det behandlas mycket kortfattat i artikeln, visades bilder från EigenGAN och systemets egna fem varianter också i en begränsad användarstudie (åtta deltagare), som ombads att välja ‘bästa bilden’ (ordet ‘attraktiv’ undveks).

Ovan, det grafiska användargränssnitt som presenterades för den lilla studiegruppen; nedan, resultaten.
Resultaten indikerar att det nya systemets utdata uppnådde den högsta urvalsgraden bland deltagarna (‘MAES’ i bilden ovan).
Den (syfte-lösa?) jakten på skönhet
Användbarheten av ett sådant system är svår att etablera, trots att det verkar vara en noterbar lokus av insats i Kina mot dessa mål. Inget är utformat i den nya publikationen.
Den tidigare EigenGAN-artikeln föreslår* att ett skönhetssystem kan användas i ansikts makeup-syntesrekommendationssystem, estetisk kirurgi, ansiktsförskönande, eller innehållsbaserad bildsökning.
Förmodligen kan en sådan metod också användas på dating-sajter, av slutanvändare, för att ‘förbättra’ sina egna profilfoton till en garanterad ‘lyckad skott’, som ett alternativ till att använda föråldrade foton eller foton av andra människor.
Likaså kan dating-sajter själva ‘poängsätta’ sina kunder för att skapa betyg och till och med begränsade åtkomstnivåer, även om detta förmodligen bara skulle fungera via en liveness-autentiseringsinspelning, snarare än inskickade foton (som likaså kunde ‘förbättras’ av kunderna, om tillvägagångssättet skulle bli populärt).
I reklam kan en algoritmisk metod för att bedöma skönhet (en teknik som förutspåddes av den avlidne science fiction-författaren Michael Crichton i hans 1982 års film Looker) användas för att välja den icke-förbättrade kreativa utmatningen som sannolikt kommer att engagera en målgrupp, medan förmågan att faktiskt maximera den estetiska inverkan av ansiktsbilder, utan att faktiskt skriva över dem i stil med deepfakes, kunde förbättra redan effektiva bilder som är avsedda att väcka allmänhetens intresse.
Det nya arbetet stöds av National Natural Science Foundation of China, Open Fund Project of the State Key Laboratory of Complex System Management and Control, och Project of Philosophy and Social Science Research from Kinas utbildningsministerium, bland andra stöd.
* Många av EigenGAN-artikelns rekommendationer pekar mot en kommersiellt tillgänglig bok från 2016 med titeln ‘Computer Models for Facial Beauty Analysis’, snarare än akademiska resurser.
Publicerad första gången den 11 augusti 2022.













