Kunstmatige intelligentie

Een AI-systeem dat afbeeldingen van mensen ‘mooier’ kan maken

mm
Background image: DALL-E 2 'Award-winning 8K photo of the most beautiful Caucasian catwalk model in the world' - https://labs.openai.com/s/kRXusxOR5GcYyb6pqZjNH2AA

Onderzoekers uit China hebben een nieuw AI-gebaseerd beeldverbeteringssysteem ontwikkeld dat in staat is om afbeeldingen van een persoon ‘mooier’ te maken, op basis van een novatieve benadering van versterkend leren.

Het nieuwe systeem gebruikt een 'facial beauty prediction network' om variaties op een afbeelding te itereren op basis van een aantal factoren, waarbij 'lichting' en oogposities kritieke factoren kunnen zijn. Hier zijn de originele bronnen (links van elke kolom) van het EigenGAN-systeem, met de nieuwe resultaten rechts van deze. Bron: https://arxiv.org/pdf/2208.04517.pdf

Het nieuwe systeem gebruikt een ‘facial beauty prediction network’ om variaties op een afbeelding te itereren op basis van een aantal factoren, waarbij ‘lichting’ en oogposities kritieke factoren kunnen zijn. Hier zijn de originele bronnen (links van elke kolom) van het EigenGAN-systeem, met de nieuwe resultaten rechts van deze. Bron: https://arxiv.org/pdf/2208.04517.pdf

De techniek put uit innovaties die zijn ontdekt voor de EigenGAN-generator, een ander Chinees project, uit 2021, dat belangrijke stappen zette in het identificeren en enige controle krijgen over de diverse semantische attributen binnen de latent space van Generative Adversarial Networks (GAN’s).

De EigenGAN-generator uit 2021 kon hoge-niveau-concepten zoals 'haar kleur' individueren binnen de latent space van een generatief adversariaal netwerk. Het nieuwe werk bouwt voort op deze innovatieve instrumentatie om een systeem te leveren dat afbeeldingen 'mooier' kan maken, zonder de herkenbare identiteit te veranderen – een probleem in eerdere benaderingen. Bron: https://arxiv.org/pdf/2104.12476.pdf

De EigenGAN-generator uit 2021 kon hoge-niveau-concepten zoals ‘haar kleur’ individueren binnen de latent space van een generatief adversariaal netwerk. Het nieuwe werk bouwt voort op deze innovatieve instrumentatie om een systeem te leveren dat afbeeldingen ‘mooier’ kan maken, zonder de herkenbare identiteit te veranderen – een probleem in eerdere benaderingen. Bron: https://arxiv.org/pdf/2104.12476.pdf

Het systeem maakt gebruik van een ‘aesthetics score network’ dat is afgeleid van SCUT-FBP5500 (SCUT), een benchmark dataset voor gezichtsschoonheidspredictie uit 2018, van de South China University of Technology in Guangzhou.

Uit het artikel uit 2018 'SCUT-FBP5500: A Diverse Benchmark Dataset for Multi-Paradigm Facial Beauty Prediction', dat een 'Facial beauty prediction' (FBP) netwerk aanbood dat gezichten kon rangschikken op basis van waargenomen aantrekkelijkheid, maar dat geen gezichten kon transformeren of 'upgraden'. Bron: https://arxiv.org/pdf/1801.06345.pdf

Uit het artikel uit 2018 ‘SCUT-FBP5500: A Diverse Benchmark Dataset for Multi-Paradigm Facial Beauty Prediction’, dat een ‘Facial beauty prediction’ (FBP) netwerk aanbood dat gezichten kon rangschikken op basis van waargenomen aantrekkelijkheid, maar dat geen gezichten kon transformeren of ‘upgraden’. Bron: https://arxiv.org/pdf/1801.06345.pdf

In tegenstelling tot het nieuwe werk, kan het project uit 2018 geen transformaties uitvoeren, maar bevat het algoritmische waardeoordelen voor 5.500 gezichten, geleverd door 60 gemengde geslachtetiketter (een 50/50-verdeling). Deze zijn opgenomen in het nieuwe systeem als een effectieve discriminator, om transformaties te informeren die waarschijnlijk de ‘aantrekkelijkheid’ van een afbeelding zullen verhogen.

Interessant is dat het nieuwe artikel de titel Attribute Controllable Beautiful Caucasian Face Generation by Aesthetics Driven Reinforcement Learning heeft. De reden dat alle rassen behalve blank zijn uitgesloten van het systeem (zie ook dat de onderzoekers zelf Chinees zijn) is dat de brondata voor SCUT aanzienlijk naar Aziatische bronnen neigt (4.000 gelijk verdeelde Aziatische vrouwen/mannen, 1.500 gelijk verdeelde blanke vrouwen/mannen), waardoor de ‘gemiddelde persoon’ in die dataset bruin haar en bruine ogen heeft.

Daarom was het nodig om de Aziatische component uit de oorspronkelijke data uit te sluiten, of om de data opnieuw samen te stellen om een methode te ontwikkelen die mogelijk niet zou werken. Bovendien betekent variatie in culturele percepties van schoonheid onvermijdelijk dat dergelijke systemen enige mate van geografische configuratie nodig zullen hebben met betrekking tot wat ‘aantrekkelijkheid’ vormt.

Pertinente attributen

Om de primaire bijdragende factoren voor een ‘aantrekkelijke’ foto van een persoon te bepalen, hebben de onderzoekers ook het effect van verschillende veranderingen in afbeeldingen getest, in termen van hoe goed dergelijke aanvullingen de algoritmische perceptie van ‘schoonheid’ verhogen. Zij vonden dat ten minste één van de facetten meer centraal staat voor goede fotografie dan voor goede genetica:

Behalve verlichting, hadden de aspecten die de grootste invloed hadden op de schoonheidscore ‘bangs’ (die, in het geval van mannen, vaak equivalent kan zijn aan het hebben van een volle bos haar), lichaamshouding en oogdispositie (waar betrokkenheid bij het camerastandpunt een stimulans is voor aantrekkelijkheid).

(Met betrekking tot ‘lipstick kleur’ werkt het nieuwe systeem, dat effectief kan werken op zowel mannelijke als vrouwelijke presentaties van geslacht, geen geslachtsverschijning, maar vertrouwt op het novum discriminator systeem als een ‘filter’ in dit opzicht)

Methode

De beloningsfunctie in de versterkende leermechanisme in het nieuwe systeem wordt aangedreven door een eenvoudige regressie over de SCUT-gegevens, die gezichtsschoonheidsvoorspellingen uitvoert.

Het trainsysteem itereert over de invoer afbeeldingen (onderaan links in het schema hieronder). Aanvankelijk extracteert een pre-getrainde ResNet18 model (getraind op ImageNet) kenmerken uit de vijf identieke (‘y’) afbeeldingen. Vervolgens wordt een potentieel transformatieactie afgeleid van de verborgen toestand van een volledig verbonden laag (GRUCell, in de afbeelding hieronder), en de transformaties worden toegepast, waardoor vijf gewijzigde afbeeldingen ontstaan die worden ingevoerd in het aesthetics score network, waarvan de rangschikkingen, Darwin-stijl, zullen bepalen welke variaties zullen worden ontwikkeld en welke zullen worden verworpen.

Een breed overzicht van de workflow voor het nieuwe systeem.

Een breed overzicht van de workflow voor het nieuwe systeem.

Het aesthetics score network gebruikt een Efficient Channel Attention (ECA) module, terwijl een aanpassing van een pre-getrainde instantie van EfficientNet-B4 is belast met het extraheren van 1.792 kenmerken uit elke afbeelding.

Na normalisatie door een ReLU-activatiefunctie wordt een 4-dimensionale vector verkregen vanuit de ECA-module, die vervolgens wordt platgemaakt tot een één-dimensionale vector na activatie en adaptieve gemiddelde pooling. Ten slotte worden de resultaten ingevoerd in het regressienetwerk, dat een schoonheidscore ophaalt.

Een kwalitatieve vergelijking van de output van het systeem. In de onderste rij zien we de gesummeerde som van alle geïndividualiseerde facetten die zijn geïdentificeerd door de EigenGAN-methode en vervolgens verhoogd. De gemiddelde FID-scores voor de afbeeldingen zijn links van de afbeeldingsrijen (hoger is beter).

Een kwalitatieve vergelijking van de output van het systeem. In de onderste rij zien we de gesummeerde som van alle geïndividualiseerde facetten die zijn geïdentificeerd door de EigenGAN-methode en vervolgens verhoogd. De gemiddelde FID-scores voor de afbeeldingen zijn links van de afbeeldingsrijen (hoger is beter).

Tests en gebruikersonderzoek

Vijf varianten van de voorgestelde methode werden algoritmisch geëvalueerd (zie afbeelding hierboven), met Fréchet inception distance (FID, omstreden in sommige kringen) scores toegewezen aan een totaal van 1.000 afbeeldingen die door het systeem zijn verwerkt.

De onderzoekers merken op dat het verbeteren van de verlichting een betere aantrekkelijkheidsscore opleverde voor de onderwerpen op de foto’s dan enkele andere meer ‘voor de hand liggende’ mogelijke veranderingen (d.w.z. aan het daadwerkelijke uiterlijk van de afgebeelde persoon).

Om een zekere mate te testen, is het systeem beperkt door de eigenaardigheden van de SCUT-gegevens, die niet veel ‘stralende glimlachen’ bevatten, en de auteurs betogen dat dit excessief de meer typische ‘enigmatische’ blik in de gegevens kan overwaarderen in vergelijking met de waarschijnlijke voorkeuren van potentiële eindgebruikers (vermoedelijk, in dit geval, een westerse markt).

Echter, aangezien het hele systeem hangt van de gemiddelde meningen van slechts 60 mensen (in het EigenGAN-artikel), en aangezien de kwaliteit die wordt bestudeerd verre van empirisch is, kan worden betoogd dat de procedure solider is dan de dataset.

Hoewel het in het artikel zeer kort wordt behandeld, werden afbeeldingen van EigenGAN en de vijf varianten van het systeem ook getoond in een beperkt gebruikersonderzoek (acht deelnemers), die werden gevraagd om de ‘beste afbeelding’ te selecteren (het woord ‘aantrekkelijk’ werd vermeden).

Boven, het GUI dat aan de kleine studiegroep werd gepresenteerd; onder, de resultaten.

Boven, het GUI dat aan de kleine studiegroep werd gepresenteerd; onder, de resultaten.

De resultaten geven aan dat de output van het nieuwe systeem de hoogste selectiesnelheid behaalde onder de deelnemers (‘MAES’ in de afbeelding hierboven).

De (doelloze?) achtervolging van schoonheid

De nuttigheid van een dergelijk systeem is moeilijk te bepalen, ondanks wat lijkt op een opvallend locus van inspanning in China naar deze doelen. Geen enkele wordt in de nieuwe publicatie uitgesteld.

Het vorige EigenGAN-artikel suggereert* dat een schoonheidsherkenningssysteem kan worden gebruikt in gezichtsmake-up syntheserecommendatiesystemen, esthetische chirurgie, gezichtsverbetering, of content-gebaseerde afbeeldingopname.

Waarschijnlijk kan een dergelijke benadering ook worden gebruikt op datingsites, door eindgebruikers, om hun eigen profielfoto’s te ‘verbeteren’ in een gegarandeerde ‘gelukschot’, als alternatief voor het gebruik van verouderde foto’s, of foto’s van andere mensen.

Evenzo kunnen datingsites zelf hun klanten ‘scoren’ om ratings en zelfs beperkte toegangsniveaus te creëren, hoewel dit waarschijnlijk alleen zou werken via een liveness authenticatie-opname, in plaats van ingediende foto’s (die eveneens kunnen worden ‘verbeterd’ door de klanten, als de benadering populair zou worden).

In reclame kan een algoritmische methode om schoonheid te beoordelen (een technologie die is voorspeld door de late sciencefictionschrijver Michael Crichton in zijn filmuitstap Looker) worden gebruikt om de niet-verbeterde creatieve output te selecteren die waarschijnlijk een doelpubliek zal aanspreken, terwijl de capaciteit om daadwerkelijk de esthetische impact van gezichtsafbeeldingen te maximaliseren, zonder ze daadwerkelijk te overschrijven in de stijl van deepfakes, de reeds effectieve afbeeldingen kan verhogen die zijn bedoeld om publieke interesse te wekken.

Het nieuwe werk wordt ondersteund door de National Natural Science Foundation of China, het Open Fund Project van de State Key Laboratory of Complex System Management and Control, en het Project van Philosophy and Social Science Research van het ministerie van Onderwijs van China, onder andere ondersteuners.

 

* Veel van de aanbevelingen in het EigenGAN-artikel wijzen naar een commercieel beschikbaar boek uit 2016 met de titel ‘Computer Models for Facial Beauty Analysis’, in plaats van academische bronnen.

First published 11th August 2022.

Schrijver over machine learning, domeinspecialist in menselijke beeldsynthese. Voormalig hoofd onderzoekscontent bij Metaphysic.ai.