Connect with us

Andersons hoek

AI’s Pursuit of Beauty

mm
AI-generated image featuring a woman whose face is being analyzed by a Terminator-style HUD. GPT-1.5.

Een nieuw AI-gestuurd beautysysteem beoordeelt hoe aantrekkelijk gezichten eruitzien, terwijl het sneller traint dan typische diepe leermodellen, waardoor grote, geautomatiseerde beautyscores mogelijk worden.

 

Facial Beauty Prediction (FBP) is een grote business en een vrij sterke draad in de onderzoeksliteratuur. Ondanks dat het praktisch elke richtlijn achter het bestrijden van vooroordelen in AI en machine learning-praktijken doorbreekt, en ondanks dat het op veel manieren objectivering en reductionisme in algoritmicche percepties van vrouwen ondersteunt, trekt het toch de interesse van verschillende multibillion-dollar-industrieën, waarvan de meeste rechtstreeks op vrouwen zijn gericht, zoals cosmetica, cosmetische gezichtschirurgie, livestreaming en mode, onder anderen:

Vrouwen beoordeeld van 1-5, uit het artikel 'Asian Female Facial Beauty Prediction Using Deep Neural Networks via Transfer Learning and Multi-Channel Feature Fusion'. Bron - https://www.semanticscholar.org/paper/Asian-Female-Facial-Beauty-Prediction-Using-Deep-Zhai-Huang/59776a6fb0642de5338a3dd9bac112194906bf30

Vrouwen beoordeeld van 1-5, uit het artikel ‘Asian Female Facial Beauty Prediction Using Deep Neural Networks via Transfer Learning and Multi-Channel Feature Fusion’. Bron

Verder dan deze voor de hand liggende vrouwgerichte bedrijfsenclaves, hebben reclame en meerdere andere industrieën, waaronder entertainment en uitgeverij, aanzienlijke belangen in het begrijpen van wat zowel mannen als vrouwen ‘aantrekkelijk’ vinden, noodzakelijkerwijs op per-cultuur-basis.

Het feit dat collectieve percepties van schoonheid variëren over regio’s, betekent dat geen definitieve wereldwijd toepasbare datasets kunnen worden verkregen en dat nieuw onderzoek moet blijven bij lokale of parochiale methoden die kunnen worden toegepast op diverse culturele gegevens.

Een interface voor een gezichtsbeoordelingssysteem voor het SCUT-FBP-project van 2015. Bron - https://arxiv.org/pdf/1511.02459

Een interface voor een gezichtsbeoordelingssysteem voor het SCUT-FBP-project van 2015. Bron

Vaak is de geografische locatie niet de enige beperking, omdat datasets met betrekking tot aantrekkelijkheid moeite kunnen hebben om gelijke effectiviteit te bieden over geslachten heen, of kunnen zijn samengesteld met een bepaald doel in gedachten – en dit kan de verzameling beperken in andere domeinen.

Bijvoorbeeld, in 2025 rapporteerde ik over de ontwikkeling van een relatief grote (100.000+ identiteiten) dataset om aantrekkelijkheid te beoordelen in livestreams, waarvan de dicht-bij-standaarden mogelijk aanzienlijke aanpassingen nodig hebben voor bredere projecten, ondanks de enorme inspanning achter de initiatief.

Gezichtsweergave

Zoals uit de links en afbeeldingen hierboven blijkt, opereren Aziatische onderzoeksinstellingen vaak niet onder dezelfde culturele beperkingen als hun westerse tegenhangers, die het moeilijk zouden krijgen om een wetenschappelijke illustratie te publiceren die vijf westerse vrouwen van minst tot meest aantrekkelijk beoordeelt, zoals we zien in het hierboven geïllustreerde onderzoek.

Het kan worden betoogd dat waar Aziatisch-georiënteerde systemen van deze soort in het openbaar effectief zijn, zonder angst voor lokale kritiek, westerse belangen deze onderzoek kunnen gebruiken of aanpassen in propriëtaire, privé-implementaties. De taak van ‘vrouwen beoordelen’ wordt in dat scenario overgedragen aan een locatie waar het zonder kritiek kan worden nagestreefd.

Of dit gebruikelijk is of dat minder gepubliceerde westerse equivalente systemen de neiging hebben om te worden ontwikkeld buiten open source-samenwerking en buiten openbare controle, het is redelijk om aan te nemen dat het doel een wereldwijd belang is, vanwege het grote aantal professionele sectoren dat kan of zou kunnen profiteren van nauwkeurige beoordelingen van aantrekkelijkheid.

Overleving van de sterkste

Het kan lijken dat enorme web-gegevens zoals Tik Tok, Instagram en YouTube uitstekende arbiters van schoonheid zouden zijn, door volgers, likes en verkeer te correleren met aantrekkelijkheid, aangezien dit een gebruikelijke en redelijke associatie is (hoewel met enkele uitzonderingen).

Evenzo zullen bestaande collecties – zoals ImageNet en LAION – met acteurs en modellen die ‘naar de top zijn gestegen’ – typisch aantrekkelijke individuen bevatten (hoewel vaak met te veel gegevenspunten van te weinig mensen), waardoor bredere culturele mechanismen kunnen fungeren als een proxy voor aantrekkelijkheid.

Echter, dit houdt geen rekening met veranderende smaak in wat mensen aantrekkelijk vinden over tijd (laat staan geografisch). Daarom zijn opnieuw hoogwaardige en gegevens-agnostische systemen nodig, en niet individuele en specieuze collecties of curaties die falen om veranderende smaak te weerspiegelen.

Combinatieshuid

De nieuwste academische bijdrage om deze uitdagingen aan te pakken, komt uit China, waar transfer learning en Broad Learning System (BLS) worden gecombineerd om het langdurige compromis tussen nauwkeurigheid en computationele kosten aan te pakken.

Conventionele neurale netwerken bereiken over het algemeen sterke resultaten alleen met zware training, terwijl lichtere systemen zoals BLS snel trainen, maar moeite hebben om voldoende details te vangen. Het nieuwe werk overbrugt deze kloof door een vooraf getraind visueel model te gebruiken om gezichtskenmerken te extraheren, die vervolgens worden doorgegeven aan een snelle BLS-gebaseerde systeem voor beoordeling, waardoor kenmerken opnieuw kunnen worden gebruikt in plaats van van scratch te leren, terwijl de training efficiënt blijft:

Voorbeeldafbeeldingen uit de LSAFBD-dataset, waarbij vrouwengezichten zijn gegroepeerd op basis van door mensen toegewezen schoonheidscores van 1 tot 5, waarbij beoordelingen zijn afgeleid van meerdere annotators en zijn gebruikt als gesuperviseerde labels voor training en evaluatie van gezichtsschoonheidsvoorspellingsmodellen over variaties in pose, verlichting en verschijning.. Bron - https://arxiv.org/pdf/2603.16930

Voorbeeldafbeeldingen uit de LSAFBD-dataset, waarbij vrouwengezichten zijn gegroepeerd op basis van door mensen toegewezen schoonheidscores van 1 tot 5. Beoordelingen zijn verkregen van meerdere annotators en zijn gebruikt als gesuperviseerde labels voor training en evaluatie van gezichtsschoonheidsvoorspellingsmodellen over variaties in pose, verlichting en verschijning. Bron

De eerste van de twee varianten, E-BLS, voedt de geëxtraheerde kenmerken rechtstreeks in het lichte systeem, terwijl de tweede, ER-BLS, een eenvoudige tussenstap toevoegt die de kenmerken standaardiseert en verfijnt voordat ze worden beoordeeld, waardoor de consistentie verbetert zonder het proces te vertragen.

Tests die door de auteurs zijn uitgevoerd, bewijzen, zoals zij claimen, dat hun aanpak superieur is aan beide methoden afzonderlijk en aan andere concurrerende methoden.

Het nieuwe artikel heeft als titel Gezichtsschoonheidsvoorspelling door transfer learning en broad learning system en komt van zes onderzoekers aan de Wuyi University, Jiangmen.

Methode

Het bovengenoemde Broad Learning System is een lichtgewicht alternatief voor diepe neurale netwerken, dat het stapelen van meerdere lagen overslaat en in plaats daarvan het leren verspreidt over een breed scala van eenvoudige verbindingen, waardoor modellen snel kunnen trainen – maar meestal ten koste van het missen van fijnere visuele details.

De eerste van de twee varianten, E-BLS, combineert EfficientNet-gebaseerde transfer learning met BLS, waarbij gedetailleerde visuele kenmerken van een gezicht worden geëxtraheerd en vervolgens doorgegeven aan BLS, waardoor een definitieve voorspelling ontstaat die de noodzaak om een volledig diep neuronaal netwerk van scratch te trainen, vermijdt:

Architectuur-schema voor het E-BLS-model, waarin gezichtsafbeeldingen uit doeldatasets zoals SCUT-FBP5500 en LSAFBD eerst worden doorgegeven door een vooraf getrainde EfficientNet-kenmerkenextractor, waarvan de parameters zijn overgedragen van ImageNet en vastgehouden, voordat de resulterende kenmerkkaarten worden doorgegeven aan een Broad Learning System (BLS), waar kenmerkknopen en verbeteringsknopen worden gecombineerd door trainbare gewichten om de definitieve gezichtsschoonheidscore te produceren.

Architectuur-schema voor het E-BLS-model.

EfficientNet, vooraf getraind op ImageNet-1k en grotendeels ongewijzigd, converteert elke invoerafbeelding naar een compacte set van kenmerkwaarden die het gezicht op een gestructureerde manier beschrijven, terwijl BLS deze waarden verwerkt door een netwerk van eenvoudige, willekeurig verbonden knooppunten die de informatie transformeren en combineren, voordat de definitieve aantrekkelijkheidscore wordt geproduceerd.

Omdat BLS niet afhankelijk is van diepe, gelagenstructuren, kan E-BLS worden bijgewerkt door meer knooppunten toe te voegen in plaats van het hele systeem opnieuw te trainen, waardoor de training snel blijft en het gemakkelijker wordt om het model te verbeteren wanneer nieuwe gegevens worden geïntroduceerd.

De tweede van de twee varianten, ER-BLS, bouwt voort op E-BLS door een extra verwerkingsstap toe te voegen tussen de EfficientNet-kenmerkenextractor en BLS, met als doel de manier waarop deze geëxtraheerde kenmerken worden voorbereid voordat ze voor voorspelling worden gebruikt, te verbeteren:

Architectuur van het ER-BLS-model, waarin gezichtsafbeeldingen worden verwerkt door een vooraf getrainde EfficientNet-kenmerkenextractor, vervolgens verfijnd door een verbindinglaag met pooling, normalisatie en radiale basisfunctie (RBF)-transformatie. De uitvoer wordt vervolgens doorgegeven aan het Broad Learning System (BLS), om de definitieve gezichtsschoonheidscore te produceren.

Architectuur van het ER-BLS-model.

In plaats van de ruwe EfficientNet-kenmerken rechtstreeks naar BLS te sturen, voert ER-BLS ze eerst door een verfijningslaag die de gegevens standaardiseert en vormt, waardoor ruis wordt verminderd en de kenmerken meer consistent worden over verschillende afbeeldingen. Deze stap is ontworpen om te helpen bij het verbeteren van de manier waarop het systeem generaliseert, vooral wanneer gezichten variëren in verlichting, pose of andere visuele omstandigheden die anders instabiliteit in de voorspellingen kunnen introduceren.

De verfijnde kenmerken worden vervolgens doorgegeven aan dezelfde BLS-structuur die in E-BLS wordt gebruikt, waar kenmerkknopen en verbeteringsknopen de informatie transformeren en combineren om de definitieve aantrekkelijkheidscore te produceren.

Gegevens en tests

Om hun aanpak te testen, hebben de auteurs de SCUT-FBP5500-dataset gebruikt, een collectie van gezichtsschoonheidsvoorspellingen van de South China University, met 5.500 frontale gezichtsafbeeldingen van 350x350px, met een diverse rassen, geslachten en leeftijden:

Voorbeeldafbeeldingen uit de SCUT-FBP5500-dataset, beoordeeld van minst (1) tot meest (5) aantrekkelijk.

Voorbeeldafbeeldingen uit de SCUT-FBP5500-dataset, beoordeeld van minst (1) tot meest (5) aantrekkelijk.

Elke afbeelding werd beoordeeld met een schoonheidscore door 60 vrijwilligers, op een schaal van 1-5, variërend van extreem onaantrekkelijk (1) tot extreem aantrekkelijk (5):

De verdeling van de proporties van afbeeldingen per schoonheidsbeoordeling.

De verdeling van de proporties van afbeeldingen per schoonheidsbeoordeling.

De andere database die werd gebruikt, was de Large-Scale Asian Female Beauty Dataset (LSAFBD)-collectie, een dataset die door de auteurs zelf is samengesteld.

Voorbeeldafbeeldingen uit de LSAFBD-dataset, beoordeeld van minst (1) tot meest (5) aantrekkelijk.

Voorbeeldafbeeldingen uit de LSAFBD-dataset, beoordeeld van minst (1) tot meest (5) aantrekkelijk.

De collectie bestaat uit 80.000 ongelabelde afbeeldingen van 144x144px resolutie, met variaties in pose en achtergrond, evenals leeftijd. Deze werden beoordeeld door 75 vrijwilligers voor dezelfde criteria als de vorige dataset, deze keer op een schaal van 0-4:

De verdeling voor de LSAFBD-dataset.

De verdeling voor de LSAFBD-dataset.

Elke dataset werd gesplitst in trainings- en testsegmenten met een verhouding van 8/20, en cross-validatie werd gebruikt om resultaten over runs te stabiliseren. Het BLS-onderdeel werd geconfigureerd via het aantal functievensters; het aantal knooppunten per venster; en het aantal verbeteringsknopen, met Hyperopt gebruikt om effectieve combinaties te zoeken.

Om een basislijn te creëren, werd een standaard BLS-model getraind onder identieke instellingen, waarna een reeks transfer learning-modellen werd geïntroduceerd, waaronder ResNet50, Inception-V3, DenseNet121, InceptionResNetV2, EfficientNetB7, MobileNetV2, NASNet en Xception – allemaal geïnitialiseerd met ImageNet-1k-gewichten en getraind met hun laatste lagen ongevroren.

Training gebruikte een leer tempo van 0,001 (verlaagd wanneer de voortgang stilviel), en een batchgrootte van 16, over 50 epochs, met regularisatie en rectified linear activation (ReLU) toegepast in de hele training.

De prestaties werden geëvalueerd met behulp van nauwkeurigheid en Pearson-correlatie, naast de totale traintijd, met resultaten gemiddeld over vijf runs.

De auteurs rapporteren de traintestopstelling als een Intel-i7 3,6 GHz CPU en 64 GB RAM op een ‘desktopcomputer’:

Prestatievergelijking op SCUT-FBP5500, waar E-BLS en ER-BLS concurrerende nauwkeurigheid bereiken tegenover diepe CNN-modellen, waaronder ResNet50, EfficientNetB7, InceptionV3 en Xception, terwijl ze aanzienlijk minder traintijd vereisen - waardoor de efficiëntiegroei van het combineren van transfer learning met een Broad Learning System wordt benadrukt.

Prestatievergelijking op SCUT-FBP5500, waar E-BLS en ER-BLS concurrerende nauwkeurigheid bereiken tegenover diepe CNN-modellen, waaronder ResNet50, EfficientNetB7, InceptionV3 en Xception, terwijl ze aanzienlijk minder traintijd vereisen – waardoor de efficiëntiegroei van het combineren van transfer learning met een Broad Learning System wordt benadrukt.

De resultaten toonden aan dat E-BLS de nauwkeurigheid verbeterde van 65,85% tot 73,13%, terwijl ER-BLS 74,69% bereikte, waarmee alle vergeleken modellen werden overtroffen. De traintijd bleef aanzienlijk lager dan diepe CNN’s, op ongeveer 1.300 seconden, versus meerdere duizenden tot meer dan 25.000 seconden.

Voor de tests op LSAFBD toonden de resultaten aan dat E-BLS de nauwkeurigheid verbeterde ten opzichte van gewone BLS, terwijl ER-BLS de hoogste nauwkeurigheid bereikte onder alle vergeleken methoden:

Prestatie op LSAFBD, waar ER-BLS en E-BLS hogere nauwkeurigheid leveren dan alle baseline- en transfer learning-modellen, terwijl ze slechts een fractie van hun traintijd vereisen, waardoor een consistente voorsprong in efficiëntie wordt aangetoond zonder de voorspellingskwaliteit te offeren.

Prestatie op LSAFBD, waar ER-BLS en E-BLS hogere nauwkeurigheid leveren dan alle baseline- en transfer learning-modellen, terwijl ze slechts een fractie van hun traintijd vereisen, waardoor een consistente voorsprong in efficiëntie wordt aangetoond zonder de voorspellingskwaliteit te offeren.

Beide varianten behielden aanzienlijk lagere traintijd dan diepe CNN-modellen, waardoor een meer efficiënte balans tussen prestaties en computationele kosten werd aangetoond.

Conclusie

Dit is enigszins een ‘throwback’-publicatie, zoals blijkt uit het gebruik van pre-boom-favorieten zoals CNN’s en door het gebruik van de laagste trainingsapparatuur die ik in een nieuw artikel in veel jaar heb aangetroffen.

Nonetheless, het behandelt een verrassend resilient doel in computerzicht; een die zwaar leunt op menselijke ervaring en subjectieve interpretatie, en die een schema vereist dat de esthetische trends van het moment te boven gaat en een echt robuust pijplijn voor de taak kan bieden.

 

Eerst gepubliceerd op donderdag 19 maart 2026

Schrijver over machine learning, domeinspecialist in menselijke beeldsynthese. Voormalig hoofd onderzoekscontent bij Metaphysic.ai.