Kunstmatige intelligentie
Het creëren van ‘beter’ lichamen met AI

Nieuw onderzoek van de Alibaba DAMO-academie biedt een AI-gestuurd workflow voor het automatiseren van het herschappen van lichaamsbeelden – een zeldzame inspanning in een computer vision-secteur die momenteel wordt gedomineerd door gezichtsgerichte manipulaties zoals deepfakes en GAN-gebaseerde gezichtsbewerking.

Ingevoegd in ‘resultaat’ kolommen, de gegenereerde aandachtskaarten die de gebieden definiëren die gewijzigd moeten worden. Bron: https://arxiv.org/pdf/2203.04670.pdf
De architectuur van de onderzoekers gebruikt skeletpose-estimatie om de grotere complexiteit aan te pakken die beeldsynthese- en bewerkingsystemen hebben bij het conceptualiseren en parameteriseren van bestaande lichaamsbeelden, ten minste tot een niveau van granulariteit dat daadwerkelijk zinvolle en selectieve bewerking toelaat.

Geschatte skeletkaarten helpen om individuele delen van het lichaam te onderscheiden en aandacht te richten op gebieden die waarschijnlijk worden geretoucheerd, zoals de bovenarm.
Het systeem maakt het uiteindelijk mogelijk voor een gebruiker om parameters in te stellen die de verschijning van gewicht, spiermassa of gewichtsverdeling in volledige of middelgrote foto’s van mensen kunnen veranderen, en kan willekeurige transformaties genereren op geklede of ongeklede lichaamsdelen.

Links, het invoerbeeld; midden, een warmtekaart van de afgeleide aandachtsgebieden; rechts, het getransformeerde beeld.
De motivatie voor het werk is de ontwikkeling van geautomatiseerde workflows die de moeilijke digitale manipulaties kunnen vervangen die door fotografen en productiegrafisch ontwerpers in verschillende takken van de media worden uitgevoerd, van mode tot tijdschriftstijl en publiciteitsmateriaal.
In het algemeen erkennen de auteurs dat deze transformaties meestal worden toegepast met ‘warp’-technieken in Photoshop en andere traditionele bitmap-editors, en bijna uitsluitend worden gebruikt op beelden van vrouwen. Gevolglijk bestaat de aangepaste dataset die is ontwikkeld om het nieuwe proces te vergemakkelijken, voornamelijk uit foto’s van vrouwelijke onderwerpen:
‘Aangezien lichaamsretoucheren voornamelijk door vrouwen wordt gewenst, bestaat de meerderheid van onze verzameling uit vrouwelijke foto’s, met inachtneming van de diversiteit van leeftijden, rassen (Afrikaans:Aziatisch:Kaukasisch = 0,33:0,35:0,32), poses en kleding.’
Het artikel heeft als titel Structure-Aware Flow Generation for Human Body Reshaping, en komt van vijf auteurs die zijn geassocieerd met de wereldwijde DAMO-academie van Alibaba.
Datasetontwikkeling
Zoals meestal het geval is met beeldsynthese- en bewerkingsystemen, vereiste de architectuur van het project een aangepaste trainingsdataset. De auteurs hebben drie fotografen ingehuurd om standaard Photoshop-manipulaties van geschikte beelden van de stockfotowebsite Unsplash te produceren, waardoor een dataset – getiteld BR-5K* – van 5.000 hoge kwaliteit beelden met een resolutie van 2K ontstond.
De onderzoekers benadrukken dat het doel van de training op deze dataset niet is om ‘geïdealiseerde’ en gegeneraliseerde kenmerken te produceren die verband houden met een index van aantrekkelijkheid of wenselijke verschijning, maar om de centrale kenmerkkaarten te extraheren die zijn geassocieerd met professionele manipulaties van lichaamsbeelden.
Ze geven echter toe dat de manipulaties uiteindelijk transformative processen weerspiegelen die een overgang van ‘echt’ naar een vooraf ingestelde notie van ‘ideaal’ in kaart brengen:
‘We nodigen drie professionele kunstenaars uit om lichamen te retoucheren met Photoshop onafhankelijk, met als doel slanke figuren te bereiken die voldoen aan de populaire esthetiek, en selecteren de beste als grondwaarheid.’
Aangezien het kader geen gezichten behandelt, werden deze vóór het opnemen in de dataset verwijderd.
Architectuur en kernconcepten
De workflow van het systeem omvat het invoeren van een hoge resolutieportret, downsamplen naar een lagere resolutie die past binnen de beschikbare rekenbronnen, en het extraheren van een geschatte skeletkaartpose (tweede figuur van links in de onderstaande afbeelding), evenals Part Affinity Fields (PAF’s), die in 2016 zijn geïnnoveerd door The Robotics Institute van de Carnegie Mellon University (zie de ingesloten video rechtsonder).
Part Affinity Fields helpen om de oriëntatie van ledematen en de algemene associatie met het bredere skeletkader te definiëren, waardoor het nieuwe project een extra aandachts-/localisatietool krijgt.

Uit het artikel over Part Affinity Fields, voorspelde PAF’s coderen de oriëntatie van ledematen als onderdeel van een 2D-vecor die ook de algemene positie van het lidmaat omvat. Bron: https://arxiv.org/pdf/1611.08050.pdf
Ondanks hun schijnbare irrelevantie voor de verschijning van gewicht, zijn skeletkaarten nuttig bij het richten van de definitieve transformatieprocessen naar delen van het lichaam die gewijzigd moeten worden, zoals bovenarmen, achterkant en dijen.
Vervolgens worden de resultaten doorgegeven aan een Structure Affinity Self-Attention (SASA) in de centrale bottleneck van het proces (zie onderstaande afbeelding).

De SASA reguleert de consistentie van de flowgenerator die het proces voedt, waarvan de resultaten vervolgens worden doorgegeven aan de warpmodule (tweede van rechts in de bovenstaande afbeelding), die de transformaties toepast die zijn geleerd van de training op de handmatige revisies die in de dataset zijn opgenomen.

De Structure Affinity Self-Attention (SASA)-module wijst aandacht toe aan relevante lichaamsdelen, waardoor extrane en irrelevante transformaties worden vermeden.
Het uitvoerbeeld wordt vervolgens opgeschaald naar de oorspronkelijke resolutie van 2K, met behulp van processen die niet veel afwijken van de standaardarchitectuur van deepfakes uit 2017, waaruit populaire pakketten zoals DeepFaceLab zijn afgeleid; het opschalingsproces is ook gebruikelijk in GAN-bewerkingskaders.
Het aandachtsnetwerk voor het schema is gemodelleerd naar Compositional De-Attention Networks (CODA), een samenwerking tussen de VS en Singapore uit 2019 met Amazon AI en Microsoft.
Tests
Het flow-gebaseerde kader werd getest tegen eerdere flow-gebaseerde methoden FAL en Animating Through Warping (ATW), evenals beeldvertaalarchitecturen Pix2PixHD en GFLA, met SSIM, PSNR en LPIPS als evaluatiemetrics.

Resultaten van de initiële tests (pijlrichting in headers geeft aan of lagere of hogere cijfers het beste zijn).
Op basis van deze aangenomen metrics, presteert het systeem van de auteurs beter dan de eerdere architectuur.

Geselecteerde resultaten. Raadpleeg het originele PDF dat in dit artikel is gekoppeld voor hogere resolutie vergelijkingen.
Naast de geautomatiseerde metrics voerden de onderzoekers een gebruikersstudie uit (laatste kolom van resultaten in de bovenstaande tabel), waarin 40 deelnemers elk 30 vragen te zien kregen die willekeurig waren geselecteerd uit een pool van 100 vragen met betrekking tot de beelden die via de verschillende methoden waren gegenereerd. 70% van de respondenten gaf de voorkeur aan de nieuwe techniek als meer ‘visueel aantrekkelijk’.
Uitdagingen
Het nieuwe artikel vertegenwoordigt een zeldzame excursie in AI-gebaseerde lichaamsmanipulatie. De beeldsynthesector is momenteel veel meer geïnteresseerd in het genereren van bewerkbare lichamen via methoden zoals Neural Radiance Fields (NeRF), of is gefixeerd op het verkennen van de latent space van GAN’s en het potentieel van auto-encoders voor gezichtsmanipulatie.
De initiatief van de auteurs is momenteel beperkt tot het produceren van veranderingen in de waargenomen gewicht, en ze hebben geen enkele vorm van inpainting geïmplementeerd die de achtergrond kan herstellen die onvermijdelijk zichtbaar wordt wanneer je een foto van iemand slanker maakt.
Ze stellen echter voor dat portretmatting en achtergrondvermenging via texturele inferentie het probleem van het herstellen van de delen van de wereld die eerder door menselijke ‘onvolkomenheid’ in de afbeelding werden verborgen, gemakkelijk kunnen oplossen.

Een voorgestelde oplossing voor het herstellen van de achtergrond die zichtbaar wordt door AI-gebaseerde vetreductie.
* Hoewel het voorpublicatieartikel verwijst naar aanvullend materiaal dat meer details geeft over de dataset, evenals verdere voorbeelden uit het project, is de locatie van dit materiaal niet beschikbaar in het artikel, en de overeenkomstige auteur heeft nog niet gereageerd op ons verzoek om toegang.
Publicatie voor het eerst op 10 maart 2022.










