stomp Menselijke lichaamstypes hervormen met AI - Unite.AI
Verbind je met ons

Artificial Intelligence

Menselijke lichaamstypes hervormen met AI

mm
Bijgewerkt on

Een nieuwe onderzoekssamenwerking uit China biedt een nieuwe methode om het menselijk lichaam in afbeeldingen om te vormen, door het gebruik van een gecoördineerd dubbel neuraal encodernetwerk, geleid door een parametrisch model, waarmee een eindgebruiker gewicht, lengte en lichaamsverhouding kan moduleren in een interactieve GUI.

Geparametriseerde modulatie van lichaamsvorm, met schuifregelaars die de drie beschikbare functies wijzigen. Bron: https://arxiv.org/pdf/2203.10496.pdf

Geparametriseerde modulatie van lichaamsvorm, met schuifregelaars die de drie beschikbare functies wijzigen. Bron: https://arxiv.org/pdf/2203.10496.pdf

Het werk biedt verschillende verbeteringen ten opzichte van a recent soortgelijk project van Alibaba, in die zin dat het op overtuigende wijze lengte en lichaamsverhoudingen en gewicht kan veranderen, en een speciaal neuraal netwerk heeft voor het 'inschilderen' van de (niet-bestaande) achtergrond die kan worden onthuld door 'slankere' lichaamsbeelden. Het verbetert ook opmerkelijk eerdere parametrische methode voor het hervormen van het lichaam door de behoefte aan uitgebreide menselijke tussenkomst tijdens het formuleren van de transformatie weg te nemen.

Getiteld Neurale Hervormerpast de nieuwe architectuur een parametrische menselijke 3D-sjabloon toe aan een bronafbeelding en gebruikt vervolgens vervormingen in de sjabloon om de originele afbeelding aan te passen aan de nieuwe parameters.

Het systeem kan lichaamstransformaties aan op zowel geklede als halfgeklede (dwz strandkleding) figuren.

Transformaties van dit type zijn momenteel van groot belang voor de mode-AI onderzoekssector, die een aantal op StyleGAN/CycleGAN gebaseerde en algemene neurale netwerkplatforms heeft voortgebracht voor virtuele try-ons die beschikbare kledingstukken kan aanpassen aan de lichaamsvorm en het type van een door een gebruiker ingezonden afbeelding, of anderszins kan helpen bij visuele conformiteit.

De papier is getiteld Hervorming van het menselijk lichaam met één afbeelding met diepe neurale netwerken, en is afkomstig van onderzoekers van de Zhejiang University in Hangzhou en de School of Creative Media van de City University of Hong Kong.

SMPL-montage

NeuralReshaper maakt gebruik van het Skinned Multi-Person Linear Model (SMPL) ontwikkelde door het Max Planck Institute for Intelligent Systems en het gerenommeerde VFX-huis Industrial Light and Magic in 2015.

SMPL Parametrische mensen uit de Planck/ILM-samenwerking uit 2015. Bron: https://files.is.tue.mpg.de/black/papers/SMPL2015.pdf

SMPL Parametrische mensen uit de Planck/ILM-samenwerking uit 2015. Bron: https://files.is.tue.mpg.de/black/papers/SMPL2015.pdf

In de eerste fase van het proces wordt een SMPL-model gegenereerd op basis van een bronbeeld waarnaar lichaamstransformaties moeten worden gemaakt. De aanpassing van het SMPL-model aan het beeld volgt op de methodologie van de Human Mesh Recovery (HMR)-methode voorgesteld door universiteiten in Duitsland en de VS in 2018.

De drie parameters voor vervorming (gewicht, lengte, lichaamsverhouding) worden in dit stadium berekend, samen met de cameraparameters, zoals de brandpuntsafstand. 2D-keypoints en gegenereerde silhouetuitlijning bieden de omhulling voor de vervorming in de vorm van een 2D-silhouet, een aanvullende optimalisatiemaatregel die de grensnauwkeurigheid verhoogt en authentieke achtergrondinschildering verderop in de pijplijn mogelijk maakt.

SMPL-aanpassingsfasen: links, de bronafbeelding; tweede van links, het optimalisatieresultaat verkregen uit de methode beschreven in onderzoek uit 2016 onder leiding van het Max Planck Institute for Intelligent Systems; derde van links, een direct gevolgtrekkingsresultaat van het vooraf getrainde model voor end-to-end herstel van menselijke vorm en pose; tweede van rechts, de verkregen resultaten na optimalisatie van de 2D-sleutelpunten; en tot slot, goed, de voltooide pasvorm na silhouetoptimalisatie (zie hierboven).

SMPL-aanpassingsfasen: links, de bronafbeelding; ten tweede het optimalisatieresultaat verkregen uit de in 2016 geschetste methode onderzoek geleid door het Max Planck Instituut voor Intelligente Systemen; ten derde, een direct gevolgtrekkingsresultaat van het vooraf getrainde model voor End-to-end herstel van menselijke vorm en houding; ten vierde, de resultaten verkregen na optimalisatie van de 2D-sleutelpunten; en ten slotte, ten vijfde, de voltooide pasvorm na silhouetoptimalisatie (zie hierboven).

De 3D-vervorming wordt vervolgens geprojecteerd in de beeldruimte van de architectuur om een ​​dicht kromtrekkend veld mogelijk te maken dat de vervorming zal definiëren. Dit proces duurt ongeveer 30 seconden per afbeelding.

NeuralReshaper-architectuur

NeuralReshaper voert twee neurale netwerken tegelijk uit: een encoder op de voorgrond die de getransformeerde lichaamsvorm genereert, en een encoder op de achtergrond die zich richt op het invullen van 'gedeoccludeerde' achtergrondgebieden (in het geval van bijvoorbeeld het afslanken van een lichaam - zie afbeelding onderstaand).

Het raamwerk in U-net-stijl integreert de output van de functies van de twee encoders voordat het resultaat wordt doorgegeven aan een uniforme encoder die uiteindelijk een nieuw beeld produceert van de twee inputs. De architectuur is voorzien van een nieuw warp-geleid mechanisme om integratie mogelijk te maken.

Training en experimenten

NeuralReshaper is geïmplementeerd in PyTorch op een enkele NVIDIA 1080ti GPU met 11 GB VRAM. Het netwerk werd gedurende 100 tijdperken getraind onder de Adam-optimizer, met de generator ingesteld op een doelverlies van 0.0001 en de discriminator op een doelverlies van 0.0004. De training vond plaats in een batchgrootte van 8 voor een eigen dataset voor buitengebruik (ontleend aan COCO, MPIIen LSP), en 2 voor training op de Diepe mode gegevensset.

Links de originele afbeeldingen, rechts de opnieuw geproportioneerde output van NeuralReshaper.

Links de originele afbeeldingen, rechts de opnieuw geproportioneerde output van NeuralReshaper.

Hieronder vindt u enkele voorbeelden exclusief uit de DeepFashion-dataset zoals getraind voor NeuralReshaper, met de originele afbeeldingen altijd aan de linkerkant.

De drie beheersbare attributen zijn onlosmakelijk verbonden en kunnen afzonderlijk worden toegepast.

Transformaties op de afgeleide dataset buitenshuis zijn uitdagender, omdat ze vaak het invullen van complexe achtergronden en een duidelijke en overtuigende afbakening van de getransformeerde lichaamstypes vereisen:

Parametrische noodzaak

Zoals de paper opmerkt, vertegenwoordigen transformaties van hetzelfde beeld van dit type een slecht gesteld probleem bij beeldsynthese. Veel transformatieve GAN- en encoderframeworks kunnen gebruikmaken van gepaarde afbeeldingen (zoals de diverse projecten die zijn ontworpen om effect schets>foto en foto>schets transformaties).

In het onderhavige geval zou dit echter beeldparen vereisen met dezelfde mensen in verschillende fysieke configuraties, zoals de 'voor en na'-beelden in advertenties voor voeding of plastische chirurgie - gegevens die moeilijk te verkrijgen of te genereren zijn.

Als alternatief kunnen transformatieve GAN-netwerken trainen op veel meer diverse gegevens en transformaties bewerkstelligen door de latente richting tussen de bron (originele afbeelding latente code) en de gewenste klasse (in dit geval 'dik', 'dun', 'lang', enz.). Deze benadering is op dit moment echter te beperkt voor het nauwkeurig afstellen van het lichaam.

Neurale stralingsvelden (Nerf) benaderingen zijn veel verder geavanceerd in volledige lichaamssimulatie dan de meeste GAN-gebaseerde systemen, maar blijven scènespecifiek en resource-intensief, met momenteel zeer beperkte mogelijkheid om lichaamstypes te bewerken op de granulaire manier die NeuralReshaper en eerdere projecten proberen aan te pakken ( kort van het hele lichaam naar beneden schalen ten opzichte van zijn omgeving).

De latente ruimte van de GAN is moeilijk te beheersen; VAE's alleen pakken de complexiteit van reproductie van het hele lichaam nog niet aan; en het vermogen van NeRF om menselijke lichamen consequent en realistisch te hermodelleren, is nog steeds in opkomst. Daarom lijkt het erop dat de integratie van 'traditionele' CGI-methodologieën, zoals SMPL, zal worden voortgezet in de onderzoekssector voor menselijke beeldsynthese, als een methode om kenmerken, klassen en latente codes te bundelen en te consolideren waarvan de parameters en exploiteerbaarheid nog niet volledig worden begrepen in deze opkomende technologieën.

 

Voor het eerst gepubliceerd op 31 maart 2022.