stomp 'Bad Hair Days' aanpakken in de synthese van menselijke afbeeldingen - Unite.AI
Verbind je met ons

Artificial Intelligence

'Bad Hair Days' aanpakken in de synthese van menselijke beelden

mm
Bijgewerkt on

Sinds de gouden eeuw van de Romeinse beeldhouwkunst is het afbeelden van mensenhaar een netelige uitdaging geweest. Het gemiddelde menselijke hoofd bevat 100,000 strengen, heeft variërende brekingsindices afhankelijk van de kleur en zal, voorbij een bepaalde lengte, bewegen en hervormen op manieren die alleen kunnen worden gesimuleerd door complexe natuurkundige modellen – tot op heden alleen toepasbaar via 'traditionele' CGI-methodologieën.

Uit onderzoek van Disney uit 2017 probeert een op fysica gebaseerd model realistische bewegingen toe te passen op een vloeiend kapsel in een CGI-workflow. Bron: https://www.youtube.com/watch?v=-6iF3mufDW0

Van 2017 onderzoek van Disney probeert een op fysica gebaseerd model realistische bewegingen toe te passen op een vloeiend kapsel in een CGI-workflow. Bron: https://www.youtube.com/watch?v=-6iF3mufDW0

Het probleem wordt slecht aangepakt door moderne populaire deepfakes-methoden. Al enkele jaren het toonaangevende pakket DeepFaceLab heeft een 'volledig hoofd'-model gehad dat alleen rigide belichamingen van korte (meestal mannelijke) kapsels kan vastleggen; en onlangs DFL stablemate gezicht wisselen (beide pakketten zijn afgeleid van de controversiële DeepFakes-broncode uit 2017) heeft een implementatie aangeboden van de BiseNet semantisch segmentatiemodel, waardoor een gebruiker oren en haar kan opnemen in deepfake-uitvoer.

Zelfs bij het weergeven van zeer korte kapsels zijn de resultaten meestal goed zeer beperkt van kwaliteit, met volle hoofden die bovenop het beeldmateriaal verschijnen in plaats van erin geïntegreerd te zijn.

GAN-haar

De twee belangrijkste concurrerende benaderingen van menselijke simulatie zijn neurale stralingsvelden (Nerf), die een scène vanuit meerdere gezichtspunten kan vastleggen en een 3D-weergave van deze gezichtspunten kan inkapselen in een verkenbaar neuraal netwerk; en generatieve vijandige netwerken (GAN), die met name geavanceerder zijn in termen van menselijke beeldsynthese (niet in de laatste plaats omdat NeRF pas in 2020 opkwam).

NeRF's afgeleide begrip van 3D-geometrie stelt het in staat om een ​​scène met grote getrouwheid en consistentie te repliceren, zelfs als er momenteel weinig of geen ruimte is voor het opleggen van natuurkundige modellen - en in feite relatief beperkte ruimte voor enige vorm van transformatie op de verzamelde gegevens die geen betrekking hebben op het wijzigen van het camerastandpunt. Momenteel heeft NeRF zeer beperkte mogelijkheden in termen van het reproduceren van bewegingen van menselijk haar.

GAN-gebaseerde equivalenten van NeRF beginnen met een bijna fataal nadeel, aangezien, in tegenstelling tot NeRF, de latente ruimte van een GAN bevat van nature geen begrip van 3D-informatie. Daarom is 3D-bewuste GAN-gezichtsbeeldsynthese de afgelopen jaren een populaire bezigheid geworden in onderzoek naar beeldgeneratie, met 2019's InterFaceGAN een van de belangrijkste doorbraken.

Maar zelfs de door InterFaceGAN getoonde en door kersverse resultaten geselecteerde resultaten tonen aan dat de consistentie van neuraal haar een zware uitdaging blijft in termen van consistentie in de tijd, voor potentiële VFX-workflows:

'Knetterend' haar in een pose-transformatie van InterFaceGAN. Bron: https://www.youtube.com/watch?v=uoftpl3Bj6w

'Knetterend' haar in een pose-transformatie van InterFaceGAN. Bron: https://www.youtube.com/watch?v=uoftpl3Bj6w

Naarmate het duidelijker wordt dat het consistent genereren van beelden via manipulatie van alleen de latente ruimte een alchemistische bezigheid kan zijn, verschijnen er steeds meer papers die CGI-gebaseerde 3D-informatie opnemen in een GAN-workflow als een stabiliserende en normaliserende beperking.

Het CGI-element kan worden weergegeven door tussenliggende 3D-primitieven zoals een Gevild lineair model voor meerdere personen (SMPL), of door 3D-inferentietechnieken toe te passen op een manier die vergelijkbaar is met NeRF, waarbij geometrie wordt geëvalueerd op basis van de bronafbeeldingen of video.

Een nieuw werk in deze richting, deze week uitgebrachtIs Consistente generatieve vijandige netwerken met meerdere weergaven voor 3D-bewuste beeldsynthese (MVCGAN), een samenwerking tussen ReLER, AAII, University of Technology Sydney, de DAMO Academy van Alibaba Group en Zhejiang University.

Plausibele en robuuste nieuwe gezichtshoudingen gegenereerd door MVCGAN op afbeeldingen afgeleid van de CELEBA-HQ-dataset. Bron: https://arxiv.org/pdf/2204.06307.pdf

Plausibele en robuuste nieuwe gezichtshoudingen gegenereerd door MVCGAN op afbeeldingen afgeleid van de CELEBA-HQ-dataset.  Bron: https://arxiv.org/pdf/2204.06307.pdf

MVCGAN bevat een generatief stralingsveldnetwerk (GRAF) in staat om geometrische beperkingen te bieden in een Generative Adversarial Network, waarmee aantoonbaar enkele van de meest authentieke poseermogelijkheden worden bereikt van elke vergelijkbare GAN-gebaseerde benadering.

Vergelijking tussen MVCGAN en eerdere methoden GRAF, GIRAFFE en pi-GAN.

Vergelijking tussen MVCGAN en eerdere methoden GRAF, GIRAFFE en pi-GAN.

Aanvullend materiaal voor MVCGAN onthult echter dat het verkrijgen van haarvolume, dispositie, plaatsing en gedragsconsistentie een probleem is dat niet gemakkelijk kan worden aangepakt door beperkingen op basis van extern opgelegde 3D-geometrie.

Uit aanvullend materiaal dat op het moment van schrijven niet openbaar is gemaakt, zien we dat hoewel de synthese van gezichtshoudingen van MVCGAN een opmerkelijke vooruitgang vertegenwoordigt ten opzichte van de huidige stand van de techniek, temporele haarconsistentie een probleem blijft.

Uit aanvullend materiaal dat op het moment van schrijven niet openbaar is gemaakt, zien we dat hoewel de synthese van gezichtshoudingen van MVCGAN een opmerkelijke vooruitgang vertegenwoordigt ten opzichte van de huidige stand van de techniek, temporele haarconsistentie een probleem blijft.

Aangezien 'ongecompliceerde' CGI-workflows tijdelijke haarreconstructie nog steeds zo'n uitdaging vinden, is er geen reden om aan te nemen dat conventionele, op geometrie gebaseerde benaderingen van deze aard binnenkort een consistente haarsynthese naar de latente ruimte zullen brengen.

Haar stabiliseren met convolutionele neurale netwerken

Een binnenkort te verschijnen paper van drie onderzoekers van het Chalmers Institute of Technology in Zweden kan echter een extra stap vooruit zijn op het gebied van neurale haarsimulatie.

Links de door CNN gestabiliseerde haarweergave, rechts de grondwaarheid. Zie de video die is ingesloten aan het einde van het artikel voor een betere resolutie en aanvullende voorbeelden. Bron: https://www.youtube.com/watch?v=AvnJkwCmsT4

Links de door CNN gestabiliseerde haarweergave, rechts de grondwaarheid. Zie de video die is ingesloten aan het einde van het artikel voor een betere resolutie en aanvullende voorbeelden. Bron: https://www.youtube.com/watch?v=AvnJkwCmsT4

Getiteld Realtime haarfiltering met convolutionele neurale netwerken, zal het artikel worden gepubliceerd voor de i3D-symposium begin mei.

Het systeem omvat een autoencoder-gebaseerd netwerk dat in staat is om haarresolutie te evalueren, inclusief zelfschaduwing en rekening houdend met de haardikte, in real time, op basis van een beperkt aantal stochastische monsters gezaaid door OpenGL-geometrie.

De aanpak levert een beperkt aantal monsters op stochastische transparantie en traint dan a U-net om het oorspronkelijke beeld te reconstrueren.

Onder MVCGAN filtert een CNN stochastisch gesamplede kleurfactoren, hooglichten, raaklijnen, diepte en alfa's, waarbij de gesynthetiseerde resultaten worden samengevoegd tot een samengesteld beeld.

Onder MVCGAN filtert een CNN stochastisch gesamplede kleurfactoren, hooglichten, raaklijnen, diepte en alfa's, waarbij de gesynthetiseerde resultaten worden samengevoegd tot een samengesteld beeld.

Het netwerk wordt getraind op PyTorch en convergeert over een periode van zes tot twaalf uur, afhankelijk van het netwerkvolume en het aantal invoerfuncties. De getrainde parameters (gewichten) worden vervolgens gebruikt bij de real-time implementatie van het systeem.

Trainingsgegevens worden gegenereerd door honderden afbeeldingen weer te geven voor rechte en golvende kapsels, met behulp van willekeurige afstanden en poses, evenals verschillende lichtomstandigheden.

Diverse voorbeelden van trainingsinput.

Diverse voorbeelden van trainingsinput.

Haardoorschijnendheid over de monsters wordt gemiddeld op basis van afbeeldingen die zijn weergegeven met stochastische transparantie bij supersampled-resolutie. De originele gegevens met hoge resolutie worden gedownsampled om netwerk- en hardwarelimieten op te vangen, en later upsampled, in een typische auto-encoder-workflow.

De real-time inferentietoepassing (de 'live' software die gebruikmaakt van het algoritme dat is afgeleid van het getrainde model) maakt gebruik van een mix van NVIDIA CUDA met cuDNN en OpenGL. De initiële invoerfuncties worden gedumpt in OpenGL multisampled kleurbuffers en het resultaat wordt overbrugd naar cuDNN-tensoren voordat het wordt verwerkt in de CNN. Die tensoren worden vervolgens teruggekopieerd naar een 'levende' OpenGL-textuur om in de uiteindelijke afbeelding te worden geplaatst.

Het real-time systeem werkt op een NVIDIA RTX 2080 en produceert een resolutie van 1024×1024 pixels.

Aangezien de haarkleurwaarden volledig worden ontleed in de uiteindelijke waarden die door het netwerk worden verkregen, is het veranderen van de haarkleur een triviale taak, hoewel effecten zoals verlopen en strepen een toekomstige uitdaging blijven.

De auteurs hebben de code vrijgegeven die is gebruikt in de evaluaties van het artikel bij GitLab. Bekijk de aanvullende video voor MVCGAN hieronder.

Realtime haarfiltering met convolutionele neurale netwerken

Conclusie

Navigeren door de latente ruimte van een autoencoder of GAN lijkt nog steeds meer op zeilen dan op nauwkeurig rijden. Pas in deze zeer recente periode beginnen we geloofwaardige resultaten te zien voor het genereren van poses van 'eenvoudigere' geometrie zoals gezichten, in benaderingen zoals NeRF, GAN's en niet-deepfake (2017) autoencoder-frameworks.

De significante architectonische complexiteit van menselijk haar, gecombineerd met de noodzaak om natuurkundige modellen en andere kenmerken te integreren waarvoor de huidige benaderingen van beeldsynthese geen voorziening bieden, geeft aan dat het onwaarschijnlijk is dat haarsynthese een geïntegreerd onderdeel zal blijven in de algemene gezichtssynthese, maar dat speciale en afzonderlijke netwerken van enige verfijning - zelfs als dergelijke netwerken uiteindelijk kunnen worden opgenomen in bredere en complexere kaders voor gezichtssynthese.

 

Voor het eerst gepubliceerd op 15 april 2022.

Schrijver over machine learning, kunstmatige intelligentie en big data.
Persoonlijke site: martinanderson.ai
Contact: [e-mail beveiligd]
Twitter: @manders_ai