stomp GAN als Face Renderer voor 'traditionele' CGI - Unite.AI
Verbind je met ons

Artificial Intelligence

GAN als Face Renderer voor 'traditionele' CGI

mm
Bijgewerkt on

Advies Toen Generative Adversarial Networks (GAN's) voor het eerst hun vermogen demonstreerden om verbluffend te reproduceren realistisch 3D-gezichten, veroorzaakte de komst een goudkoorts voor het onbenutte potentieel van GAN's om tijdelijk consistente video met menselijke gezichten te maken.

Ergens in de latente ruimte van de GAN leek het erop dat daar Dan moet je verborgen orde en rationaliteit zijn - een schema van ontluikende semantische logica, begraven in de latente codes, waarmee een GAN consistente meerdere weergaven en meerdere interpretaties (zoals uitdrukkingsveranderingen) van de dezelfde gezicht – en vervolgens een tijdelijk overtuigende deepfake-videomethode aanbieden die zou blazen auto-encoders uit het water.

Uitvoer met hoge resolutie zou triviaal zijn, vergeleken met de sloppenwijkachtige omgevingen met lage resolutie waarin GPU-beperkingen DeepFaceLab en FaceSwap dwingen te werken, terwijl de 'wisselzone' van een gezicht (in autoencoder-workflows) de 'creatiezone' zou worden. van een GAN, geïnformeerd door een handvol invoerafbeeldingen, of zelfs slechts een enkele afbeelding.

Er zou geen mismatch meer zijn tussen de gezichten 'swap' en 'host', omdat de geheel van het beeld zou helemaal opnieuw worden gegenereerd, inclusief haar, kaaklijnen en de buitenste uiteinden van de gezichtslijnen, wat vaak een uitdaging blijkt te zijn voor 'traditionele' autoencoder-deepfakes.

De GAN Gezichtsvideo Winter

Zoals later bleek, zou het lang niet zo gemakkelijk zijn. uiteindelijk, ontwarring bleek het centrale probleem en blijft de belangrijkste uitdaging. Hoe kun je een duidelijke gezichtsidentiteit behouden en de houding of uitdrukking ervan veranderen zonder een corpus van duizenden referentiebeelden te verzamelen die een neuraal netwerk leren wat er gebeurt als deze veranderingen worden doorgevoerd, zoals autoencoder-systemen zo moeizaam doen?

Integendeel, de daaropvolgende gedachte in GAN-onderzoek naar gezichtsherkenning en -synthese was dat een invoeridentiteit misschien onderworpen zou kunnen worden aan teleologische, generieke, sjabloon transformaties die niet identiteitsspecifiek zijn. Een voorbeeld hiervan zou zijn om een ​​uitdrukking toe te passen op een GAN-gezicht dat niet aanwezig was in een van de afbeeldingen van die persoon die de GAN kent.

Uit de paper Tensor-based Emotion Editing in the StyleGAN Latent Space uit 2022 worden sjabloonuitdrukkingen toegepast op een invoervlak uit de FFHQ-dataset. Bron: https://arxiv.org/pdf/2205.06102.pdf

Uit de paper Tensor-based Emotion Editing in the StyleGAN Latent Space uit 2022 worden sjabloonuitdrukkingen toegepast op een invoervlak uit de FFHQ-dataset. Bron: https://arxiv.org/pdf/2205.06102.pdf

Het is duidelijk dat een 'one size fits all'-benadering de diversiteit aan gezichtsuitdrukkingen die uniek zijn voor een individu niet kan dekken. We moeten ons afvragen of een glimlach die zo uniek is als die van Jack Nicholson of Willem Dafoe ooit een getrouwe interpretatie zou kunnen krijgen onder invloed van zulke latente codes van 'mean average expression'.

Wie is deze charmante Latijnse vreemdeling? Hoewel de GAN-methode een realistischer gezicht met een hogere resolutie produceert, wordt de transformatie niet gebaseerd op meerdere real-world beelden van de acteur, zoals het geval is bij DeepFaceLab, dat uitgebreid traint en vaak tegen enige kosten op een database van duizenden zulke beelden. Hier (achtergrond) wordt een DeepFaceLab-model geïmporteerd in DeepFaceLive, een streaming-implementatie van de populaire en controversiële software. Voorbeelden zijn van https://www.youtube.com/watch?v=9tr35y-yQRY (2022) en https://arxiv.org/pdf/2205.06102.pdf.

Wie is deze charmante Latijnse vreemdeling? Hoewel de GAN-methode een 'realistischer' gezicht met een hogere resolutie oplevert, wordt de transformatie niet gebaseerd op meerdere real-world beelden van de acteur, zoals het geval is bij DeepFaceLab, dat uitgebreid traint op een database met duizenden van dergelijke beelden. en bijgevolg wordt de gelijkenis aangetast. Hier (achtergrond) wordt een DeepFaceLab-model geïmporteerd DeepFaceLive, een streaming-implementatie van de populaire en controversiële software. Voorbeelden zijn van https://www.youtube.com/watch?v=9tr35y-yQRY (2022) en https://arxiv.org/pdf/2205.06102.pdf.

De afgelopen jaren zijn er een aantal GAN-editors voor gezichtsuitdrukkingen naar voren gebracht, de meesten van hen omgaan met onbekende identiteiten, waar de getrouwheid van de transformaties voor de toevallige lezer onmogelijk is om te weten, aangezien dit geen bekende gezichten zijn.

Duistere identiteiten getransformeerd in het 2020-aanbod Cascade-EF-GAN. Bron: https://arxiv.org/pdf/2003.05905.pdf

Duistere identiteiten getransformeerd in het 2020-aanbod Cascade-EF-GAN. Bron: https://arxiv.org/pdf/2003.05905.pdf

Misschien wel de GAN-gezichtseditor die de afgelopen drie jaar de meeste belangstelling (en citaten) heeft gekregen InterFaceGAN, die latente ruimtereizen kan uitvoeren in latente codes met betrekking tot pose (hoek van de camera/gezicht), uitdrukking, leeftijd, ras, geslacht en andere essentiële eigenschappen.

InterFaceGAN-demo (CVPR 2020)

De 'morphing'-mogelijkheden in jaren 1980-stijl van InterFaceGAN en vergelijkbare frameworks zijn voornamelijk een manier om het pad naar transformatie te illustreren wanneer een beeld opnieuw wordt geprojecteerd via een toepasselijke latente code (zoals 'leeftijd'). Wat betreft het produceren van videobeelden met tijdelijke continuïteit, worden dergelijke plannen tot nu toe gekwalificeerd als 'indrukwekkende rampen'.

Als je daar de moeilijkheid om tijdelijk consistent haar te creëren, en het feit dat de techniek van latente codeverkenning/manipulatie geen aangeboren temporele richtlijnen heeft om mee te werken (en het is moeilijk om te weten hoe dergelijke richtlijnen moeten worden geïnjecteerd in een raamwerk dat is ontworpen om stilstaande beelden op te nemen en te genereren, en dat geen native voorziening heeft voor video-uitvoer), is het misschien logisch om te concluderen dat GAN niet All You Need™ is voor gezichtsvideosynthese.

Daarom hebben latere pogingen resultaat opgeleverd stapsgewijze verbeteringen bezig met het ontwarren, terwijl anderen andere conventies op het gebied van computervisie als ‘geleidingslaag’ hebben overgenomen, zoals het gebruik van semantische segmentatie als controlemechanisme eind 2021 papier SemanticStyleGAN: compositie-generatieve prioriteiten leren voor beheersbare beeldsynthese en -bewerking.

Semantische segmentatie als een methode van latente ruimte-instrumentaliteit in SemanticStyleGAN. Bron: https://semanticstylegan.github.io/

Semantische segmentatie als een methode van latente ruimte-instrumentaliteit in SemanticStyleGAN. Bron: https://semanticstylegan.github.io/

Parametrische begeleiding

De onderzoeksgemeenschap van GAN-gezichtssynthese richt zich steeds meer op het gebruik van 'traditionele' parametrische CGI-gezichten als een methode om de indrukwekkende maar weerbarstige latente codes in de latente ruimte van een GAN te begeleiden en orde te brengen.

Hoewel parametrische gezichtsprimitieven een belangrijk onderdeel zijn geweest van onderzoek naar computervisie meer dan twintig jaar, is de belangstelling voor deze benadering de laatste tijd toegenomen, met het toegenomen gebruik van het Skinned Multi-Person Linear Model (SMPL) CGI-primitieven, een benadering ontwikkeld door het Max Planck Instituut en ILM, en sindsdien verbeterd met de Sparse Trained Articulated Human Body Regressor (STAR) kader.

SMPL (in dit geval een variant genaamd SMPL-X) kan een CGI-parametrische mesh opleggen die overeenkomt met de geschatte pose (inclusief uitdrukkingen, indien nodig) van het hele menselijk lichaam in een afbeelding, waardoor nieuwe bewerkingen kunnen worden uitgevoerd op het beeld met behulp van de parametrische mesh als volumetrische of perceptuele richtlijn. Bron: https://arxiv.org/pdf/1904.05866.pdf

SMPL (in dit geval een variant genaamd SMPL-X) kan een CGI-parametrische mesh opleggen die overeenkomt met de geschatte pose (inclusief uitdrukkingen, indien nodig) van het hele menselijk lichaam in een afbeelding, waardoor nieuwe bewerkingen op de afbeelding kunnen worden uitgevoerd met behulp van de parametrische mesh als een volumetrische of perceptuele richtlijn. Bron: https://arxiv.org/pdf/1904.05866.pdf

De meest geprezen ontwikkeling in deze lijn is Disney's 2019 Weergave met stijl initiatief, dat het gebruik van traditionele texture-maps versmolten met GAN-gegenereerde beelden, in een poging om verbeterde geanimeerde uitvoer in 'deepfake-stijl' te creëren.

Oud ontmoet nieuw, in Disney's hybride benadering van door GAN gegenereerde deepfakes. Bron: https://www.youtube.com/watch?v=TwpLqTmvqVk

Oud ontmoet nieuw, in Disney's hybride benadering van door GAN gegenereerde deepfakes. Bron: https://www.youtube.com/watch?v=TwpLqTmvqVk

De Disney-benadering legt traditioneel gerenderde CGI-facetten op in een StyleGAN2-netwerk om menselijke gezichtsonderwerpen te 'inkleuren' in 'probleemgebieden', waar temporele consistentie een probleem is voor het genereren van video's - gebieden zoals huidtextuur.

De Rendering with Style-workflow.

De Rendering with Style-workflow.

Aangezien de parametrische CGI-kop die dit proces begeleidt, kan worden aangepast en gewijzigd om bij de gebruiker te passen, kan het door GAN gegenereerde gezicht die veranderingen weerspiegelen, inclusief veranderingen in de houding en uitdrukking van het hoofd.

Hoewel ontworpen om de instrumentaliteit van CGI te combineren met het natuurlijke realisme van GAN-gezichten, demonstreren de resultaten uiteindelijk het slechtste van twee werelden, en slagen ze er nog steeds niet in om de haartextuur en zelfs de positionering van de basisfuncties consistent te houden:

Een nieuw soort griezelige vallei ontstaat uit Rendering with Style, hoewel het principe nog steeds enig potentieel heeft.

Een nieuw soort griezelige vallei ontstaat uit Rendering with Style, hoewel het principe nog steeds enig potentieel heeft.

De 2020 papier StyleRig: Rigging StyleGAN voor 3D-controle over portretafbeeldingen neemt een steeds populairdere benadering, met het gebruik van driedimensionale morphable gezichtsmodellen (3DMM's) als proxy's voor het wijzigen van kenmerken in een StyleGAN-omgeving, in dit geval via een nieuw rigging-netwerk genaamd RigNet:

3DMM's fungeren als proxy's voor latente ruimte-interpretaties in StyleRig. Bron: https://arxiv.org/pdf/2004.00121.pdf

3DMM's fungeren als proxy's voor latente ruimte-interpretaties in StyleRig. Bron: https://arxiv.org/pdf/2004.00121.pdf

Echter, zoals gebruikelijk bij deze initiatieven, lijken de resultaten tot nu toe beperkt te zijn tot minimale pose-manipulaties en 'ongeïnformeerde' uitdrukkings-/affectveranderingen.

StyleRig verbetert het controleniveau, hoewel tijdelijk consistent haar een onopgeloste uitdaging blijft. Bron:

StyleRig verbetert het controleniveau, hoewel tijdelijk consistent haar een onopgeloste uitdaging blijft. Bron: https://www.youtube.com/watch?v=eaW_P85wQ9k

Soortgelijke resultaten zijn te vinden bij Mitsubishi Research MEESTE-GAN, een 2021 papier die niet-lineaire 3DMM's gebruikt als ontvlechtingsarchitectuur, maar die ook worstelt om dynamische en consistente beweging te bereiken.

Het nieuwste onderzoek om instrumentaliteit en ontwarring te proberen is One-Shot Face Re-enactment op Megapixels, die opnieuw 3DMM parametrische heads gebruikt als een vriendelijke interface voor StyleGAN.

In de MegaFR-workflow van One-Shot Face Reenactment voert het netwerk gezichtssynthese uit door een omgekeerd real-world beeld te combineren met parameters uit een gerenderd 3DMM-model. Bron: https://arxiv.org/pdf/2205.13368.pdf

In de MegaFR-workflow van One-Shot Face Reenactment voert het netwerk gezichtssynthese uit door een omgekeerd real-world beeld te combineren met parameters uit een gerenderd 3DMM-model. Bron: https://arxiv.org/pdf/2205.13368.pdf

OSFR behoort tot een groeiende klasse van GAN-gezichtseditors die lineaire bewerkingsworkflows in Photoshop/After Effects-stijl willen ontwikkelen, waarbij de gebruiker een gewenste afbeelding kan invoeren waarop transformaties kunnen worden toegepast, in plaats van door de latente ruimte te zoeken naar latente codes met betrekking tot een identiteit.

Nogmaals, parametrische uitdrukkingen vertegenwoordigen een overkoepelende en niet-gepersonaliseerde methode om uitdrukking te injecteren, wat leidt tot manipulaties die op hun eigen, niet altijd positieve manier 'griezelig' lijken.

Geïnjecteerde uitdrukkingen in OSFR.

Geïnjecteerde uitdrukkingen in OSFR.

Net als eerder werk kan OSFR vrijwel originele poses afleiden uit een enkel beeld, en ook 'frontalisatie' uitvoeren, waarbij een niet-gecentreerd geposeerd beeld wordt vertaald in een mugshot:

Originele (hierboven) en afgeleide mugshot-afbeeldingen van een van de implementaties van OSFR die in het nieuwe artikel worden beschreven.

Originele (hierboven) en afgeleide mugshot-afbeeldingen van een van de implementaties van OSFR die in het nieuwe artikel worden beschreven.

In de praktijk is dit soort gevolgtrekking vergelijkbaar met enkele van de onderliggende fotogrammetrische principes Neurale stralingsvelden (NeRF), behalve dat de geometrie hier moet worden gedefinieerd door een enkele foto, in plaats van de 3-4 gezichtspunten waarmee NeRF de ontbrekende interstitiële poses kan interpreteren en verkenbare neurale 3D-scènes met mensen kan creëren.

(NeRF is echter ook niet All You Need™, aangezien het een bijna geheel andere set wegversperringen naar GAN's wat betreft het produceren van gezichtsvideosynthese)

Heeft GAN een plaats in gezichtsvideosynthese?

Het bereiken van dynamische uitdrukkingen en niet-verdeelde poses vanuit een enkele bronafbeelding lijkt op dit moment een alchemie-achtige obsessie te zijn in GAN-gezichtssynthese-onderzoek, vooral omdat GAN's de enige methode zijn die momenteel in staat is om een ​​vrij hoge resolutie en relatief hoge resolutie uit te voeren. trouwe neurale gezichten: hoewel autoencoder deepfake-frameworks kunnen trainen op een groot aantal real-world poses en uitdrukkingen, moeten ze werken met VRAM-beperkte input/output-resoluties en hebben ze een 'host' nodig; terwijl NeRF op dezelfde manier beperkt is en - in tegenstelling tot de andere twee benaderingen - momenteel geen gevestigde methodologieën heeft voor het wijzigen van gezichtsuitdrukkingen, en in het algemeen lijdt aan beperkte bewerkbaarheid.

Het lijkt erop dat de enige weg vooruit voor een nauwkeurig CGI/GAN-gezichtssynthesesysteem is dat een nieuw initiatief een manier vindt om een ​​identiteitsentiteit met meerdere foto's samen te stellen binnen de latente ruimte, waar een latente code voor de identiteit van een persoon niet hoeft te bestaan. reizen helemaal door de latente ruimte om niet-gerelateerde poseparameters te exploiteren, maar kan verwijzen naar zijn eigen gerelateerde (echte wereld) beelden als referenties voor transformaties.

Zelfs in een dergelijk geval, of zelfs als een heel StyleGAN-netwerk zou worden getraind op een gezichtsset met één identiteit (vergelijkbaar met de trainingssets die auto-encoders gebruiken), zou de ontbrekende semantische logica waarschijnlijk nog steeds moeten worden geleverd door aanvullende technologieën zoals semantische segmentatie of parametrische 3DMM-gezichten, die in een dergelijk scenario op zijn minst meer materiaal zouden hebben om mee te werken.