Artificiell intelligens
Attacking ‘DĂ„liga HĂ„rdagar’ i MĂ€nsklig Bildsynthes

Sedan den gyllene tiden för romersk staty, har avbildning av mänskligt hår varit en törnhårig utmaning. Den genomsnittliga mänskliga huvudet innehåller 100 000 strån, har varierande refraktiva index enligt dess färg, och, bortom en viss längd, kommer att röra sig och omformas på sätt som bara kan simuleras med komplexa fysikmodeller – hittills, bara tillämpliga genom ‘traditionella’ CGI-metoder.

Från 2017 års forskning av Disney, försöker en fysikbaserad modell tillämpa realistisk rörelse på en flytande frisyr i en CGI-arbetsflöde. Källa: https://www.youtube.com/watch?v=-6iF3mufDW0
Problemet är dåligt hanterat av moderna populära deepfakes-metoder. Under några år har den ledande paketen DeepFaceLab haft en ‘full huvud’-modell som bara kan fånga rigida kroppar av korta (vanligtvis manliga) frisyrer; och nyligen DFL-stable FaceSwap (båda paketen är härledda från den kontroversiella 2017 DeepFakes-källkoden) har erbjudit en implementering av BiseNet semantisk segmenteringsmodell, som tillåter en användare att inkludera öron och hår i deepfake-utdata.
Även när det gäller att avbilda mycket korta frisyrer, tenderar resultaten att vara mycket begränsade i kvalitet, med fulla huvuden som verkar vara pålagda på film, snarare än integrerade i den.
GAN Hår
De två stora konkurrerande tillvägagångssätten för mänsklig simulering är Neural Radiance Fields (NeRF), som kan fånga en scen från flera vinklar och inkapsla en 3D-representation av dessa vinklar i en undersökbar neural nätverk; och Generative Adversarial Networks (GANs), som är betydligt mer avancerade när det gäller mänsklig bildsynthes (inte minst för att NeRF bara uppkom 2020).
NeRFs införda förståelse av 3D-geometri möjliggör det att replikera en scen med stor trohet och konsekvens, även om det för närvarande har liten eller ingen möjlighet till påföring av fysikmodeller – och, i själva verket, relativt begränsad möjlighet för någon form av transformation på de insamlade data som inte relaterar till att ändra kameravyn. För närvarande har NeRF mycket begränsade möjligheter när det gäller att reproducera mänskligt hår-rörelse.
GAN-baserade ekvivalenter till NeRF börjar med en nästan dödlig nackdel, eftersom, till skillnad från NeRF, latent utrymmet i en GAN inte naturligt inkorporerar en förståelse av 3D-information. Därför har 3D-medveten GAN-ansiktsbildsynthes blivit ett hett företag i bildgenereringsforskning under de senaste åren, med 2019 års InterFaceGAN en av de ledande genombrotten.
Men, även InterFaceGANs visade och utvalda resultat visar att neural hårkonsekvens förblir en tuff utmaning när det gäller temporal konsekvens, för potentiella VFX-arbetsflöden:

‘Sizzling’ hår i en poseringsomvandling från InterFaceGAN. Källa: https://www.youtube.com/watch?v=uoftpl3Bj6w
Såsom det blir mer uppenbart att konsekvent vygenerering via manipulation av latent utrymme ensam kan vara en alkemiskt liknande strävan, ökar antalet artiklar som inkorporerar CGI-baserad 3D-information i en GAN-arbetsflöde som en stabiliserande och normaliserande begränsning.
CGI-elementet kan representeras av intermediära 3D-primitiver som en Skinned Multi-Person Linear Model (SMPL), eller genom att anta 3D-inferenstekniker på ett sätt som liknar NeRF, där geometri utvärderas från källbilder eller video.
En ny arbete i den här riktningen, släppt denna vecka, är Multi-View Consistent Generative Adversarial Networks for 3D-aware Image Synthesis (MVCGAN), ett samarbete mellan ReLER, AAII, University of Technology Sydney, DAMO Academy vid Alibaba Group och Zhejiang University.

Plausibla och robusta nya ansiktsposer genererade av MVCGAN på bilder hämtade från CELEBA-HQ-databasen. Källa: https://arxiv.org/pdf/2204.06307.pdf
MVCGAN inkorporerar en generativ radiance field-nätverk (GRAF) som kan tillhandahålla geometriska begränsningar i en Generative Adversarial Network, som kan uppnå några av de mest autentiska poseringsförmågorna i någon liknande GAN-baserad tillvägagångssätt.
Men, supplementär material för MVCGAN avslöjar att att få hårvolym, disposition, placering och beteendekonsekvens är ett problem som inte lätt kan hanteras genom begränsningar baserade på externt påförda 3D-geometri.

Från supplementär material som inte släpptes offentligt vid skrivandet, ser vi att medan ansiktspos-syntes från MVCGAN representerar en betydande framsteg jämfört med nuvarande tillstånd i konsten, förblir temporal hårkonsekvens ett problem.
Eftersom ‘enkla’ CGI-arbetsflöden fortfarande finner temporal hårrekonstruktion en sådan utmaning, finns det ingen anledning att tro att konventionella geometribaserade tillvägagångssätt av detta slag kommer att bringa konsekvent hår-syntes till latent utrymme när som helst snart.
Stabilisering av Hår med Convolutional Neural Networks
Men, en kommande artikel från tre forskare vid Chalmers Tekniska Högskola i Sverige kan erbjuda ytterligare en framsteg i neural hår-simulering.

Till vänster, CNN-stabiliserad hårrepresentation, till höger, grund-sanning. Se video inbäddad i slutet av artikeln för bättre upplösning och ytterligare exempel. Källa: https://www.youtube.com/watch?v=AvnJkwCmsT4
Artikeln heter Real-Time Hair Filtering with Convolutional Neural Networks och kommer att publiceras för i3D-symposiet i början av maj.
Systemet består av ett autoencoder-baserat nätverk som kan utvärdera hårupplösning, inklusive självskuggning och ta hänsyn till hår-tjocklek, i realtid, baserat på ett begränsat antal stokastiska prover som såddes med OpenGL-geometri.
Tillvägagångssättet återger ett begränsat antal prover med stokastisk transparens och sedan tränar en U-net för att rekonstruera den ursprungliga bilden.

Under MVCGAN, filtrerar en CNN stokastiskt sampade färgfaktorer, höjdpunkter, tangenter, djup och alfa, sammansättning av de syntetiserade resultaten i en sammansatt bild.
Nätverket tränas på PyTorch, konvergerar under en period av sex till tolv timmar, beroende på nätverksvolymen och antalet ingångs-funktioner. De tränade parametrarna (vikter) används sedan i den realtidsimplementeringen av systemet.
Träningsdata genereras genom att återge flera hundra bilder för raka och vågiga frisyrer, med slumpmässiga avstånd och poser, samt varierande belysningsförhållanden.

Olika exempel på träningsinmatning.
Hårens genomskinlighet över proverna är genomsnittlig från bilder som återges med stokastisk transparens i supersampled upplösning. Den ursprungliga högupplösta data är ned sampad för att anpassa sig till nätverks- och hårdvarubegränsningar, och sedan upp sampad, i en typisk autoencoder-arbetsflöde.
Realtids-inferens-applikationen (den ‘levande’ programvaran som utnyttjar algoritmen som härrör från den tränade modellen) använder en kombination av NVIDIA CUDA med cuDNN och OpenGL. De initiala ingångs-funktionerna dumpas till OpenGL multisampled färgbuffertar, och resultatet skickas till cuDNN-tensorer innan bearbetning i CNN. Dessa tensorer kopieras sedan tillbaka till en ‘levande’ OpenGL-textur för påföring i den slutliga bilden.
Realtidssystemet fungerar på en NVIDIA RTX 2080, producerar en upplösning på 1024×1024 pixlar.
Eftersom hår-färgvärden är helt åtskilda i de slutliga värdena som erhålls av nätverket, är att ändra hår-färgen en trivial uppgift, även om effekter som graderingar och strimmor förblir en framtida utmaning.

Författarna har släppt koden som användes i artikeln på GitLab. Titta på det supplementära videon för MVCGAN nedan.
Slutsats
Att navigera i det latenta utrymmet i en autoencoder eller GAN är fortfarande mer likt segling än precision-körning. Först under denna mycket senaste perioden ser vi trovärdiga resultat för pos-generering av ‘enklare’ geometri som ansikten, i tillvägagångssätt som NeRF, GANs och icke-deepfake (2017) autoencoder-ramverk.
Den betydande arkitektoniska komplexiteten hos mänskligt hår, kombinerat med behovet av att inkorporera fysikmodeller och andra egenskaper som nuvarande bild-syntes-tillvägagångssätt inte har någon bestämmelse för, indikerar att hår-syntes är osannolikt att förbli en integrerad komponent i allmän ansikts-syntes, men kommer att kräva dedikerade och separata nätverk av viss sofistikering – även om sådana nätverk kan bli inkorporerade i bredare och mer komplexa ansikts-syntes-ramverk.
Publicerad första gången 15 april 2022.











