Connect with us

Kunstig intelligens

Bekæmpelse af ‘dårlige hår-dage’ i syntese af menneskebilleder

mm

Siden den gyldne tidsalder for romersk statuer, har afbildning af menneskehår været en tornet udfordring. Den gennemsnitlige menneskehoved indeholder 100.000 strænge, har varierende refraktive indekser afhængigt af dets farve, og, ud over en vis længde, vil bevæge sig og omforme sig på måder, der kun kan simuleres ved komplekse fysikmodeller – indtil nu, kun gældende gennem ‘traditionelle’ CGI-metoder.

Fra 2017-forskning af Disney, forsøger en fysikbaseret model at anvende realistisk bevægelse til en flydende hårstil i en CGI-arbejdsgang. Kilde: https://www.youtube.com/watch?v=-6iF3mufDW0

Fra 2017-forskning af Disney, forsøger en fysikbaseret model at anvende realistisk bevægelse til en flydende hårstil i en CGI-arbejdsgang. Kilde: https://www.youtube.com/watch?v=-6iF3mufDW0

Problemet er dårligt behandlet af moderne populære deepfakes-metoder. I nogle år har den førende pakke DeepFaceLab haft en ‘fuld hoved’-model, der kun kan fange stive udgaver af korte (som regel mandlige) hårstyler; og for nylig har DFL-stablemate FaceSwap (begge pakker er afledt af den kontroversielle 2017 DeepFakes-kildekode) tilbudt en implementering af BiseNet semantisk segmenteringsmodel, der tillader en bruger at inkludere ører og hår i deepfake-udgang.

Selv når det gælder om at afbilde meget korte hårstyler, tenderer resultaterne til at være meget begrænsede i kvalitet, med fulde hoveder, der ser ud til at være lagt over optagelser, snarere end integreret i dem.

GAN-hår

De to store konkurrerende tilgange til menneskesimulation er Neural Radiance Fields (NeRF), der kan fange en scene fra multiple vinkler og indkapsle en 3D-repræsentation af disse vinkler i en udviklet neural netværk; og Generative Adversarial Networks (GANs), der er bemærkelsesværdigt mere avancerede i forhold til menneskesyntese (ikke mindst fordi NeRF kun opstod i 2020).

NeRF’s antagede forståelse af 3D-geometri giver det mulighed for at replikere en scene med stor troværdighed og konsistens, selv om det i øjeblikket har lidt eller ingen mulighed for påføring af fysikmodeller – og faktisk relativt begrænsede muligheder for nogen form for transformation på de indsamlede data, der ikke relaterer til ændring af kameraets synsvinkel. I øjeblikket har NeRF meget begrænsede muligheder i forhold til at genskabe menneskehårsbevægelse.

GAN-baserede ekvivalenter til NeRF starter med en næsten dødelig ulempe, da, i modsætning til NeRF, latent rummet af en GAN ikke naturligt inkorporerer en forståelse af 3D-information. Derfor er 3D-bevidst GAN-ansigtssyntese blevet et varmt forfølgende i billedgenereringsforskning i de seneste år, med 2019’s InterFaceGAN en af de førende gennembrud.

Men selv InterFaceGAN’s viste og cherry-picked resultater demonstrerer, at neural hårkonsistens fortsat er en hård udfordring i forhold til temporal konsistens, for potentielle VFX-arbejdsgange:

'Sizzling' hår i en pose-transformation fra InterFaceGAN. Kilde: https://www.youtube.com/watch?v=uoftpl3Bj6w

‘Sizzling’ hår i en pose-transformation fra InterFaceGAN. Kilde: https://www.youtube.com/watch?v=uoftpl3Bj6w

Da det bliver mere tydeligt, at konsistent visning via manipulation af latent rummet alene kan være en alkeymi-lignende forfølgelse, er der en stigende antal artikler, der inkorporerer CGI-baseret 3D-information i en GAN-arbejdsgang som en stabiliserende og normaliserende begrænsning.

CGI-elementet kan være repræsenteret ved intermediate 3D-primitiver, såsom en Skinned Multi-Person Linear Model (SMPL), eller ved at antage 3D-inferens-teknikker på en måde, der ligner NeRF, hvor geometrien vurderes fra kilde-billeder eller video.

En ny arbejdende langs disse linjer, udgivet denne uge, er Multi-View Consistent Generative Adversarial Networks for 3D-aware Image Synthesis (MVCGAN), et samarbejde mellem ReLER, AAII, University of Technology Sydney, DAMO Academy ved Alibaba Group og Zhejiang University.

Plausibel og robust nyt ansigtsposer genereret af MVCGAN på billeder afledt fra CELEBA-HQ-datasættet. Kilde: https://arxiv.org/pdf/2204.06307.pdf

Plausibel og robust nyt ansigtsposer genereret af MVCGAN på billeder afledt fra CELEBA-HQ-datasættet. Kilde: https://arxiv.org/pdf/2204.06307.pdf

MVCGAN inkorporerer en generativ radiance field network (GRAF) i stand til at give geometriske begrænsninger i en Generative Adversarial Network, og kan muligvis opnå nogle af de mest autentiske poseringsmuligheder for nogen lignende GAN-baseret tilgang.

Sammenligning mellem MVCGAN og tidligere metoder GRAF, GIRAFFE og pi-GAN.

Sammenligning mellem MVCGAN og tidligere metoder GRAF, GIRAFFE og pi-GAN.

Men supplerende materiale for MVCGAN afslører, at opnåelse af hår-volumen, disposition, placering og adfærdskonsistens er et problem, der ikke let kan håndteres gennem begrænsninger baseret på eksternt påført 3D-geometri.

Fra supplerende materiale, der ikke er offentliggjort på tidspunktet for skrivning, ser vi, at selvom ansigtspose-syntese fra MVCGAN repræsenterer en bemærkelsesværdig fremgang på den nuværende tilstand af kunsten, forbliver temporal hårkonsistens et problem.

Fra supplerende materiale, der ikke er offentliggjort på tidspunktet for skrivning, ser vi, at selvom ansigtspose-syntese fra MVCGAN repræsenterer en bemærkelsesværdig fremgang på den nuværende tilstand af kunsten, forbliver temporal hårkonsistens et problem.

Da ‘direkte’ CGI-arbejdsgange stadig finder temporal hår-rekonstruktion så udfordrende, er der ingen grund til at tro, at konventionelle geometri-baserede tilgange af denne art vil bringe konsistent hår-syntese til latent rummet når som helst snart.

Stabilisering af hår med convolutionelle neurale netværk

Men en kommende artikel fra tre forskere ved Chalmers Institute of Technology i Sverige kan tilbyde en yderligere fremgang i neural hår-simulation.

Til venstre, CNN-stabiliseret hårrepræsentation, til højre, grundsandheden. Se video indlejret i slutningen af artiklen for bedre opløsning og yderligere eksempler. Kilde: https://www.youtube.com/watch?v=AvnJkwCmsT4

Til venstre, CNN-stabiliseret hårrepræsentation, til højre, grundsandheden. Se video indlejret i slutningen af artiklen for bedre opløsning og yderligere eksempler. Kilde: https://www.youtube.com/watch?v=AvnJkwCmsT4

Systemet består af et autoencoder-baseret netværk i stand til at evaluere håropløsning, herunder selvskygning og tage hensyn til hårtjafs, i realtid, baseret på et begrænsende antal stokastiske prøver seedet af OpenGL-geometri.

Tilgangen renderer et begrænsende antal prøver med stokastisk gennemsigtighed og træner derefter en U-net til at genskabe det oprindelige billede.

Under MVCGAN, filtrerer en CNN stokastisk sampled farvefaktorer, highlights, tangenter, dybde og alfa, samler de syntetiserede resultater i et kompositbillede.

Under MVCGAN, filtrerer en CNN stokastisk sampled farvefaktorer, highlights, tangenter, dybde og alfa, samler de syntetiserede resultater i et kompositbillede.

Netværket trænes på PyTorch, konvergerer over en periode på seks til tolv timer, afhængigt af netværksvolumen og antallet af inputfunktioner. De trænede parametre (vægte) bruges derefter i den realtid-implementation af systemet.

Træningsdata genereres ved at rendre flere hundred billeder for lige og bølgede hårstyler, ved hjælp af tilfældige afstande og poser, samt diverse lysforhold.

Forskellige eksempler på træningsinput.

Forskellige eksempler på træningsinput.

Hårgennemsigtighed over prøverne er gennemsnittet fra billeder, der er rendret med stokastisk gennemsigtighed i supersampled opløsning. Den oprindelige høj opløsning data nedsamples til at tilpasse netværks- og hardware-grænser, og senere opsamples, i en typisk autoencoder-arbejdsgang.

Den realtid-inferens-applikation (den ‘live’-software, der udnytter algoritmen, der er afledt af den trænede model) anvender en blanding af NVIDIA CUDA med cuDNN og OpenGL. De oprindelige inputfunktioner dumpes ind i OpenGL multisampled farvebuffer, og resultatet shuntes til cuDNN-tensoer, før behandling i CNN. Disse tensoer kopieres derefter tilbage til en ‘live’ OpenGL-tekstur til påføring i det endelige billede.

Den realtid-system opererer på en NVIDIA RTX 2080, producerer en opløsning på 1024×1024 pixels.

Da hår-farvværdier er fuldstændigt afkoblet i de endelige værdier, der er opnået af netværket, er ændring af hår-farven en trivial opgave, selvom effekter som grader og strøg forbliver en fremtidig udfordring.

Forfatterne har udgivet koden, der er brugt i artiklens evalueringer på GitLab. Se den supplerende video for MVCGAN nedenfor.

Konklusion

At navigere i latent rummet af en autoencoder eller GAN er stadig mere lignende sejling end præcision-kørsel. Først i denne meget seneste periode ser vi troværdige resultater for pose-generering af ‘simple’ geometri som ansigter, i tilgange som NeRF, GANs og ikke-deepfake (2017) autoencoder-rammer.

Den betydelige arkitektoniske kompleksitet af menneskehår, kombineret med behovet for at inkorporere fysikmodeller og andre egenskaber, for hvilke nuværende billedsyntese-tilgange ikke har nogen provision, indikerer, at hår-syntese er usandsynligt at forblive en integreret komponent i almindelig ansigtssyntese, men vil kræve dedikeret og separate netværk af en vis sofistikation – selvom sådanne netværk muligvis senere kan inkorporeres i bredere og mere komplekse ansigtssyntese-rammer.

 

Først udgivet 15. april 2022.

Forfatter til maskinlæring, domæne-specialist i menneskesynthese af billeder. Tidligere leder af forskningsindhold på Metaphysic.ai.