Følg os

Kunstig intelligens

Oprettelse af Full Body Deepfakes ved at kombinere flere NeRF'er

mm

Billedsynteseforskningssektoren er fyldt med nye forslag til systemer, der er i stand til at skabe helkropsvideo og billeder af unge mennesker – hovedsageligt unge kvinder – i forskellige typer påklædning. Mest de genererede billeder er statiske; indimellem bevæger repræsentationerne sig endda, dog normalt ikke særlig godt.

Tempoet i denne særlige forskningsstreng er istid sammenlignet med det nuværende svimlende niveau af fremskridt inden for beslægtede områder som f.eks. latente diffusionsmodeller; Alligevel fortsætter forskergrupperne, størstedelen i Asien, ubønhørligt med at stoppe problemet.

Et af dusinvis, hvis ikke hundredvis af foreslåede eller semi-lancerede 'virtuelle prøve-på'-systemer fra de sidste 10-15 år, hvor kroppe evalueres gennem maskinlæringsbaseret objektgenkendelse og tilpasses de foreslåede tøj. Kilde: https://www.youtube.com/watch?v=0ZXrgGyhbak

Et af dusinvis, hvis ikke hundredvis af foreslåede eller semi-lancerede 'virtuelle prøve-på'-systemer fra de sidste 10-15 år, hvor kroppe evalueres gennem maskinlæringsbaseret objektgenkendelse og tilpasses de foreslåede beklædningsgenstande. Kilde: https://www.youtube.com/watch?v=2ZXrgGyhbak

Målet er at skabe nye systemer, der muliggør 'virtuelle prøvelser' til mode- og tøjmarkedet – systemer, der kan tilpasse sig både til kunden og til det specifikke produkt, der lige nu er tilgængeligt eller er ved at blive frigivet, uden at det er en reel klunshed. -tid overlejring of tøj, eller behovet for at bede kunderne om det send lidt NSFW billeder til ML-baserede renderingspipelines.

Ingen af ​​de populære syntesearkitekturer synes let at tilpasse til denne opgave: latent rum af Generative Adversarial Networks (GAN'er) er dårligt egnet til at producere overbevisende tidsmæssige bevægelser (eller endda til redigering generelt); selvom godt dygtig at skabe realistisk menneskelig bevægelse, Neurale udstrålingsfelter (NeRF) er normalt naturlige resistent til den slags redigering, der ville være nødvendig for at 'bytte' personer eller tøj ud efter behag; autoencodere ville kræve byrdefuld person/tøj-specifik træning; og latente diffusionsmodeller, som GAN'er, har nul native tidsmæssige mekanismer til videogenerering.

EVA3D

Ikke desto mindre fortsætter papirerne og forslagene. Det seneste er af usædvanlig interesse i en ellers usædvanlig og udelukkende forretningsorienteret forskningslinje.

EVA3D, fra Singapores Nanyang Technological University, er den første indikation af en tilgang, der har været længe undervejs – brugen af flere Neural Radiance Field-netværk, som hver især er dedikeret til en separat del af kroppen, og som derefter er sammensat til en samlet og sammenhængende visualisering.

En mobil ung kvinde sammensat fra flere NeRF-netværk til EVA3D. Kilde: https://hongfz16.github.io/projects/EVA3D.html

En mobil ung kvinde sammensat fra flere NeRF-netværk til EVA3D. Kilde: https://hongfz16.github.io/projects/EVA3D.html

Resultaterne, hvad angår bevægelse, er ... okay. Selvom EVA3D's visualisering ikke er ude af den uhyggelige dal, kan de i det mindste se frakørslen, hvorfra de står.

Det, der gør EVA3D enestående, er, at forskerne bag det, næsten unikt inden for sektoren for syntese af helkropsbilleder, har indset, at et enkelt netværk (GAN, NeRF eller andet) ikke vil være i stand til at håndtere redigerbare og fleksible menneskelige fuld- kropsgenerering i nogle år – dels på grund af forskningstempoet, dels på grund af hardware og andre logistiske begrænsninger.

Derfor har Nanyang-teamet underopdelt opgaven på tværs af 16 netværk og flere teknologier - en tilgang, der allerede er vedtaget til neural gengivelse af bymiljøer i Blok-NeRF og CityNeRF, og som ser ud til at blive en stadig mere interessant og potentielt frugtbar halvvejs-foranstaltning for at opnå hele kroppens dybe forfalskninger i de næste fem år, i afventning af nye koncept- eller hardwareudviklinger.

Ikke alle udfordringerne ved at skabe denne form for 'virtuel prøve' er tekniske eller logistiske, og papiret skitserer nogle af dataproblemerne, især med hensyn til uovervåget læring:

'[Mode]-datasæt har for det meste meget begrænsede menneskelige positurer (de fleste er lignende stående stillinger) og meget ubalancerede betragtningsvinkler (de fleste er set forfra). Denne ubalancerede 2D-datadistribution kunne hindre uovervåget indlæring af 3D GAN'er, hvilket fører til vanskeligheder med ny syn/positursyntese. Derfor er der brug for en ordentlig træningsstrategi for at afhjælpe problemet.'

EVA3D-arbejdsgangen segmenterer den menneskelige krop i 16 forskellige dele, som hver genereres gennem sit eget NeRF-netværk. Dette skaber naturligvis nok 'ufrosne' sektioner til at kunne galvanisere figuren gennem motion capture eller andre typer bevægelsesdata. Udover denne fordel giver det dog også systemet mulighed for at tildele maksimale ressourcer til de dele af kroppen, der 'sælger' helhedsindtrykket.

For eksempel har menneskefødder et meget begrænset artikulationsområde, mens ægtheden af ​​ansigtet og hovedet, udover kvaliteten af ​​hele kroppens bevægelse generelt, sandsynligvis vil være det centrale tegn på ægthed for gengivelsen.

En kvalitativ sammenligning mellem EVA3D og tidligere metoder. Forfatterne hævder SOTA-resultater i denne henseende.

En kvalitativ sammenligning mellem EVA3D og tidligere metoder. Forfatterne hævder SOTA-resultater i denne henseende.

Tilgangen adskiller sig radikalt fra det NeRF-centrerede projekt, som den er begrebsmæssigt relateret til – 2021's A-NeRF, fra University of British Columbia og Reality Labs Research, som forsøgte at tilføje et internt kontrollerende skelet til en ellers konventionelt 'one piece' NeRF-repræsentation, hvilket gør det vanskeligere at allokere behandlingsressourcer til forskellige dele af kroppen på basis af behov .

Forudgående bevægelser – A-NeRF udstyrer en 'bagt' NeRF med den samme slags duktile og artikulerede centrale rigging, som VFX-industrien har brugt så længe til at animere CGI-karakterer. Kilde: https://lemonatsu.github.io/anerf/

Forudgående bevægelser – A-NeRF udstyrer en 'bagt' NeRF med den samme slags duktile og artikulerede centrale rigging, som VFX-industrien længe har brugt til at animere CGI-karakterer. Kilde: https://lemonatsu.github.io/anerf/

I lighed med de fleste lignende menneskecentrerede projekter, der søger at udnytte det latente rum i de forskellige populære tilgange, bruger EVA3D en skinnet multi-person lineær model (SMPL), en 'traditionel' CGI-baseret metode til at tilføje instrumentalitet til den generelle abstraktion af nuværende syntesemetoder. Tidligere i år brugte et andet papir, denne gang fra Zhejiang University i Hangzhou og School of Creative Media ved City University of Hong Kong, sådanne metoder til at udføre omformning af neural krop.

EVA3Ds kvalitative resultater pĂĄ DeepFashion.

EVA3Ds kvalitative resultater pĂĄ DeepFashion.

Metode

SMPL-modellen, der bruges i processen, er tunet til det menneskelige 'forud' - den person, der i det væsentlige bliver frivilligt deepfaked af EVA3D, og ​​dens flåningsvægte forhandler forskellene mellem det kanoniske rum (dvs. 'i hvile', eller ' neutral stilling af en SMPL-model) og måden, hvorpå det endelige udseende gengives.

Den konceptuelle arbejdsgang for EVA3D. Kilde: https://arxiv.org/pdf/2210.04888.pdf

Den konceptuelle arbejdsgang for EVA3D. Kilde: https://arxiv.org/pdf/2210.04888.pdf

Som det ses i illustrationen ovenfor, bruges afgrænsningskasserne for SMPL som grænsedefinitioner for de 16 netværk, der til sidst vil sammensætte kroppen. Omvendt Lineær Blend Skinning (LBS) algoritme for SMPL bruges derefter til at overføre synlige samplede stråler til det kanoniske (passive pose) rum. Derefter forespørges de 16 undernetværk, baseret på disse konfigurationer, og i sidste ende tilpasses til en endelig gengivelse.

Hele NeRF-kompositten bruges derefter til at konstruere en 3D-human GAN-ramme.

Gengivelserne af andet trins GAN-rammeværk vil i sidste ende blive trænet mod ægte 2D-billedsamlinger af mennesker/mode.

Gengivelserne af andet trins GAN-rammeværk vil i sidste ende blive trænet mod ægte 2D-billedsamlinger af mennesker/mode.

Hvert undernetværk, der repræsenterer en del af den menneskelige krop, er sammensat af stablede Multi-Layer Perceptrons (MLP'er) med SIRENE (Sinusformede Repræsentationsnetværk) aktivering. Selvom SIREN løser en masse problemer i en arbejdsgang som denne, og i lignende projekter, har den en tendens til at overfitte snarere end at generalisere, og forskerne foreslår, at alternative biblioteker kan bruges i fremtiden (se slutningen af ​​artiklen).

Data, træning og tests

EVA3D står over for usædvanlige dataproblemer på grund af begrænsningerne og skabelonstilen af ​​de positurer, der er tilgængelige i modebaserede datasæt, som har tendens til at mangle alternative eller nye synspunkter, og som måske med vilje er gentagne for at fokusere opmærksomheden på tøjet frem for mennesket, der har dem på.

PĂĄ grund af denne ubalancerede stillingsfordeling bruger EVA3D menneskelige priors (se ovenfor) baseret pĂĄ SMPL skabelongeometrien og forudsiger derefter et Signed Distance Field (SDF) offset af denne positur, snarere end en ligetil mĂĄl positur.

Til de understøttende eksperimenter brugte forskerne fire datasæt: DeepFashion; SHHQ; UBCFashion; og AIST Dance Video Database (AIST Dance DB).

De to sidstnævnte indeholder mere varierede positurer end de to første, men repræsenterer de samme individer gentagne gange, hvilket ophæver denne ellers nyttige mangfoldighed; kort sagt, dataene er mere end udfordrende, givet opgaven.

Eksempler fra SSHQ. Kilde: https://arxiv.org/pdf/2204.11823.pdf

Eksempler fra SSHQ. Kilde: https://arxiv.org/pdf/2204.11823.pdf

De anvendte basislinjer var ENARF-GAN, det første projekt til at gengive NeRF-visuals fra 2D-billeddatasæt; Stanford og NVIDIA's EG3DOg StyleSDF, et samarbejde mellem University of Washington, Adobe Research og Stanford University – alle metoder, der kræver super-opløsningsbiblioteker for at skalere op fra native til høj opløsning.

Vedtagne målinger var kontroversielle Frechet startdistance (FID) og kernestartafstand (KID), sammen med procentdel af korrekte nøglepunkter ([e-mail beskyttet]).

I kvantitative evalueringer førte EVA3D på alle målinger i fire datasæt:

Kvantitative resultater.

Kvantitative resultater.

Forskerne bemærker, at EVA3D opnår den laveste fejlrate for geometrigengivelse, en kritisk faktor i et projekt af denne type. De observerer også, at deres system kan kontrollere den genererede positur og opnå højere [e-mail beskyttet] scorer, i modsætning til EG3D, den eneste konkurrerende metode, der scorede højere, i én kategori.

EVA3D fungerer indbygget med den hidtidige standardopløsning på 512x512px, selvom den nemt og effektivt kunne opskaleres til HD-opløsning ved at samle opskalere lag, som Google for nylig har gjort med sit tekst-til-video-tilbud på 1024 opløsning. Billedvideo.

Metoden er ikke uden grænser. Avisen bemærker, at SIREN-aktiveringen kan forårsage cirkulære artefakter, som kan afhjælpes i fremtidige versioner ved brug af en alternativ basisrepræsentation, såsom EG3D, i kombination med en 2D-dekoder. Derudover er det svært at tilpasse SMPL nøjagtigt til modedatakilderne.

Endelig kan systemet ikke uden videre rumme større og mere flydende beklædningsgenstande, såsom store kjoler; beklædningsgenstande af denne type udviser den samme slags flydende dynamik, der gør skabelsen af ​​neuralt gengivet hår sådan en udfordring. Formentlig kan en passende løsning hjælpe med at løse begge problemer.

Demovideo til EVA3D: Compositional 3D Human Generation fra 2D-billedsamlinger

 

Først offentliggjort 12. oktober 2022.

Forfatter på maskinlæring, domænespecialist i menneskelig billedsyntese. Tidligere leder af forskningsindhold hos Metaphysic.ai.
Personlig side: martinanderson.ai
Kontakt: [e-mail beskyttet]
Twitter: @manders_ai