stub RigNeRF: Metodu Ġdid ta' Deepfakes Li Juża Oqsma ta' Radjanza Neural - Unite.AI
Kuntatt magħna

Intelliġenza Artifiċjali

RigNeRF: Metodu Ġdid ta 'Deepfakes Li Juża Oqsma ta' Radjanza Neural

mm
Aġġornata on

Riċerka ġdida żviluppata fl-Adobe qed toffri l-ewwel metodu deepfakes vijabbli u effettiv ibbażat fuq Oqsma ta' Radjanza Newrali (NeRF) – forsi l-ewwel innovazzjoni reali fl-arkitettura jew approċċ fil-ħames snin minn meta tfaċċaw il-deepfakes fl-2017.

Il-metodu, intitolat RigNeRF, juża Mudelli 3D tal-wiċċ morphable (3DMMs) bħala saff interstizjali ta’ strumentalità bejn l-input mixtieq (jiġifieri l-identità li għandha tiġi imposta fir-rendi NeRF) u l-ispazju newrali, metodu li ġie adottata b'mod wiesa' f'dawn l-aħħar snin minn approċċi ta 'sintesi tal-wiċċ ta' Generative Adversarial Network (GAN), li l-ebda wieħed minnhom għadu ma pproduċa oqfsa ta 'sostituzzjoni tal-wiċċ funzjonali u utli għall-vidjo.

Minn materjal supplimentari għall-karta l-ġdida, naraw il-mudell tal-wiċċ morphable 3D (3DMM) li jaġixxi bħala interface bejn 70 sekonda ta 'filmat reali meħuda minn smartphone, li jikkostitwixxu s-sett tad-dejta tat-taħriġ, u l-parametri normalment stoic ta' Qasam ta 'Radjanza Neural. viżwalizzazzjoni. Għal verżjoni b'riżoluzzjoni għolja ta 'dan il-klipp, flimkien ma' ħafna oħrajn, ara l-paġna tal-proġett, jew il-vidjows inkorporati fl-aħħar ta 'dan l-artikolu. Sors: https://shahrukhathar.github.io/2022/06/06/RigNeRF.html

B'differenza mill-videos deepfake tradizzjonali, assolutament l-ebda kontenut li jiċċaqlaq fir-ritratt hawn mhu "reali", iżda pjuttost huwa spazju newrali esplorabbli li ġie mħarreġ fuq filmati fil-qosor. Fuq il-lemin naraw il-mudell tal-wiċċ morphable 3D (3DMM) li jaġixxi bħala interface bejn il-manipulazzjonijiet mixtieqa ('tbissem', 'ħares lejn ix-xellug', 'ħares 'il fuq', eċċ.) u l-parametri normalment intrattabbli ta' Qasam ta' Radjanza Neural. viżwalizzazzjoni. Għal verżjoni b'riżoluzzjoni għolja ta 'dan il-klipp, flimkien ma' eżempji oħra, ara l- paġna tal-proġett, jew il-vidjows inkorporati fl-aħħar ta 'dan l-artikolu. Sors: https://shahrukhathar.github.io/2022/06/06/RigNeRF.html

3DMMs huma effettivament mudelli CGI ta 'uċuħ, li l-parametri tagħhom jistgħu jiġu adattati għal sistemi ta' sintesi ta 'immaġni aktar astratti, bħal NeRF u GAN, li inkella huma diffiċli biex jiġu kkontrollati.

Dak li qed tara fl-immaġini ta' hawn fuq (immaġini tan-nofs, raġel bil-qmis blu), kif ukoll l-immaġni direttament taħt (immaġni tax-xellug, raġel bil-qmis blu), mhuwiex video 'reali' li fih biċċa żgħira ta' ' wiċċ falz ġie sovraimpost, iżda xena kompletament sintetizzata li teżisti biss bħala rendering newrali volumetriku – inklużi l-ġisem u l-isfond:

Fl-eżempju direttament hawn fuq, il-filmat tal-ħajja reali fuq il-lemin (mara b'libsa ħamra) jintuża biex 'tpinġi' l-identità maqbuda (raġel bil-qmis blu) fuq ix-xellug permezz ta' RigNeRF, li (jistqarru l-awturi) hija l-ewwel waħda. Sistema bbażata fuq NeRF biex tinkiseb separazzjoni tal-pożi u l-espressjoni filwaqt li tkun tista 'twettaq sintesi tal-vista ġodda.

Il-figura maskili fuq ix-xellug fl-immaġni ta 'hawn fuq kienet "maqbuda" minn vidjo ta' smartphone ta '70 sekonda, u d-dejta tal-input (inkluża l-informazzjoni tax-xena kollha) sussegwentement imħarrġa fuq 4 GPU V100 biex tikseb ix-xena.

Peress rigs parametriċi stil 3DMM huma wkoll disponibbli bħala prokuri CGI parametriċi tal-ġisem kollu (aktar milli sempliċiment rigs tal-wiċċ), RigNeRF potenzjalment jiftaħ il-possibbiltà ta 'deepfakes full-body fejn il-moviment, nisġa u espressjoni tal-bniedem reali jiġu mgħoddija lis-saff parametriku bbażat fuq CGI, li mbagħad jittraduċi azzjoni u espressjoni f'ambjenti u vidjows NeRF mogħtija. .

Fir-rigward RigNeRF - jikkwalifika bħala metodu deepfake fis-sens attwali li l-aħbarijiet jifhmu t-terminu? Jew huwa biss ieħor semi-hobbled ukoll-dam lejn DeepFaceLab u sistemi oħra ta 'deepfake ta' autoencoder ta 'l-era 2017 li jaħdmu intensivi?

Ir-riċerkaturi tal-karta l-ġdida mhumiex ambigwi dwar dan il-punt:

"Biex metodu li huwa kapaċi jerġa 'janima uċuħ, RigNeRF huwa suxxettibbli għal użu ħażin minn atturi ħżiena biex jiġġeneraw deep-fakes."

L-ġdid karta huwa intitolat RigNeRF: Ritratti 3D Neural Kompletament Kontrollabbli, u ġej minn ShahRukh Atha ta 'Stonybrook University, intern fl-Adobe waqt l-iżvilupp ta' RigNeRF, u erba 'awturi oħra minn Adobe Research.

Lil hinn minn Deepfakes Ibbażati fuq Autoencoder

Il-maġġoranza tal-deepfakes virali li qabdu aħbarijiet matul l-aħħar ftit snin huma prodotti minn awtokode-sistemi bbażati fuq, derivati ​​mill-kodiċi li ġie ppubblikat fis-subreddit r/deepfakes projbit fil-pront fl-2017 - għalkemm mhux qabel ma ġew ikkupjat għal GitHub, fejn bħalissa ġie forked aktar minn elf darba, mhux l-inqas fil-popolari (jekk kontroversjali) DeepFaceLab distribuzzjoni, u wkoll il- tpartit tal-wiċċ proġett.

Minbarra GAN u NeRF, oqfsa awtokokoder esperimentaw ukoll bi 3DMMs bħala 'linji gwida' għal oqfsa mtejba ta 'sintesi tal-wiċċ. Eżempju ta’ dan huwa l- Proġett HifiFace minn Lulju tal-2021. Madankollu, l-ebda inizjattiva użabbli jew popolari ma tidher li żviluppat minn dan l-approċċ sal-lum.

Id-dejta għal xeni RigNeRF tinkiseb billi jinqabad vidjows qosra fuq smartphone. Għall-proġett, ir-riċerkaturi ta’ RigNeRF użaw iPhone XR jew iPhone 12 għall-esperimenti kollha. Għall-ewwel nofs tal-qbid, is-suġġett jintalab iwettaq firxa wiesgħa ta’ espressjonijiet tal-wiċċ u diskors filwaqt li jżomm rasu wieqfa hekk kif il-kamera titmexxa madwarhom.

Għat-tieni nofs tal-qbid, il-kamera żżomm pożizzjoni fissa filwaqt li s-suġġett irid iċċaqlaq rasu filwaqt li juri firxa wiesgħa ta’ espressjonijiet. L-40-70 sekonda riżultanti ta 'filmati (madwar 1200-2100 frame) jirrappreżentaw is-sett tad-dejta kollu li se jintuża biex iħarreġ il-mudell.

Qtugħ Down fuq il-Ġbir tad-Data

B'kuntrast, sistemi awtokokoder bħal DeepFaceLab jeħtieġu l-ġbir u l-kura relattivament impenjattiv ta 'eluf ta' ritratti diversi, ħafna drabi meħuda minn vidjows YouTube u kanali oħra tal-midja soċjali, kif ukoll minn films (fil-każ ta 'deepfakes ta' ċelebrità).

Il-mudelli tal-autoencoder mħarrġa li jirriżultaw ħafna drabi huma maħsuba biex jintużaw f'varjetà ta 'sitwazzjonijiet. Madankollu, l-aktar deepfakers ta’ ‘ċelebrità’ fastidjużi jistgħu jħarrġu mudelli sħaħ mill-bidu għal vidjo wieħed, minkejja l-fatt li t-taħriġ jista’ jieħu ġimgħa jew aktar.

Minkejja n-nota ta’ twissija mir-riċerkaturi tal-karta l-ġdida, il-‘patchwork’ u s-settijiet ta’ dejta miġbura b’mod wiesa’ li jħaddmu l-porn AI kif ukoll ‘deepfake recasts’ popolari ta’ YouTube/TikTok jidhru li x’aktarx ma jipproduċux riżultati aċċettabbli u konsistenti f’sistema deepfake bħal RigNeRF, li għandha metodoloġija speċifika għax-xena. Minħabba r-restrizzjonijiet fuq il-qbid tad-dejta deskritti fix-xogħol il-ġdid, dan jista' jipprova, sa ċertu punt, salvagwardja addizzjonali kontra l-misapproprjazzjoni każwali tal-identità minn deepfakers malizzjużi.

L-adattament ta' NeRF għal Deepfake Video

NeRF huwa metodu bbażat fuq il-fotogrammetrija li fih numru żgħir ta’ stampi sors meħuda minn diversi opinjonijiet huma assemblati fi spazju newrali 3D esplorabbli. Dan l-approċċ daħal għall-prominenza aktar kmieni din is-sena meta NVIDIA żvelat tagħha NeRF Instant sistema, kapaċi tnaqqas il-ħinijiet ta 'taħriġ eżorbitanti għal NeRF għal minuti, jew saħansitra sekondi:

NeRF Instant. Sors: https://www.youtube.com/watch?v=DJ2hcC1orc4

Ix-xena Neural Radiance Field li tirriżulta hija essenzjalment ambjent statiku li jista 'jiġi esplorat, iżda li huwa diffiċli biex teditja. Ir-riċerkaturi jinnotaw li żewġ inizjattivi preċedenti bbażati fuq NeRF - HyperNeRF + E/P u, NerFACE – ħadu daqqa ta’ sikkina fis-sintesi tal-vidjow tal-wiċċ, u (milli jidher għall-fini ta’ kompletezza u diliġenza) poġġiet lil RigNeRF kontra dawn iż-żewġ oqfsa f’rawnd ta’ ttestjar:

NeRF Instant. Sors: https://www.youtube.com/watch?v=DJ2hcC1orc4

Tqabbil kwalitattiv bejn RigNeRF, HyperNeRF, u NerFACE. Ara l-vidjos tas-sors marbuta u l-PDF għal verżjonijiet ta' kwalità ogħla. Sors tal-immaġni statika: https://arxiv.org/pdf/2012.03065.pdf

Tqabbil kwalitattiv bejn RigNeRF, HyperNeRF, u NerFACE. Ara l-vidjos tas-sors marbuta u l-PDF għal verżjonijiet ta' kwalità ogħla. Sors tal-immaġni statika: https://arxiv.org/pdf/2012.03065.pdf

Madankollu, f’dan il-każ ir-riżultati, li jiffavorixxu lil RigNeRF, huma pjuttost anomali, għal żewġ raġunijiet: l-ewwel nett, l-awturi josservaw li “m’hemm l-ebda xogħol eżistenti għal paragun bejn tuffieħ ma’ tuffieħ”; it-tieni nett, dan kien jeħtieġ il-limitazzjoni tal-kapaċitajiet ta 'RigNeRF biex tal-inqas jaqbel parzjalment mal-funzjonalità aktar ristretta tas-sistemi preċedenti.

Peress li r-riżultati mhumiex titjib inkrementali fuq ix-xogħol preċedenti, iżda pjuttost jirrappreżentaw 'avvanz' fl-editabilità u l-utilità tan-NeRF, aħna nħallu r-rawnd tal-ittestjar fil-ġenb, u minflok naraw x'qed jagħmel RigNeRF b'mod differenti mill-predeċessuri tiegħu.

Qawwiet Magħquda

Il-limitazzjoni primarja ta 'NerFACE, li tista' toħloq kontroll tal-pożi/espressjoni f'ambjent NeRF, hija li jassumi li l-filmati tas-sors se jinqabdu b'kamera statika. Dan ifisser b'mod effettiv li ma jistax jipproduċi fehmiet ġodda li jestendu lil hinn mil-limitazzjonijiet tal-qbid tiegħu. Dan jipproduċi sistema li tista 'toħloq 'ritratti li jiċċaqalqu', iżda li mhix adattata għal vidjow stil deepfake.

HyperNeRF, min-naħa l-oħra, filwaqt li kapaċi jiġġenera fehmiet ġodda u iper-reali, m'għandu l-ebda strumentalità li tippermettilha tibdel il-pożi tar-ras jew l-espressjonijiet tal-wiċċ, li għal darb'oħra ma tirriżulta f'ebda tip ta 'kompetitur għal deepfakes ibbażati fuq autoencoder.

RigNeRF huwa kapaċi jgħaqqad dawn iż-żewġ funzjonalitajiet iżolati billi joħloq 'spazju kanoniku', linja bażi default li minnha devjazzjonijiet u deformazzjonijiet jistgħu jiġu ppromulgati permezz ta 'input mill-modulu 3DMM.

Il-ħolqien ta' 'spazju kanoniku' (l-ebda poża, l-ebda espressjoni), li fuqu jistgħu jaġixxu d-deformazzjonijiet (jiġifieri l-pożi u l-espressjonijiet) prodotti permezz tat-3DMM.

Il-ħolqien ta' 'spazju kanoniku' (l-ebda poża, l-ebda espressjoni), li fuqu jistgħu jaġixxu d-deformazzjonijiet (jiġifieri l-pożi u l-espressjonijiet) prodotti permezz tat-3DMM.

Peress li s-sistema 3DMM mhux se tkun imqabbla eżattament mas-suġġett maqbud, huwa importanti li tikkumpensa għal dan fil-proċess. RigNeRF iwettaq dan b'kamp ta 'deformazzjoni qabel li huwa kkalkulat minn a Perceptron b'ħafna saffi (MLP) derivat mill-filmati tas-sors.

Il-parametri tal-kamera meħtieġa biex jiġu kkalkulati deformazzjonijiet huma miksuba permezz COLMAP, filwaqt li l-espressjoni u l-parametri tal-forma għal kull qafas huma miksuba minn Ta 'dak.

Il-pożizzjonament huwa ottimizzat aktar permezz twaħħil monumentali u l-parametri tal-kamera tal-COLMAP, u, minħabba r-restrizzjonijiet tar-riżorsi tal-kompjuter, l-output tal-vidjo huwa downsampled għal riżoluzzjoni ta '256 × 256 għat-taħriġ (proċess li jiċkien ristrett mill-ħardwer li wkoll jolqot ix-xena deepfaking autoencoder).

Wara dan, in-netwerk tad-deformazzjoni jiġi mħarreġ fuq l-erba’ V100s – ħardwer formidabbli li x’aktarx mhux se jkun jista’ jintlaħaq minn dilettanti każwali (madankollu, fejn għandu x’jaqsam it-taħriġ tat-tagħlim tal-magni, ħafna drabi huwa possibbli li tinnegozja l-heft għal żmien, u sempliċement taċċetta dak il-mudell it-taħriġ ikun kwistjoni ta’ jiem jew saħansitra ġimgħat).

Bħala konklużjoni, ir-riċerkaturi jiddikjaraw:

"B'kuntrast ma 'metodi oħra, RigNeRF, grazzi għall-użu ta' modulu ta 'deformazzjoni iggwidata minn 3DMM, huwa kapaċi jimmudella head-pose, espressjonijiet tal-wiċċ u x-xena sħiħa tar-ritratti 3D b'fedeltà għolja, u b'hekk tagħti rikostruzzjonijiet aħjar b'dettalji li jaqtgħu."

Ara l-videos inkorporati hawn taħt għal aktar dettalji u filmati tar-riżultati.

RigNeRF: Ritratti 3D Neural Kompletament Kontrollabbli

RigNeRF Riżultati

 

 

Ippublikat għall-ewwel darba fl-15 ta' Ġunju 2022.