Artificial Intelligence

GAN sem andlitsmyndandi fyrir „hefðbundið“ CGI

Uppfært on Desember 9, 2022

Álit Þegar Generative Adversarial Networks (GANs) sýndu fyrst getu sína til að fjölfalda á ótrúlega hátt raunhæf 3D andlit, tilkoman hrundi af stað gullhlaupi fyrir óunninn möguleika GANs til að búa til tímabundið myndband með mannlegum andlitum.

Einhvers staðar í dulda rými GAN virtist það vera verður vera falin röð og skynsemi - skema af nýrri merkingarrökfræði, grafið í duldum kóða, sem myndi gera GAN kleift að búa til samræmdar margar skoðanir og margar túlkanir (eins og tjáningarbreytingar) á sama andlit – og bjóða í kjölfarið upp á tímabundið sannfærandi djúpfalsað myndbandsaðferð sem myndi blása sjálfkóðarar upp úr vatninu.

Framleiðsla í hárri upplausn væri léttvæg, samanborið við fátækrahverfi eins og lágupplausn, þar sem GPU-takmarkanir þvinga DeepFaceLab og FaceSwap til að starfa, á meðan „skiptasvæði“ andlits (í sjálfkóðunarvinnuflæði) yrði „sköpunarsvæði“ af GAN, upplýst af handfylli af innsláttarmyndum, eða jafnvel bara einni mynd.

Það væri ekki meira ósamræmi milli 'skipta' og 'gestgjafi' andlitanna, vegna þess að heild myndarinnar yrði til frá grunni, þar með talið hár, kjálkalínur og ystu útlimir andlitslínanna, sem oft reynast áskorun fyrir „hefðbundna“ sjálfkóðara djúpfalsa.

GAN andlitsmyndbandið Vetur

Eins og það kom í ljós, þá ætlaði það ekki að vera næstum því auðvelt. Að lokum, sundrungu reyndist aðalatriðið og er enn helsta áskorunin. Hvernig geturðu haldið ákveðnu andlitseinkenni og breytt um stellingu eða svipbrigði án þess að safna saman hópi þúsunda tilvísunarmynda sem kenna tauganeti hvað gerist þegar þessar breytingar eru gerðar, eins og sjálfkóðunarkerfi gera svo erfiðlega?

Frekar, síðari hugsun í GAN andlitsgerð og nýmyndun rannsóknum var sú að hugsanlega væri hægt að gera inntaksauðkenni háð fjarfræðilegum, almennum, sniðmát umbreytingar sem eru ekki sérkenndar sjálfsmyndir. Dæmi um þetta væri að beita svip á GAN andlit sem var ekki til staðar á neinni af myndunum af viðkomandi sem GAN veit um.

Frá 2022 blaðinu Tensor-based Emotion Editing in the StyleGAN Latent Space, er sniðmátsformum beitt á inntaksandlit úr FFHQ gagnasafninu. Heimild: https://arxiv.org/pdf/2205.06102.pdf

Það er augljóst að „ein stærð passar öllum“ nálgun getur ekki náð yfir fjölbreytileika andlitssvip sem eru einstök fyrir einstakling. Við verðum að velta því fyrir okkur hvort bros eins einstakt og Jack Nicholson eða Willem Dafoe gæti nokkurn tíma fengið trúa túlkun undir áhrifum slíkra dulda „meðaltjáningar“.

Hver er þessi heillandi latneska útlendingur? Þó að GAN-aðferðin framleiði raunsærri andlit með hærri upplausn, er umbreytingin ekki upplýst af mörgum raunverulegum myndum af leikaranum, eins og raunin er með DeepFaceLab, sem þjálfar mikið og oft með einhverjum kostnaði á gagnagrunni með þúsundum svona myndir. Hér (bakgrunnur) er DeepFaceLab líkan flutt inn í DeepFaceLive, streymisútfærslu hins vinsæla og umdeilda hugbúnaðar. Dæmi eru frá https://www.youtube.com/watch?v=9tr35y-yQRY (2022) og https://arxiv.org/pdf/2205.06102.pdf.

Hver er þessi heillandi latneska útlendingur? Þó að GAN aðferðin framleiði „raunsærra“ andlit með hærri upplausn, er umbreytingin ekki upplýst af mörgum raunverulegum myndum af leikaranum, eins og raunin er með DeepFaceLab, sem æfir mikið á gagnagrunni yfir þúsundir slíkra mynda, og þar af leiðandi er líkindin í hættu. Hér (bakgrunnur) er DeepFaceLab líkan flutt inn í DeepFaceLive, streymisútfærslu hins vinsæla og umdeilda hugbúnaðar. Dæmi eru frá https://www.youtube.com/watch?v=9tr35y-yQRY (2022) og https://arxiv.org/pdf/2205.06102.pdf.

Nokkrir GAN andlitsritstjórar hafa verið settir fram á undanförnum árum, flestir þeirra að takast á við óþekkt auðkenni, þar sem tryggð umbreytinganna er ómögulegt fyrir frjálsan lesanda að vita, þar sem þetta eru ekki kunnugleg andlit.

Óljós auðkenni umbreytt í 2020 tilboðinu Cascade-EF-GAN. Heimild: https://arxiv.org/pdf/2003.05905.pdf

Kannski er GAN andlitsritstjórinn sem hefur fengið mestan áhuga (og tilvitnanir) á síðustu þremur árum InterFaceGAN, sem getur framkvæmt dulda rýmisflutninga í duldum kóða sem tengjast stellingu (horni myndavélarinnar/andlitsins), tjáningu, aldri, kynþætti, kyni og öðrum nauðsynlegum eiginleikum.

InterFaceGAN kynning (CVPR 2020)

Watch this video on YouTube

„Morphing“-geta InterFaceGAN og svipaðra ramma í 1980-stíl er aðallega leið til að sýna leiðina í átt að umbreytingu þar sem mynd er endurvarpað aftur í gegnum viðeigandi duldan kóða (eins og „aldur“). Hvað varðar framleiðslu á myndbandsupptökum með tímabundinni samfellu, hafa slík áætlanir hingað til flokkast sem „áhrifamiklar hörmungar“.

Ef þú bætir við það erfiðleikar við að búa til tímabundið hár, og sú staðreynd að tæknin við dulda könnun/meðhöndlun kóða hefur engar meðfæddar tímabundnar leiðbeiningar til að vinna með (og það er erfitt að vita hvernig á að sprauta slíkum leiðbeiningum inn í ramma sem er hannaður til að hýsa og búa til kyrrmyndir, og sem hefur engin innfædd ákvæði fyrir myndbandsúttak), gæti verið rökrétt að álykta að GAN sé ekki allt sem þú þarft™ fyrir myndmyndun í andliti.

Þess vegna hafa síðari tilraunir skilað árangri stigvaxandi endurbætur í sundrun, á meðan aðrir hafa fest sig í sessi við aðrar venjur í tölvusjón sem „leiðsagnarlag“, svo sem notkun merkingarfræðilegrar skiptingar sem stýrikerfis seint á árinu 2021 pappír SemanticStyleGAN: Að læra samsetningarmyndandi forgangsröð fyrir stjórnanlega myndmyndun og klippingu.

Merkingargreining sem aðferð til dulds rýmistækja í SemanticStyleGAN. Heimild: https://semanticstylegan.github.io/

Parametric Leiðbeiningar

Rannsóknarsamfélag GAN andlitsmyndunar stefnir í auknum mæli í átt að notkun „hefðbundinna“ parametric CGI andlita sem aðferð til að leiðbeina og koma reglu á áhrifamikla en óstýriláta dulda kóðana í dulda rými GAN.

Þó að frumkvæði í andliti hafi verið grunnþáttur í rannsóknum á tölvusjón yfir tuttugu ár, áhugi á þessari nálgun hefur aukist undanfarið, með aukinni notkun á skinned Multi-Person Linear Model (SMPL) CGI frumstæður, nálgun sem var frumkvöðull af Max Planck Institute og ILM, og síðan bætt við með Sparse Trained Articulated Human Body Regressor (STAR) ramma.

SMPL (í þessu tilviki afbrigði sem kallast SMPL-X) getur sett á CGI parametric möskva sem er í samræmi við áætlaða stellingu (þar á meðal tjáningu, eftir þörfum) alls mannslíkamans sem er á mynd, sem gerir kleift að framkvæma nýjar aðgerðir á myndinni með því að nota parametric netið sem rúmmál eða skynjun. leiðbeiningar. Heimild: https://arxiv.org/pdf/1904.05866.pdf

Mest lofað þróun í þessari línu hefur verið Disney 2019 Lýsing með stíl frumkvæði, sem blandaði saman notkun hefðbundinna áferðakorta og myndefnis sem myndast af GAN, til að reyna að búa til betri, „djúpfalsaðan“ teiknimynd.

Gamalt mætir nýtt, í blendingsaðferð Disney við GAN-myndaða djúpfalsa. Heimild: https://www.youtube.com/watch?v=TwpLqTmvqVk

Disney nálgunin setur hefðbundnum CGI flötum inn í StyleGAN2 net til að 'mála' andlitsmyndir manna á 'vandasvæðum', þar sem tímabundin samkvæmni er vandamál fyrir myndbandsgerð – svæði eins og húðáferð.

Vinnuflæðið Rending með stíl.

Þar sem hægt er að fínstilla CGI höfuðið sem stýrir þessu ferli og breyta til að henta notandanum, getur GAN-myndað andlitið endurspegla þessar breytingar, þar með talið breytingar á höfuðstöðu og tjáningu.

Þrátt fyrir að hann sé hannaður til að sameina tækifærni CGI við náttúrulegt raunsæi GAN andlita, sýna niðurstöðurnar á endanum það versta af báðum heimum, og enn tekst ekki að halda háráferð og jafnvel grunneiginleikastaðsetningu í samræmi:

Ný tegund af óhugnanlegum dal kemur upp úr Rendering with Style, þó að meginreglan eigi enn nokkra möguleika.

The 2020 pappír StyleRig: Rigging StyleGAN fyrir 3D stjórn á andlitsmyndum tekur sífellt vinsælli nálgun, með því að nota þrívíddar breytanleg andlitslíkön (3DMM) sem umboð til að breyta eiginleikum í StyleGAN umhverfi, í þessu tilviki í gegnum nýtt riggingarnet sem kallast RigNet:

3DMM standa sem umboð fyrir dulda rýmistúlkanir í StyleRig. Heimild: https://arxiv.org/pdf/2004.00121.pdf

Hins vegar, eins og venjulega með þessi frumkvæði, virðast niðurstöðurnar hingað til takmarkaðar við lágmarksstillingar og „óupplýstar“ breytingar á tjáningu/áhrifum.

StyleRig bætir stjórnunarstigið, þó að hár í tímanlegu samræmi sé enn óleyst áskorun. Heimild: https://www.youtube.com/watch?v=eaW_P85wQ9k

Svipaða framleiðsla er að finna hjá Mitsubishi Research MEST-GAN, 2021 pappír sem notar ólínulega 3DMM sem sundurflæðisarkitektúr, en sem líka barátta til að ná fram kraftmikilli og stöðugri hreyfingu.

Nýjustu rannsóknirnar til að reyna tækjabúnað og sundrungu er Endurgerð andlits í einu skoti á megapixlum, sem aftur notar 3DMM parametric höfuð sem vinalegt viðmót fyrir StyleGAN.

Í MegaFR vinnuflæði One-Shot Face Reenactment framkvæmir netið andlitsmyndun með því að sameina öfuga raunheimsmynd með breytum sem teknar eru úr endurgerðu 3DMM líkani. Heimild: https://arxiv.org/pdf/2205.13368.pdf

OSFR tilheyrir vaxandi flokki GAN andlitsritstjóra sem leitast við að þróa línuleg klippingarferli í Photoshop/After Effects-stíl þar sem notandinn getur sett inn æskilega mynd sem hægt er að beita umbreytingum á, frekar en að leita í gegnum dulda rýmið fyrir dulda kóða sem tengjast sjálfsmynd.

Aftur tákna breytileg tjáning yfirgripsmikla og ópersónulega aðferð til að sprauta tjáningu, sem leiðir til aðgerða sem virðast „óhyggilegar“ á sinn eigin, ekki alltaf jákvæða hátt.

Sprautuð tjáning í OSFR.

Eins og fyrri vinna getur OSFR ályktað um næstum upprunalegar stellingar út frá einni mynd og einnig framkvæmt „frontalization“, þar sem mynd sem er utan miðju er þýdd yfir í mugshot:

Upprunalegar (fyrir ofan) og ályktaðar mugshot myndir frá einni af útfærslum OSFR sem lýst er í nýju blaðinu.

Í reynd er ályktun af þessu tagi svipuð sumum ljósmælingareglunum sem liggja til grundvallar Taugageislunarsvið (NeRF), nema að rúmfræðin hér verður að vera skilgreind af einni mynd, frekar en 3-4 sjónarhornum sem gera NeRF kleift að túlka millivefsstöður sem vantar og búa til rannsakanlegar taugaþrívíddarsenur með mönnum.

(Hins vegar er NeRF ekki All You Need™ heldur, þar sem það ber nánast allt annað sett af vegatálmum til GANs hvað varðar framleiðslu andlitsmyndbands)

Hefur GAN stað í myndmyndun andlitsmynda?

Að ná fram kraftmiklum tjáningum og stellingum sem eru ekki dreifðar úr einni upprunamynd virðist vera gullgerðarleg þráhyggja í rannsóknum á GAN andlitsmyndun í augnablikinu, aðallega vegna þess að GAN eru eina aðferðin sem nú er fær um að gefa út nokkuð háa upplausn og tiltölulega hár- tryggð taugaandlit: þó að sjálfkóðari djúpfölsuð rammi geti þjálfað sig á fjölda raunverulegra stellinga og tjáninga, verða þau að starfa við VRAM-takmarkað inntak/úttaksupplausn og krefjast 'hýsils'; en NeRF er á sama hátt takmarkaður, og - ólíkt hinum tveimur aðferðunum - hefur sem stendur enga viðurkennda aðferðafræði til að breyta svipbrigðum og þjáist af takmarkaðri breytanleika almennt.

Svo virðist sem eina leiðin fram á við fyrir nákvæmt CGI/GAN andlitsmyndunarkerfi sé fyrir nýtt framtak til að finna einhverja leið til að setja saman fjölmynda sjálfsmynd inni í dulda rýminu, þar sem duldur kóða fyrir sjálfsmynd einstaklings þarf ekki að ferðast alla leið yfir dulda rýmið til að nýta ótengda stellingu, en getur vísað til eigin tengdra (raunverulegra) mynda sem tilvísun í umbreytingar.

Jafnvel í slíku tilviki, eða jafnvel þó að heilt StyleGAN netkerfi væri þjálfað á einni auðkenni andlitssetts (svipað og þjálfunarsettin sem sjálfkóðarar nota), þá þyrfti merkingarrökfræðin sem skorti samt að vera til með viðbótartækni eins og merkingarfræðileg skipting eða parametrisk 3DMM andlit, sem, í slíkri atburðarás, myndi að minnsta kosti hafa meira efni til að vinna með.