Artificial Intelligence
GAN sem andlitsmyndandi fyrir „hefðbundið“ CGI
Álit Þegar Generative Adversarial Networks (GANs) sýndu fyrst getu sína til að fjölfalda á ótrúlega hátt raunhæf 3D andlit, tilkoman hrundi af stað gullhlaupi fyrir óunninn möguleika GANs til að búa til tímabundið myndband með mannlegum andlitum.
Einhvers staðar í dulda rými GAN virtist það vera verður vera falin röð og skynsemi - skema af nýrri merkingarrökfræði, grafið í duldum kóða, sem myndi gera GAN kleift að búa til samræmdar margar skoðanir og margar túlkanir (eins og tjáningarbreytingar) á sama andlit – og bjóða í kjölfarið upp á tímabundið sannfærandi djúpfalsað myndbandsaðferð sem myndi blása sjálfkóðarar upp úr vatninu.
Framleiðsla í hárri upplausn væri léttvæg, samanborið við fátækrahverfi eins og lágupplausn, þar sem GPU-takmarkanir þvinga DeepFaceLab og FaceSwap til að starfa, á meðan „skiptasvæði“ andlits (í sjálfkóðunarvinnuflæði) yrði „sköpunarsvæði“ af GAN, upplýst af handfylli af innsláttarmyndum, eða jafnvel bara einni mynd.
Það væri ekki meira ósamræmi milli 'skipta' og 'gestgjafi' andlitanna, vegna þess að heild myndarinnar yrði til frá grunni, þar með talið hár, kjálkalínur og ystu útlimir andlitslínanna, sem oft reynast áskorun fyrir „hefðbundna“ sjálfkóðara djúpfalsa.
GAN andlitsmyndbandið Vetur
Eins og það kom í ljós, þá ætlaði það ekki að vera næstum því auðvelt. Að lokum, sundrungu reyndist aðalatriðið og er enn helsta áskorunin. Hvernig geturðu haldið ákveðnu andlitseinkenni og breytt um stellingu eða svipbrigði án þess að safna saman hópi þúsunda tilvísunarmynda sem kenna tauganeti hvað gerist þegar þessar breytingar eru gerðar, eins og sjálfkóðunarkerfi gera svo erfiðlega?
Frekar, síðari hugsun í GAN andlitsgerð og nýmyndun rannsóknum var sú að hugsanlega væri hægt að gera inntaksauðkenni háð fjarfræðilegum, almennum, sniðmát umbreytingar sem eru ekki sérkenndar sjálfsmyndir. Dæmi um þetta væri að beita svip á GAN andlit sem var ekki til staðar á neinni af myndunum af viðkomandi sem GAN veit um.
Það er augljóst að „ein stærð passar öllum“ nálgun getur ekki náð yfir fjölbreytileika andlitssvip sem eru einstök fyrir einstakling. Við verðum að velta því fyrir okkur hvort bros eins einstakt og Jack Nicholson eða Willem Dafoe gæti nokkurn tíma fengið trúa túlkun undir áhrifum slíkra dulda „meðaltjáningar“.
Nokkrir GAN andlitsritstjórar hafa verið settir fram á undanförnum árum, flestir þeirra að takast á við óþekkt auðkenni, þar sem tryggð umbreytinganna er ómögulegt fyrir frjálsan lesanda að vita, þar sem þetta eru ekki kunnugleg andlit.
Kannski er GAN andlitsritstjórinn sem hefur fengið mestan áhuga (og tilvitnanir) á síðustu þremur árum InterFaceGAN, sem getur framkvæmt dulda rýmisflutninga í duldum kóða sem tengjast stellingu (horni myndavélarinnar/andlitsins), tjáningu, aldri, kynþætti, kyni og öðrum nauðsynlegum eiginleikum.
„Morphing“-geta InterFaceGAN og svipaðra ramma í 1980-stíl er aðallega leið til að sýna leiðina í átt að umbreytingu þar sem mynd er endurvarpað aftur í gegnum viðeigandi duldan kóða (eins og „aldur“). Hvað varðar framleiðslu á myndbandsupptökum með tímabundinni samfellu, hafa slík áætlanir hingað til flokkast sem „áhrifamiklar hörmungar“.
Ef þú bætir við það erfiðleikar við að búa til tímabundið hár, og sú staðreynd að tæknin við dulda könnun/meðhöndlun kóða hefur engar meðfæddar tímabundnar leiðbeiningar til að vinna með (og það er erfitt að vita hvernig á að sprauta slíkum leiðbeiningum inn í ramma sem er hannaður til að hýsa og búa til kyrrmyndir, og sem hefur engin innfædd ákvæði fyrir myndbandsúttak), gæti verið rökrétt að álykta að GAN sé ekki allt sem þú þarft™ fyrir myndmyndun í andliti.
Þess vegna hafa síðari tilraunir skilað árangri stigvaxandi endurbætur í sundrun, á meðan aðrir hafa fest sig í sessi við aðrar venjur í tölvusjón sem „leiðsagnarlag“, svo sem notkun merkingarfræðilegrar skiptingar sem stýrikerfis seint á árinu 2021 pappír SemanticStyleGAN: Að læra samsetningarmyndandi forgangsröð fyrir stjórnanlega myndmyndun og klippingu.
Parametric Leiðbeiningar
Rannsóknarsamfélag GAN andlitsmyndunar stefnir í auknum mæli í átt að notkun „hefðbundinna“ parametric CGI andlita sem aðferð til að leiðbeina og koma reglu á áhrifamikla en óstýriláta dulda kóðana í dulda rými GAN.
Þó að frumkvæði í andliti hafi verið grunnþáttur í rannsóknum á tölvusjón yfir tuttugu ár, áhugi á þessari nálgun hefur aukist undanfarið, með aukinni notkun á skinned Multi-Person Linear Model (SMPL) CGI frumstæður, nálgun sem var frumkvöðull af Max Planck Institute og ILM, og síðan bætt við með Sparse Trained Articulated Human Body Regressor (STAR) ramma.
Mest lofað þróun í þessari línu hefur verið Disney 2019 Lýsing með stíl frumkvæði, sem blandaði saman notkun hefðbundinna áferðakorta og myndefnis sem myndast af GAN, til að reyna að búa til betri, „djúpfalsaðan“ teiknimynd.
Disney nálgunin setur hefðbundnum CGI flötum inn í StyleGAN2 net til að 'mála' andlitsmyndir manna á 'vandasvæðum', þar sem tímabundin samkvæmni er vandamál fyrir myndbandsgerð – svæði eins og húðáferð.
Þar sem hægt er að fínstilla CGI höfuðið sem stýrir þessu ferli og breyta til að henta notandanum, getur GAN-myndað andlitið endurspegla þessar breytingar, þar með talið breytingar á höfuðstöðu og tjáningu.
Þrátt fyrir að hann sé hannaður til að sameina tækifærni CGI við náttúrulegt raunsæi GAN andlita, sýna niðurstöðurnar á endanum það versta af báðum heimum, og enn tekst ekki að halda háráferð og jafnvel grunneiginleikastaðsetningu í samræmi:
The 2020 pappír StyleRig: Rigging StyleGAN fyrir 3D stjórn á andlitsmyndum tekur sífellt vinsælli nálgun, með því að nota þrívíddar breytanleg andlitslíkön (3DMM) sem umboð til að breyta eiginleikum í StyleGAN umhverfi, í þessu tilviki í gegnum nýtt riggingarnet sem kallast RigNet:
Hins vegar, eins og venjulega með þessi frumkvæði, virðast niðurstöðurnar hingað til takmarkaðar við lágmarksstillingar og „óupplýstar“ breytingar á tjáningu/áhrifum.
Svipaða framleiðsla er að finna hjá Mitsubishi Research MEST-GAN, 2021 pappír sem notar ólínulega 3DMM sem sundurflæðisarkitektúr, en sem líka barátta til að ná fram kraftmikilli og stöðugri hreyfingu.
Nýjustu rannsóknirnar til að reyna tækjabúnað og sundrungu er Endurgerð andlits í einu skoti á megapixlum, sem aftur notar 3DMM parametric höfuð sem vinalegt viðmót fyrir StyleGAN.
OSFR tilheyrir vaxandi flokki GAN andlitsritstjóra sem leitast við að þróa línuleg klippingarferli í Photoshop/After Effects-stíl þar sem notandinn getur sett inn æskilega mynd sem hægt er að beita umbreytingum á, frekar en að leita í gegnum dulda rýmið fyrir dulda kóða sem tengjast sjálfsmynd.
Aftur tákna breytileg tjáning yfirgripsmikla og ópersónulega aðferð til að sprauta tjáningu, sem leiðir til aðgerða sem virðast „óhyggilegar“ á sinn eigin, ekki alltaf jákvæða hátt.
Eins og fyrri vinna getur OSFR ályktað um næstum upprunalegar stellingar út frá einni mynd og einnig framkvæmt „frontalization“, þar sem mynd sem er utan miðju er þýdd yfir í mugshot:
Í reynd er ályktun af þessu tagi svipuð sumum ljósmælingareglunum sem liggja til grundvallar Taugageislunarsvið (NeRF), nema að rúmfræðin hér verður að vera skilgreind af einni mynd, frekar en 3-4 sjónarhornum sem gera NeRF kleift að túlka millivefsstöður sem vantar og búa til rannsakanlegar taugaþrívíddarsenur með mönnum.
(Hins vegar er NeRF ekki All You Need™ heldur, þar sem það ber nánast allt annað sett af vegatálmum til GANs hvað varðar framleiðslu andlitsmyndbands)
Hefur GAN stað í myndmyndun andlitsmynda?
Að ná fram kraftmiklum tjáningum og stellingum sem eru ekki dreifðar úr einni upprunamynd virðist vera gullgerðarleg þráhyggja í rannsóknum á GAN andlitsmyndun í augnablikinu, aðallega vegna þess að GAN eru eina aðferðin sem nú er fær um að gefa út nokkuð háa upplausn og tiltölulega hár- tryggð taugaandlit: þó að sjálfkóðari djúpfölsuð rammi geti þjálfað sig á fjölda raunverulegra stellinga og tjáninga, verða þau að starfa við VRAM-takmarkað inntak/úttaksupplausn og krefjast 'hýsils'; en NeRF er á sama hátt takmarkaður, og - ólíkt hinum tveimur aðferðunum - hefur sem stendur enga viðurkennda aðferðafræði til að breyta svipbrigðum og þjáist af takmarkaðri breytanleika almennt.
Svo virðist sem eina leiðin fram á við fyrir nákvæmt CGI/GAN andlitsmyndunarkerfi sé fyrir nýtt framtak til að finna einhverja leið til að setja saman fjölmynda sjálfsmynd inni í dulda rýminu, þar sem duldur kóða fyrir sjálfsmynd einstaklings þarf ekki að ferðast alla leið yfir dulda rýmið til að nýta ótengda stellingu, en getur vísað til eigin tengdra (raunverulegra) mynda sem tilvísun í umbreytingar.
Jafnvel í slíku tilviki, eða jafnvel þó að heilt StyleGAN netkerfi væri þjálfað á einni auðkenni andlitssetts (svipað og þjálfunarsettin sem sjálfkóðarar nota), þá þyrfti merkingarrökfræðin sem skorti samt að vera til með viðbótartækni eins og merkingarfræðileg skipting eða parametrisk 3DMM andlit, sem, í slíkri atburðarás, myndi að minnsta kosti hafa meira efni til að vinna með.