Artificial Intelligence
GAN kama Kionyeshi cha Uso cha CGI ya 'Jadi'
Maoni Wakati Generative Adversarial Networks (GANs) ilionyesha kwa mara ya kwanza uwezo wao wa kuzaliana kwa njia ya kushangaza kweli Nyuso za 3D, ujio huo ulisababisha kukimbilia kwa dhahabu kwa uwezo usiochimbwa wa GANs kuunda video thabiti kwa muda inayoangazia nyuso za wanadamu.
Mahali fulani katika nafasi ya siri ya GAN, ilionekana kuwa huko lazima kufichwa kwa mpangilio na busara - mpangilio wa mantiki ya kisemantiki changa, iliyozikwa katika misimbo fiche, ambayo ingeruhusu GAN kutoa maoni mengi thabiti na tafsiri nyingi (kama vile mabadiliko ya usemi) ya sawa uso - na kisha kutoa mbinu ya video ya kushawishi kwa muda ambayo inaweza kuvuma visimbaji otomatiki nje ya maji.
Utoaji wa azimio la juu ungekuwa mdogo, ikilinganishwa na mazingira duni kama ya makazi duni ambapo vikwazo vya GPU hulazimisha DeepFaceLab na FaceSwap kufanya kazi, huku 'sehemu ya kubadilishana' ya uso (katika utiririshaji wa kiencoder otomatiki) ingekuwa 'eneo la uundaji'. ya GAN, ikifahamishwa na picha chache za ingizo, au hata picha moja tu.
Hakutakuwa na kutolingana tena kati ya nyuso za 'kubadilishana' na 'mwenyeji', kwa sababu ukamilifu ya picha itatolewa kuanzia mwanzo, ikiwa ni pamoja na nywele, taya, na ncha za juu kabisa za mistari ya uso, ambayo mara nyingi huthibitisha changamoto kwa "jadi" za usimbaji kiotomatiki bandia.
Majira ya baridi ya Video ya GAN ya Usoni
Kama ilivyotokea, haingekuwa rahisi sana. Hatimaye, kutengana imethibitisha suala kuu, na bado ni changamoto kuu. Unawezaje kuweka utambulisho tofauti wa uso, na kubadilisha mkao au mwonekano wake bila kukusanya pamoja maelfu ya picha za marejeleo zinazofunza mtandao wa neva nini hufanyika mabadiliko haya yanapotekelezwa, jinsi mifumo ya kusimba kiotomatiki hufanya kwa bidii?
Badala yake, fikra iliyofuata katika utunzi wa usoni wa GAN na utafiti wa usanisi ilikuwa kwamba utambulisho wa pembejeo unaweza kufanywa kulingana na teleological, generic, kiolezo mabadiliko ambayo si utambulisho mahususi. Mfano wa hii itakuwa kutumia usemi kwa uso wa GAN ambao haukuwepo katika picha zozote za mtu huyo ambazo GAN inafahamu kumhusu.
Ni dhahiri kwamba mbinu ya 'saizi moja inafaa zote' haiwezi kufunika utofauti wa sura za usoni kwa mtu binafsi. Inatubidi kujiuliza ikiwa tabasamu la kipekee kama lile la Jack Nicholson au Willem Dafoe linaweza kupokea tafsiri ya uaminifu chini ya ushawishi wa misimbo iliyofichika ya 'wastani wa wastani' kama huo.
Idadi ya wahariri wa mwonekano wa uso wa GAN wametolewa kwa miaka michache iliyopita, wengi wao kushughulika na vitambulisho visivyojulikana, ambapo uaminifu wa mabadiliko hauwezekani kwa msomaji wa kawaida kujua, kwa kuwa hizi sio nyuso zinazojulikana.
Labda mhariri wa uso wa GAN ambaye amepata maslahi zaidi (na manukuu) katika miaka mitatu iliyopita InterFaceGAN, ambayo inaweza kutekeleza upitishaji wa nafasi fiche katika misimbo fiche inayohusiana na mkao (pembe ya kamera/uso), mwonekano, umri, rangi, jinsia na sifa nyingine muhimu.
Uwezo wa 'morphing' wa miaka ya 1980 wa InterFaceGAN na mifumo sawa ni njia ya kuonyesha njia kuelekea mabadiliko kwani taswira inakataliwa kupitia msimbo uliofichika (kama vile 'umri'). Kwa upande wa kutoa picha za video zenye mwendelezo wa muda, mipango kama hii hadi sasa imehitimu kuwa 'majanga ya kuvutia'.
Ukiongeza kwa hilo ugumu wa kuunda nywele za muda, na ukweli kwamba mbinu ya uchunguzi/udanganyifu wa msimbo uliofichika hauna miongozo ya kitambo ya kufanya kazi nayo (na ni ngumu kujua jinsi ya kuingiza miongozo kama hii kwenye mfumo ulioundwa kushughulikia na kutoa picha tuli, na ambayo haina utoaji wa asili. kwa matokeo ya video), inaweza kuwa na busara kuhitimisha kuwa GAN sio Unayohitaji tu kwa usanisi wa video za usoni.
Kwa hiyo, jitihada zilizofuata zimezaa matunda maboresho ya nyongeza katika kutenganisha, wakati wengine wamejikita kwenye mikusanyiko mingine katika maono ya kompyuta kama 'safu ya mwongozo', kama vile utumiaji wa sehemu za semantic kama njia ya kudhibiti mwishoni mwa 2021. karatasi SemanticStyleGAN: Kujifunza Mambo ya Msingi ya Uundaji wa Usanifu wa Picha Inayoweza Kudhibitiwa na Uhariri..
Mwongozo wa Parametric
Jumuiya ya utafiti wa usanisi wa uso wa GAN inaelekea zaidi katika matumizi ya nyuso za "jadi" za CGI kama njia ya kuongoza na kuleta mpangilio wa misimbo iliyofichika ya kuvutia lakini isiyodhibitiwa katika nafasi fiche ya GAN.
Ingawa nyenzo za awali za usoni zimekuwa msingi wa utafiti wa maono ya kompyuta kwa zaidi ya miaka ishirini, kupendezwa na mbinu hii kumeongezeka hivi karibuni, na kuongezeka kwa matumizi ya Skinned Multi-Person Linear Model (SMPL) CGI primitives, mbinu iliyoanzishwa na Taasisi ya Max Planck na ILM, na tangu kuboreshwa na Kidhibiti cha Mwili cha Binadamu kilichofunzwa cha Sparse (STARmfumo.
Maendeleo yanayosifiwa zaidi katika mstari huu yamekuwa Disney ya 2019 Utoaji kwa Mtindo mpango, ambao ulichanganya matumizi ya ramani za maandishi za kitamaduni na taswira inayozalishwa na GAN, katika jaribio la kuunda pato lililoboreshwa la 'deepfake-style'.
Mbinu ya Disney inalazimisha vipengele vya CGI vilivyotolewa kimila katika mtandao wa StyleGAN2 ili 'kupaka rangi' mada za uso wa binadamu katika 'maeneo yenye matatizo', ambapo uthabiti wa muda ni suala la uzalishaji wa video - maeneo kama vile umbile la ngozi.
Kwa kuwa kichwa cha kigezo cha CGI kinachoongoza mchakato huu kinaweza kubadilishwa na kubadilishwa ili kuendana na mtumiaji, uso unaozalishwa na GAN unaweza kuakisi mabadiliko hayo, ikijumuisha mabadiliko ya mkao wa kichwa na kujieleza.
Ingawa imeundwa kuoa ufaafu wa CGI na uhalisia asilia wa nyuso za GAN, mwishowe, matokeo yanaonyesha hali mbaya zaidi ya ulimwengu wote, na bado yanashindwa kuweka umbile la nywele na hata uwekaji wa vipengele vya kimsingi thabiti:
2020 karatasi StyleRig: Mtindo wa Kuchambua GAN kwa Udhibiti wa 3D juu ya Picha za Wima inachukua mbinu inazidi maarufu, na matumizi ya mifano ya uso inayoweza kubadilika ya pande tatu (3DMMs) kama proksi za kubadilisha sifa katika mazingira ya StyleGAN, katika kesi hii kupitia mtandao wa riwaya wa kuiba uitwao RigNet:
Hata hivyo, kama kawaida na mipango hii, matokeo hadi sasa yanaonekana kuwa na upotoshaji mdogo wa mkao, na usemi/kuathiri mabadiliko 'isiyo na taarifa'.
Matokeo sawa yanaweza kupatikana kutoka kwa Utafiti wa Mitsubishi ZAIDI-GAN, 2021 karatasi ambayo hutumia 3DMM zisizo za mstari kama usanifu wa kutenganisha, lakini ambayo pia mapambano ili kufikia mwendo wenye nguvu na thabiti.
Utafiti wa hivi punde wa kujaribu kutumia zana na kutenganisha ni Onyesho la Uso la Risasi Moja kwenye Megapixels, ambayo hutumia tena vichwa vya parametric 3DMM kama kiolesura cha kirafiki cha StyleGAN.
OSFR ni ya kundi linalokua la wahariri wa nyuso wa GAN ambao wanatafuta kutengeneza mtiririko wa kazi wa uhariri wa mtindo wa Photoshop/After Effects ambapo mtumiaji anaweza kuweka picha anayotaka ambayo mabadiliko yanaweza kutumika, badala ya kuwinda kupitia nafasi fiche kwa misimbo fiche inayohusiana na utambulisho.
Tena, vielezi vya parametric vinawakilisha mbinu ya jumla na isiyo ya kibinafsi ya kujieleza kwa kudunga, na kusababisha upotoshaji ambao unaonekana kuwa 'ugeni' wao wenyewe, sio njia chanya kila wakati.
Kama vile kazi ya awali, OSFR inaweza kukisia misimamo karibu-asili kutoka kwa picha moja, na pia kufanya 'kuweka mbele', ambapo picha iliyowekwa nje ya katikati inatafsiriwa kuwa mugshot:
Katika mazoezi, aina hii ya uelekezaji ni sawa na baadhi ya kanuni za upigaji picha zinazounga mkono Sehemu za Mionzi ya Neural (NeRF), isipokuwa kwamba jiometri hapa lazima ifafanuliwe kwa picha moja, badala ya mitazamo 3-4 inayoruhusu NeRF kutafsiri mielekeo ya unganishi inayokosekana na kuunda matukio ya neural ya 3D yanayoweza kutambulika yanayoangazia wanadamu.
(Walakini, NeRF sio Unachohitaji ™ pia, kwani inakaribia seti tofauti kabisa ya vizuizi vya barabarani kwa GAN katika suala la kutoa usanisi wa video za uso)
Je, GAN Ina Nafasi katika Usanifu wa Video za Usoni?
Kufikia misemo inayobadilika na kutosambazwa nje ya picha kutoka kwa chanzo kimoja inaonekana kuwa mtazamo kama wa alkemia katika utafiti wa usanisi wa uso wa GAN kwa sasa, hasa kwa sababu GAN ndiyo njia pekee ambayo kwa sasa inaweza kutoa azimio la juu kabisa na la juu kiasi. uaminifu wa nyuso za neva: ingawa mifumo ya kina ya kusimba kiotomatiki inaweza kutoa mafunzo kwa wingi wa misimamo na misemo ya ulimwengu halisi, lazima ifanye kazi katika maazimio ya pembejeo/towe yenye vikwazo vya VRAM, na kuhitaji 'mwenyeji'; wakati NeRF ina vikwazo vile vile, na - tofauti na mbinu nyingine mbili - kwa sasa haina mbinu zilizowekwa za kubadilisha sura za uso, na inakabiliwa na uhariri mdogo kwa ujumla.
Inaonekana kwamba njia pekee ya kupata mfumo sahihi wa usanisi wa uso wa CGI/GAN ni kwa hatua mpya ya kutafuta njia fulani ya kukusanya kitambulisho cha picha nyingi ndani ya nafasi iliyofichika, ambapo msimbo fiche wa kitambulisho cha mtu si lazima kusafiri kote katika nafasi fiche ili kutumia vigezo vya mkao visivyohusiana, lakini inaweza kurejelea picha zake zinazohusiana (ulimwengu halisi) kama marejeleo ya mabadiliko.
Hata katika hali kama hii, au hata kama mtandao mzima wa StyleGAN ungefunzwa juu ya seti ya uso-kitambulisho kimoja (sawa na seti za mafunzo zinazotumiwa na visimbaji kiotomatiki), mantiki inayokosekana ya kisemantiki bado ingehitaji kutolewa na teknolojia za ziada kama vile. sehemu za kisemantiki au nyuso za parametric 3DMM, ambazo, katika hali kama hii, zingekuwa na nyenzo zaidi za kufanya kazi nazo.