Kuungana na sisi

Artificial Intelligence

GAN kama Kionyeshi cha Uso cha CGI ya 'Jadi'

mm
Updated on

Maoni Wakati Generative Adversarial Networks (GANs) ilionyesha kwa mara ya kwanza uwezo wao wa kuzaliana kwa njia ya kushangaza kweli Nyuso za 3D, ujio huo ulisababisha kukimbilia kwa dhahabu kwa uwezo usiochimbwa wa GANs kuunda video thabiti kwa muda inayoangazia nyuso za wanadamu.

Mahali fulani katika nafasi ya siri ya GAN, ilionekana kuwa huko lazima kufichwa kwa mpangilio na busara - mpangilio wa mantiki ya kisemantiki changa, iliyozikwa katika misimbo fiche, ambayo ingeruhusu GAN kutoa maoni mengi thabiti na tafsiri nyingi (kama vile mabadiliko ya usemi) ya sawa uso - na kisha kutoa mbinu ya video ya kushawishi kwa muda ambayo inaweza kuvuma visimbaji otomatiki nje ya maji.

Utoaji wa azimio la juu ungekuwa mdogo, ikilinganishwa na mazingira duni kama ya makazi duni ambapo vikwazo vya GPU hulazimisha DeepFaceLab na FaceSwap kufanya kazi, huku 'sehemu ya kubadilishana' ya uso (katika utiririshaji wa kiencoder otomatiki) ingekuwa 'eneo la uundaji'. ya GAN, ikifahamishwa na picha chache za ingizo, au hata picha moja tu.

Hakutakuwa na kutolingana tena kati ya nyuso za 'kubadilishana' na 'mwenyeji', kwa sababu ukamilifu ya picha itatolewa kuanzia mwanzo, ikiwa ni pamoja na nywele, taya, na ncha za juu kabisa za mistari ya uso, ambayo mara nyingi huthibitisha changamoto kwa "jadi" za usimbaji kiotomatiki bandia.

Majira ya baridi ya Video ya GAN ya Usoni

Kama ilivyotokea, haingekuwa rahisi sana. Hatimaye, kutengana imethibitisha suala kuu, na bado ni changamoto kuu. Unawezaje kuweka utambulisho tofauti wa uso, na kubadilisha mkao au mwonekano wake bila kukusanya pamoja maelfu ya picha za marejeleo zinazofunza mtandao wa neva nini hufanyika mabadiliko haya yanapotekelezwa, jinsi mifumo ya kusimba kiotomatiki hufanya kwa bidii?

Badala yake, fikra iliyofuata katika utunzi wa usoni wa GAN na utafiti wa usanisi ilikuwa kwamba utambulisho wa pembejeo unaweza kufanywa kulingana na teleological, generic, kiolezo mabadiliko ambayo si utambulisho mahususi. Mfano wa hii itakuwa kutumia usemi kwa uso wa GAN ambao haukuwepo katika picha zozote za mtu huyo ambazo GAN inafahamu kumhusu.

Kutoka kwa karatasi ya 2022 ya Kuhariri Hisia kwa msingi wa Tensor katika Nafasi Iliyofichika ya StyleGAN, misemo ya kiolezo hutumika kwa uso wa ingizo kutoka kwa mkusanyiko wa data wa FFHQ. Chanzo: https://arxiv.org/pdf/2205.06102.pdf

Kutoka kwa karatasi ya 2022 ya Kuhariri Hisia kwa msingi wa Tensor katika Nafasi Iliyofichika ya StyleGAN, misemo ya kiolezo hutumika kwa uso wa ingizo kutoka kwa mkusanyiko wa data wa FFHQ. Chanzo: https://arxiv.org/pdf/2205.06102.pdf

Ni dhahiri kwamba mbinu ya 'saizi moja inafaa zote' haiwezi kufunika utofauti wa sura za usoni kwa mtu binafsi. Inatubidi kujiuliza ikiwa tabasamu la kipekee kama lile la Jack Nicholson au Willem Dafoe linaweza kupokea tafsiri ya uaminifu chini ya ushawishi wa misimbo iliyofichika ya 'wastani wa wastani' kama huo.

Mgeni huyu wa Kilatini anayevutia ni nani? Ingawa mbinu ya GAN hutoa sura ya kweli zaidi na yenye azimio la juu zaidi, mabadiliko hayatozwi na picha nyingi za ulimwengu halisi za mwigizaji, kama ilivyo kwa DeepFaceLab, ambayo hutoa mafunzo kwa kina na mara nyingi kwa gharama fulani kwenye hifadhidata ya maelfu ya picha kama hizo. Hapa (chinichini) muundo wa DeepFaceLab unaingizwa kwenye DeepFaceLive, utekelezaji wa utiririshaji wa programu maarufu na yenye utata. Mifano ni kutoka kwa https://www.youtube.com/watch?v=9tr35y-yQRY (2022) na https://arxiv.org/pdf/2205.06102.pdf.

Mgeni huyu wa Kilatini anayevutia ni nani? Ingawa mbinu ya GAN hutoa sura ya 'halisi' zaidi na yenye azimio la juu zaidi, mabadiliko hayo hayatambuliwi na picha nyingi za ulimwengu halisi za mwigizaji, kama ilivyo kwa DeepFaceLab, ambayo hutoa mafunzo kwa kina kwenye hifadhidata ya maelfu ya picha kama hizo, na kwa sababu hiyo kufanana kunaathirika. Hapa (chinichini) mfano wa DeepFaceLab unaingizwa DeepFaceLive, utekelezaji wa utiririshaji wa programu maarufu na yenye utata. Mifano ni kutoka kwa https://www.youtube.com/watch?v=9tr35y-yQRY (2022) na https://arxiv.org/pdf/2205.06102.pdf.

Idadi ya wahariri wa mwonekano wa uso wa GAN wametolewa kwa miaka michache iliyopita, wengi wao kushughulika na vitambulisho visivyojulikana, ambapo uaminifu wa mabadiliko hauwezekani kwa msomaji wa kawaida kujua, kwa kuwa hizi sio nyuso zinazojulikana.

Vitambulisho visivyojulikana vilibadilishwa katika 2020 inayotoa Cascade-EF-GAN. Chanzo: https://arxiv.org/pdf/2003.05905.pdf

Vitambulisho visivyojulikana vilibadilishwa katika 2020 inayotoa Cascade-EF-GAN. Chanzo: https://arxiv.org/pdf/2003.05905.pdf

Labda mhariri wa uso wa GAN ambaye amepata maslahi zaidi (na manukuu) katika miaka mitatu iliyopita InterFaceGAN, ambayo inaweza kutekeleza upitishaji wa nafasi fiche katika misimbo fiche inayohusiana na mkao (pembe ya kamera/uso), mwonekano, umri, rangi, jinsia na sifa nyingine muhimu.

Onyesho la InterFaceGAN (CVPR 2020)

Uwezo wa 'morphing' wa miaka ya 1980 wa InterFaceGAN na mifumo sawa ni njia ya kuonyesha njia kuelekea mabadiliko kwani taswira inakataliwa kupitia msimbo uliofichika (kama vile 'umri'). Kwa upande wa kutoa picha za video zenye mwendelezo wa muda, mipango kama hii hadi sasa imehitimu kuwa 'majanga ya kuvutia'.

Ukiongeza kwa hilo ugumu wa kuunda nywele za muda, na ukweli kwamba mbinu ya uchunguzi/udanganyifu wa msimbo uliofichika hauna miongozo ya kitambo ya kufanya kazi nayo (na ni ngumu kujua jinsi ya kuingiza miongozo kama hii kwenye mfumo ulioundwa kushughulikia na kutoa picha tuli, na ambayo haina utoaji wa asili. kwa matokeo ya video), inaweza kuwa na busara kuhitimisha kuwa GAN sio Unayohitaji tu kwa usanisi wa video za usoni.

Kwa hiyo, jitihada zilizofuata zimezaa matunda maboresho ya nyongeza katika kutenganisha, wakati wengine wamejikita kwenye mikusanyiko mingine katika maono ya kompyuta kama 'safu ya mwongozo', kama vile utumiaji wa sehemu za semantic kama njia ya kudhibiti mwishoni mwa 2021. karatasi SemanticStyleGAN: Kujifunza Mambo ya Msingi ya Uundaji wa Usanifu wa Picha Inayoweza Kudhibitiwa na Uhariri..

Utengaji wa kisemantiki kama mbinu ya ufaafu wa nafasi fiche katika SemanticStyleGAN. Chanzo: https://semanticstylegan.github.io/

Utengaji wa kisemantiki kama mbinu ya ufaafu wa nafasi fiche katika SemanticStyleGAN. Chanzo: https://semanticstylegan.github.io/

Mwongozo wa Parametric

Jumuiya ya utafiti wa usanisi wa uso wa GAN inaelekea zaidi katika matumizi ya nyuso za "jadi" za CGI kama njia ya kuongoza na kuleta mpangilio wa misimbo iliyofichika ya kuvutia lakini isiyodhibitiwa katika nafasi fiche ya GAN.

Ingawa nyenzo za awali za usoni zimekuwa msingi wa utafiti wa maono ya kompyuta kwa zaidi ya miaka ishirini, kupendezwa na mbinu hii kumeongezeka hivi karibuni, na kuongezeka kwa matumizi ya Skinned Multi-Person Linear Model (SMPL) CGI primitives, mbinu iliyoanzishwa na Taasisi ya Max Planck na ILM, na tangu kuboreshwa na Kidhibiti cha Mwili cha Binadamu kilichofunzwa cha Sparse (STARmfumo.

SMPL (katika kesi hii lahaja iitwayo SMPL-X) inaweza kuweka matundu ya parametric ya CGI ambayo yanalingana na makadirio ya mkao (pamoja na misemo, inavyohitajika) ya mwili mzima wa binadamu ulioangaziwa kwenye picha, kuruhusu shughuli mpya kutekelezwa kwenye picha kwa kutumia matundu ya parametric kama mwongozo wa ujazo au mtazamo. Chanzo: https://arxiv.org/pdf/1904.05866.pdf

SMPL (katika kesi hii lahaja inayoitwa SMPL-X) inaweza kulazimisha matundu ya parametric ya CGI ambayo yanaambatana na makadirio ya mkao (pamoja na misemo, inapohitajika) ya mwili mzima wa binadamu ulioangaziwa kwenye picha, ikiruhusu shughuli mpya kufanywa kwenye picha kwa kutumia matundu ya parametric kama sauti ya sauti au utambuzi. mwongozo. Chanzo: https://arxiv.org/pdf/1904.05866.pdf

Maendeleo yanayosifiwa zaidi katika mstari huu yamekuwa Disney ya 2019 Utoaji kwa Mtindo mpango, ambao ulichanganya matumizi ya ramani za maandishi za kitamaduni na taswira inayozalishwa na GAN, katika jaribio la kuunda pato lililoboreshwa la 'deepfake-style'.

Old hukutana na mpya, katika mbinu ya mseto ya Disney kwa bandia za kina zinazozalishwa na GAN. Chanzo: https://www.youtube.com/watch?v=TwpLqTmvqVk

Old hukutana na mpya, katika mbinu ya mseto ya Disney kwa bandia za kina zinazozalishwa na GAN. Chanzo: https://www.youtube.com/watch?v=TwpLqTmvqVk

Mbinu ya Disney inalazimisha vipengele vya CGI vilivyotolewa kimila katika mtandao wa StyleGAN2 ili 'kupaka rangi' mada za uso wa binadamu katika 'maeneo yenye matatizo', ambapo uthabiti wa muda ni suala la uzalishaji wa video - maeneo kama vile umbile la ngozi.

Utoaji kwa Mtindo wa kazi.

Utoaji kwa Mtindo wa kazi.

Kwa kuwa kichwa cha kigezo cha CGI kinachoongoza mchakato huu kinaweza kubadilishwa na kubadilishwa ili kuendana na mtumiaji, uso unaozalishwa na GAN unaweza kuakisi mabadiliko hayo, ikijumuisha mabadiliko ya mkao wa kichwa na kujieleza.

Ingawa imeundwa kuoa ufaafu wa CGI na uhalisia asilia wa nyuso za GAN, mwishowe, matokeo yanaonyesha hali mbaya zaidi ya ulimwengu wote, na bado yanashindwa kuweka umbile la nywele na hata uwekaji wa vipengele vya kimsingi thabiti:

Aina mpya ya bonde la ajabu huibuka kutoka kwa Utoaji na Mtindo, ingawa kanuni bado ina uwezo fulani.

Aina mpya ya bonde la ajabu huibuka kutoka kwa Utoaji na Mtindo, ingawa kanuni bado ina uwezo fulani.

2020 karatasi StyleRig: Mtindo wa Kuchambua GAN kwa Udhibiti wa 3D juu ya Picha za Wima inachukua mbinu inazidi maarufu, na matumizi ya mifano ya uso inayoweza kubadilika ya pande tatu (3DMMs) kama proksi za kubadilisha sifa katika mazingira ya StyleGAN, katika kesi hii kupitia mtandao wa riwaya wa kuiba uitwao RigNet:

3DMM husimama kama proksi za tafsiri za nafasi fiche katika StyleRig. Chanzo: https://arxiv.org/pdf/2004.00121.pdf

3DMM husimama kama proksi za tafsiri za nafasi fiche katika StyleRig. Chanzo: https://arxiv.org/pdf/2004.00121.pdf

Hata hivyo, kama kawaida na mipango hii, matokeo hadi sasa yanaonekana kuwa na upotoshaji mdogo wa mkao, na usemi/kuathiri mabadiliko 'isiyo na taarifa'.

StyleRig inaboresha kiwango cha udhibiti, ingawa nywele zinazobadilika kwa muda bado ni changamoto ambayo haijatatuliwa. Chanzo:

StyleRig inaboresha kiwango cha udhibiti, ingawa nywele zinazobadilika kwa muda bado ni changamoto ambayo haijatatuliwa. Chanzo: https://www.youtube.com/watch?v=eaW_P85wQ9k

Matokeo sawa yanaweza kupatikana kutoka kwa Utafiti wa Mitsubishi ZAIDI-GAN, 2021 karatasi ambayo hutumia 3DMM zisizo za mstari kama usanifu wa kutenganisha, lakini ambayo pia mapambano ili kufikia mwendo wenye nguvu na thabiti.

Utafiti wa hivi punde wa kujaribu kutumia zana na kutenganisha ni Onyesho la Uso la Risasi Moja kwenye Megapixels, ambayo hutumia tena vichwa vya parametric 3DMM kama kiolesura cha kirafiki cha StyleGAN.

Katika utendakazi wa MegaFR wa Utendaji wa Uso wa Risasi Moja, mtandao hufanya usanisi wa uso kwa kuchanganya picha iliyogeuzwa ya ulimwengu halisi na vigezo vilivyochukuliwa kutoka kwa muundo uliotolewa wa 3DMM. Chanzo: https://arxiv.org/pdf/2205.13368.pdf

Katika utendakazi wa MegaFR wa Utendaji wa Uso wa Risasi Moja, mtandao hufanya usanisi wa uso kwa kuchanganya picha iliyogeuzwa ya ulimwengu halisi na vigezo vilivyochukuliwa kutoka kwa muundo uliotolewa wa 3DMM. Chanzo: https://arxiv.org/pdf/2205.13368.pdf

OSFR ni ya kundi linalokua la wahariri wa nyuso wa GAN ambao wanatafuta kutengeneza mtiririko wa kazi wa uhariri wa mtindo wa Photoshop/After Effects ambapo mtumiaji anaweza kuweka picha anayotaka ambayo mabadiliko yanaweza kutumika, badala ya kuwinda kupitia nafasi fiche kwa misimbo fiche inayohusiana na utambulisho.

Tena, vielezi vya parametric vinawakilisha mbinu ya jumla na isiyo ya kibinafsi ya kujieleza kwa kudunga, na kusababisha upotoshaji ambao unaonekana kuwa 'ugeni' wao wenyewe, sio njia chanya kila wakati.

Semi zilizoingizwa katika OSFR.

Semi zilizoingizwa katika OSFR.

Kama vile kazi ya awali, OSFR inaweza kukisia misimamo karibu-asili kutoka kwa picha moja, na pia kufanya 'kuweka mbele', ambapo picha iliyowekwa nje ya katikati inatafsiriwa kuwa mugshot:

Picha asili (hapo juu) na zilizokisiwa kutoka kwa mojawapo ya utekelezaji wa OSFR iliyofafanuliwa katika karatasi mpya.

Picha asili (hapo juu) na zilizokisiwa kutoka kwa mojawapo ya utekelezaji wa OSFR iliyofafanuliwa katika karatasi mpya.

Katika mazoezi, aina hii ya uelekezaji ni sawa na baadhi ya kanuni za upigaji picha zinazounga mkono Sehemu za Mionzi ya Neural (NeRF), isipokuwa kwamba jiometri hapa lazima ifafanuliwe kwa picha moja, badala ya mitazamo 3-4 inayoruhusu NeRF kutafsiri mielekeo ya unganishi inayokosekana na kuunda matukio ya neural ya 3D yanayoweza kutambulika yanayoangazia wanadamu.

(Walakini, NeRF sio Unachohitaji ™ pia, kwani inakaribia seti tofauti kabisa ya vizuizi vya barabarani kwa GAN katika suala la kutoa usanisi wa video za uso)

Je, GAN Ina Nafasi katika Usanifu wa Video za Usoni?

Kufikia misemo inayobadilika na kutosambazwa nje ya picha kutoka kwa chanzo kimoja inaonekana kuwa mtazamo kama wa alkemia katika utafiti wa usanisi wa uso wa GAN kwa sasa, hasa kwa sababu GAN ndiyo njia pekee ambayo kwa sasa inaweza kutoa azimio la juu kabisa na la juu kiasi. uaminifu wa nyuso za neva: ingawa mifumo ya kina ya kusimba kiotomatiki inaweza kutoa mafunzo kwa wingi wa misimamo na misemo ya ulimwengu halisi, lazima ifanye kazi katika maazimio ya pembejeo/towe yenye vikwazo vya VRAM, na kuhitaji 'mwenyeji'; wakati NeRF ina vikwazo vile vile, na - tofauti na mbinu nyingine mbili - kwa sasa haina mbinu zilizowekwa za kubadilisha sura za uso, na inakabiliwa na uhariri mdogo kwa ujumla.

Inaonekana kwamba njia pekee ya kupata mfumo sahihi wa usanisi wa uso wa CGI/GAN ni kwa hatua mpya ya kutafuta njia fulani ya kukusanya kitambulisho cha picha nyingi ndani ya nafasi iliyofichika, ambapo msimbo fiche wa kitambulisho cha mtu si lazima kusafiri kote katika nafasi fiche ili kutumia vigezo vya mkao visivyohusiana, lakini inaweza kurejelea picha zake zinazohusiana (ulimwengu halisi) kama marejeleo ya mabadiliko.

Hata katika hali kama hii, au hata kama mtandao mzima wa StyleGAN ungefunzwa juu ya seti ya uso-kitambulisho kimoja (sawa na seti za mafunzo zinazotumiwa na visimbaji kiotomatiki), mantiki inayokosekana ya kisemantiki bado ingehitaji kutolewa na teknolojia za ziada kama vile. sehemu za kisemantiki au nyuso za parametric 3DMM, ambazo, katika hali kama hii, zingekuwa na nyenzo zaidi za kufanya kazi nazo.