Kacerdasan buatan
GAN salaku Renderer raray pikeun CGI 'Tradisional'
pamadegan Nalika Generative Adversarial Networks (GANs) mimiti nunjukkeun kamampuanna pikeun baranahan sacara stunningly realistis Beungeut 3D, Advent nyababkeun rurusuhan emas pikeun poténsi GAN anu henteu ditambang pikeun nyiptakeun pidéo anu konsisten sacara temporal anu nampilkeun wajah manusa.
Tempat di rohangan laten GAN, sigana aya kudu susunan jeung rasionalitas disumputkeun - skéma logika semantik nascent, dikubur dina kode laten, nu bakal ngidinan GAN ngahasilkeun sababaraha pintonan konsisten tur sababaraha interpretasi (saperti parobahan ekspresi) tina sarua nyanghareupan - teras nawiskeun metode pidéo deepfake anu ngayakinkeun samentawis anu bakal niup autoencoders kaluar tina cai.
Kaluaran résolusi luhur bakal teu pati penting, dibandingkeun sareng lingkungan résolusi rendah sapertos kumuh dimana konstrain GPU maksa DeepFaceLab sareng FaceSwap pikeun beroperasi, sedengkeun 'zona swap' hiji raray (dina alur kerja autoencoder) bakal janten 'zona ciptaan'. tina GAN, informed ku sakeupeul gambar input, atawa malah ngan hiji gambar tunggal.
Moal aya deui mismatch antara raray 'swap' jeung 'host', sabab entirety gambar bakal dihasilkeun ti scratch, kaasup bulu, jawlines, sarta extremities pangluarna tina lineaments raray, nu remen ngabuktikeun tangtangan pikeun 'tradisional' autoencoder deepfakes.
The GAN raray Video Winter
Sakumaha anu kajantenan, éta moal ampir gampang. Pamustunganana, panyabutan ngabuktikeun masalah sentral, sarta tetep tantangan primér. Kumaha anjeun tiasa ngajaga identitas raray anu béda, sareng ngarobih pose atanapi ekspresina tanpa ngahijikeun korpus rébu gambar rujukan anu ngajarkeun jaringan saraf naon anu lumangsung nalika parobihan ieu dilaksanakeun, cara anu dilakukeun ku sistem autoencoder?
Sabalikna, pamikiran saterasna dina panerapan raray GAN sareng panalungtikan sintésis nyaéta yén identitas input panginten tiasa dilakukeun tunduk kana teleologis, generik, citakan transformasi nu teu identitas-spésifik. Conto ieu nyaéta nerapkeun ekspresi kana raray GAN anu henteu aya dina gambar naon waé jalma anu terang GAN.
Éta atra yén pendekatan 'hiji ukuran pas sadayana' teu tiasa nutupan karagaman ekspresi raray anu unik pikeun hiji individu. Urang kedah heran naha seuri anu unik sapertos Jack Nicholson atanapi Willem Dafoe tiasa nampi interpretasi anu satia dina pangaruh kode laten 'ekspresi rata-rata' sapertos kitu.
Sajumlah éditor ekspresi wajah GAN parantos diteruskeun dina sababaraha taun ka pengker, kalolobaanana kaayaan identitas kanyahoan, dimana kasatiaan tina transformasi teu mungkin pikeun maca kasual uninga, saprak ieu raray teu wawuh.
Bisa jadi redaktur raray GAN anu paling dipikaresep (jeung kutipan) dina tilu taun ka tukang téh InterfaceGAN, nu bisa ngalakukeun traversals spasi laten dina kode laten patali pose (sudut kaméra / beungeut), ekspresi, umur, ras, gender, sarta kualitas penting lianna.
Kamampuhan 'morphing' gaya 1980-an tina InterFaceGAN sareng kerangka anu sami mangrupikeun cara pikeun ngagambarkeun jalan ka arah transformasi nalika gambar diproyeksikan deui ngaliwatan kode laten anu cocog (sapertos 'umur'). Dina watesan ngahasilkeun footage video kalawan continuity temporal, schemes misalna nepi ka ayeuna geus mumpuni salaku 'bencana impressive'.
Upami anjeun nambihan kana éta kasusah nyieun bulu temporal-konsisten, jeung kanyataan yén téknik eksplorasi/manipulasi kode laten teu boga tungtunan temporal bawaan pikeun digawé (jeung hese nyaho kumaha carana nyuntik tungtunan misalna kana kerangka dirancang pikeun nampung jeung ngahasilkeun gambar tetep, sarta nu teu boga rezeki asli. Pikeun kaluaran video), bisa jadi logis mun nyimpulkeun yén GAN téh lain All You Need™ pikeun sintésis video raray.
Ku alatan éta, usaha saterusna geus yielded perbaikan incremental dina disentanglement, sedengkeun nu sejenna geus bolted on konvénsi séjén dina visi komputer salaku 'lapisan hidayah', kayaning pamakéan segmentation semantik salaku mékanisme kontrol dina ahir 2021. keretas SemanticStyleGAN: Diajar Compositional Generative Priors pikeun Sintésis Gambar Controllable jeung Editing.
Pituduh paramétrik
Komunitas panaliti sintésis raray GAN beuki ngarah kana panggunaan paramétrik CGI paramétrik 'tradisional' salaku padika pikeun nungtun sareng ngadamel tatanan kana kode laten anu pikaresepeun tapi henteu teratur dina rohangan laten GAN.
Padahal primitif raray parametrik geus pokok panalungtikan visi komputer pikeun leuwih dua puluh taun, minat kana pendekatan ieu geus tumuwuh lately, jeung ngaronjat pamakéan Skinned Multi-Person Linear Modél (SMPL) CGI primitif, pendekatan naratas ku Max Planck Institute na ILM, sarta saprak ningkat kana kalawan Sparse Dilatih Articulated Awak Awak Regressor (bentang) kerangka.
Pangwangunan anu paling diaku dina garis ieu nyaéta Disney's 2019 Rendering kalawan Style inisiatif, nu melded pamakéan tékstur-peta tradisional jeung imagery GAN-dihasilkeun, dina usaha pikeun nyieun ningkat, 'deepfake-gaya' kaluaran animasi.
Pendekatan Disney maksakeun rupa-rupa CGI sacara tradisional kana jaringan StyleGAN2 pikeun 'nginpaint' subjék raray manusa dina 'wewengkon masalah', dimana konsistensi temporal mangrupikeun masalah pikeun ngahasilkeun pidéo - daérah sapertos tékstur kulit.
Kusabab sirah CGI paramétrik anu nungtun prosés ieu tiasa dirobih sareng dirobih pikeun nyocogkeun ka pangguna, raray anu dibangkitkeun GAN tiasa ngagambarkeun parobihan éta, kalebet parobihan pose sareng ekspresi sirah.
Sanaos dirarancang pikeun ngawinkeun alat CGI sareng realisme alami wajah GAN, tungtungna, hasilna nunjukkeun anu paling awon tina dua dunya, sareng tetep gagal ngajaga tékstur rambut sareng posisi fitur dasar anu konsisten:
nu 2020 keretas StyleRig: Rigging StyleGAN pikeun Control 3D leuwih Potrét Gambar nyokot pendekatan beuki populér, kalawan ngagunakeun model raray morphable tilu diménsi (3DMMs) salaku proxy pikeun ngarobah ciri dina lingkungan StyleGAN, dina hal ieu ngaliwatan jaringan rigging novel disebut RigNet:
Nanging, sapertos biasa sareng inisiatif ieu, hasil dugi ka ayeuna sigana dugi ka manipulasi pose minimal, sareng ekspresi / pangaruh anu 'teu terang'.
Kaluaran anu sami tiasa dipendakan ti Mitsubishi Research's PALING-GAN, hiji 2021 keretas anu ngagunakeun 3DMM nonlinier salaku arsitéktur disentanglement, tapi ogé struggles pikeun ngahontal gerak dinamis sareng konsisten.
Panalungtikan panganyarna pikeun nyoba instrumentality na disentanglement nyaeta Reenactment raray One-Shot dina Megapixels, nu deui ngagunakeun huluna parametrik 3DMM salaku panganteur ramah pikeun StyleGAN.
OSFR milik kelas GAN raray redaktur tumuwuh anu néangan ngamekarkeun Photoshop/After Effects-gaya ngedit workflows linier mana pamaké bisa input gambar nu dipikahoyong nu transformasi bisa dilarapkeun, tinimbang moro ngaliwatan spasi laten pikeun kode laten patali hiji identitas.
Kitu deui, éksprési paramétrik ngagambarkeun metode nyuntik éksprési anu lengkep sareng non-pribadi, ngarah kana manipulasi anu sigana 'aneh' sorangan, henteu salawasna positif.
Sapertos padamelan sateuacana, OSFR tiasa nyimpulkeun pose anu caket-aslina tina hiji gambar, sareng ogé ngalaksanakeun 'frontalization', dimana gambar pose di luar pusat ditarjamahkeun kana mugshot:
Dina prakna, inferensi sapertos kitu sami sareng sababaraha prinsip fotogrammétri anu didasarkeun Neural Radiance Widang (NeRF), iwal géométri di dieu kudu dihartikeun ku poto tunggal, tinimbang sudut pandang 3-4 nu ngidinan NeRF napsirkeun pose interstitial leungit tur nyieun pamandangan 3D neural explorable nampilkeun manusa.
(Nanging, NeRF sanés Sadayana Anjeun Peryogikeun ™ ogé, sabab éta ampir set sagemblengna béda tina roadblocks ka GAN dina hal ngahasilkeun sintésis vidéo raray)
Naha GAN ngagaduhan Tempat dina Sintésis Video Raray?
Ngahontal ekspresi dinamis sareng out-of-distribution pose tina gambar sumber tunggal sigana janten obsesi sapertos alkimia dina panalungtikan sintésis raray GAN ayeuna, utamina kusabab GAN mangrupikeun hiji-hijina metode anu ayeuna tiasa ngahasilkeun résolusi anu cukup luhur sareng rélatif luhur- kasatiaan neural raray: sanajan autoencoder kerangka deepfake bisa ngalatih dina multitude of real-dunya pose jeung ekspresi, maranéhanana kudu beroperasi dina VRAM-diwatesan input / output resolusi, sarta merlukeun hiji 'host'; bari NeRF ieu ogé konstrain, sarta - kawas dua pendekatan sejenna - ayeuna teu boga metodologi ngadegkeun pikeun ngarobah ekspresi raray, sarta miboga editability kawates sacara umum.
Sigana hiji-hijina jalan maju pikeun sistem sintésis raray CGI/GAN anu akurat nyaéta pikeun inisiatif anyar pikeun milarian sababaraha cara pikeun ngarakit éntitas identitas multi-poto di jero rohangan laten, dimana kode laten pikeun identitas jalma henteu kedah ngarambat sapanjang rohangan laten pikeun ngamangpaatkeun parameter pose anu teu aya hubunganana, tapi tiasa ngarujuk kana gambar anu aya hubunganana (alam nyata) salaku rujukan pikeun transformasi.
Sanaos dina kasus sapertos kitu, atanapi upami sadayana jaringan StyleGAN dilatih dina set raray-identitas tunggal (sarupa sareng set pelatihan anu dianggo ku autoencoders), logika semantik anu kirang sigana masih kedah disayogikeun ku téknologi adjunct sapertos segmentation semantis atanapi raray 3DMM parametrik, nu, dina skenario kitu, sahenteuna bakal mibanda leuwih bahan pikeun digawekeun ku.