Kacerdasan buatan

GAN salaku Renderer raray pikeun CGI 'Tradisional'

diropéa on Désémber 9, 2022

pamadegan Nalika Generative Adversarial Networks (GANs) mimiti nunjukkeun kamampuanna pikeun baranahan sacara stunningly realistis Beungeut 3D, Advent nyababkeun rurusuhan emas pikeun poténsi GAN anu henteu ditambang pikeun nyiptakeun pidéo anu konsisten sacara temporal anu nampilkeun wajah manusa.

Tempat di rohangan laten GAN, sigana aya kudu susunan jeung rasionalitas disumputkeun - skéma logika semantik nascent, dikubur dina kode laten, nu bakal ngidinan GAN ngahasilkeun sababaraha pintonan konsisten tur sababaraha interpretasi (saperti parobahan ekspresi) tina sarua nyanghareupan - teras nawiskeun metode pidéo deepfake anu ngayakinkeun samentawis anu bakal niup autoencoders kaluar tina cai.

Kaluaran résolusi luhur bakal teu pati penting, dibandingkeun sareng lingkungan résolusi rendah sapertos kumuh dimana konstrain GPU maksa DeepFaceLab sareng FaceSwap pikeun beroperasi, sedengkeun 'zona swap' hiji raray (dina alur kerja autoencoder) bakal janten 'zona ciptaan'. tina GAN, informed ku sakeupeul gambar input, atawa malah ngan hiji gambar tunggal.

Moal aya deui mismatch antara raray 'swap' jeung 'host', sabab entirety gambar bakal dihasilkeun ti scratch, kaasup bulu, jawlines, sarta extremities pangluarna tina lineaments raray, nu remen ngabuktikeun tangtangan pikeun 'tradisional' autoencoder deepfakes.

The GAN raray Video Winter

Sakumaha anu kajantenan, éta moal ampir gampang. Pamustunganana, panyabutan ngabuktikeun masalah sentral, sarta tetep tantangan primér. Kumaha anjeun tiasa ngajaga identitas raray anu béda, sareng ngarobih pose atanapi ekspresina tanpa ngahijikeun korpus rébu gambar rujukan anu ngajarkeun jaringan saraf naon anu lumangsung nalika parobihan ieu dilaksanakeun, cara anu dilakukeun ku sistem autoencoder?

Sabalikna, pamikiran saterasna dina panerapan raray GAN sareng panalungtikan sintésis nyaéta yén identitas input panginten tiasa dilakukeun tunduk kana teleologis, generik, citakan transformasi nu teu identitas-spésifik. Conto ieu nyaéta nerapkeun ekspresi kana raray GAN anu henteu aya dina gambar naon waé jalma anu terang GAN.

Tina makalah 2022 Édisi Émosi Berbasis Tensor dina StyleGAN Latent Space, éksprési témplat diterapkeun kana rupa input tina set data FFHQ. Sumber: https://arxiv.org/pdf/2205.06102.pdf

Éta atra yén pendekatan 'hiji ukuran pas sadayana' teu tiasa nutupan karagaman ekspresi raray anu unik pikeun hiji individu. Urang kedah heran naha seuri anu unik sapertos Jack Nicholson atanapi Willem Dafoe tiasa nampi interpretasi anu satia dina pangaruh kode laten 'ekspresi rata-rata' sapertos kitu.

Saha ieu muhrim Latin menawan? Sanaos metode GAN ngahasilkeun wajah anu langkung réalistis sareng résolusi anu langkung luhur, transformasi éta henteu diinformasikeun ku sababaraha gambar dunya nyata tina aktor, sapertos dina DeepFaceLab, anu ngalatih sacara éksténsif sareng sering dina sababaraha biaya dina pangkalan data rébuan. gambar sapertos. Di dieu (latar) model DeepFaceLab diimpor kana DeepFaceLive, palaksanaan streaming tina software populér tur kontroversial. Contona nyaéta tina https://www.youtube.com/watch?v=9tr35y-yQRY (2022) jeung https://arxiv.org/pdf/2205.06102.pdf.

Saha ieu muhrim Latin menawan? Sanaos metode GAN ngahasilkeun raray anu langkung 'realistis' sareng resolusi anu langkung luhur, transformasi henteu diinformasikeun ku sababaraha gambar dunya nyata aktor, sapertos dina DeepFaceLab, anu ngalatih sacara éksténsif dina pangkalan data rébuan gambar sapertos kitu, sarta akibatna kasaruaan ieu compromised. Di dieu (latar) model DeepFaceLab diimpor kana DeepFaceLive, palaksanaan streaming tina software populér tur kontroversial. Contona nyaéta tina https://www.youtube.com/watch?v=9tr35y-yQRY (2022) jeung https://arxiv.org/pdf/2205.06102.pdf.

Sajumlah éditor ekspresi wajah GAN parantos diteruskeun dina sababaraha taun ka pengker, kalolobaanana kaayaan identitas kanyahoan, dimana kasatiaan tina transformasi teu mungkin pikeun maca kasual uninga, saprak ieu raray teu wawuh.

Idéntitas anu teu jelas dirobih dina taun 2020 nawiskeun Cascade-EF-GAN. Sumber: https://arxiv.org/pdf/2003.05905.pdf

Bisa jadi redaktur raray GAN anu paling dipikaresep (jeung kutipan) dina tilu taun ka tukang téh InterfaceGAN, nu bisa ngalakukeun traversals spasi laten dina kode laten patali pose (sudut kaméra / beungeut), ekspresi, umur, ras, gender, sarta kualitas penting lianna.

Demo InterFaceGAN (CVPR 2020)

Watch this video on YouTube

Kamampuhan 'morphing' gaya 1980-an tina InterFaceGAN sareng kerangka anu sami mangrupikeun cara pikeun ngagambarkeun jalan ka arah transformasi nalika gambar diproyeksikan deui ngaliwatan kode laten anu cocog (sapertos 'umur'). Dina watesan ngahasilkeun footage video kalawan continuity temporal, schemes misalna nepi ka ayeuna geus mumpuni salaku 'bencana impressive'.

Upami anjeun nambihan kana éta kasusah nyieun bulu temporal-konsisten, jeung kanyataan yén téknik eksplorasi/manipulasi kode laten teu boga tungtunan temporal bawaan pikeun digawé (jeung hese nyaho kumaha carana nyuntik tungtunan misalna kana kerangka dirancang pikeun nampung jeung ngahasilkeun gambar tetep, sarta nu teu boga rezeki asli. Pikeun kaluaran video), bisa jadi logis mun nyimpulkeun yén GAN téh lain All You Need™ pikeun sintésis video raray.

Ku alatan éta, usaha saterusna geus yielded perbaikan incremental dina disentanglement, sedengkeun nu sejenna geus bolted on konvénsi séjén dina visi komputer salaku 'lapisan hidayah', kayaning pamakéan segmentation semantik salaku mékanisme kontrol dina ahir 2021. keretas SemanticStyleGAN: Diajar Compositional Generative Priors pikeun Sintésis Gambar Controllable jeung Editing.

Segmentasi semantik salaku padika instrumentalitas rohangan laten dina SemanticStyleGAN. Sumber: https://semanticstylegan.github.io/

Pituduh paramétrik

Komunitas panaliti sintésis raray GAN beuki ngarah kana panggunaan paramétrik CGI paramétrik 'tradisional' salaku padika pikeun nungtun sareng ngadamel tatanan kana kode laten anu pikaresepeun tapi henteu teratur dina rohangan laten GAN.

Padahal primitif raray parametrik geus pokok panalungtikan visi komputer pikeun leuwih dua puluh taun, minat kana pendekatan ieu geus tumuwuh lately, jeung ngaronjat pamakéan Skinned Multi-Person Linear Modél (SMPL) CGI primitif, pendekatan naratas ku Max Planck Institute na ILM, sarta saprak ningkat kana kalawan Sparse Dilatih Articulated Awak Awak Regressor (bentang) kerangka.

SMPL (dina hal ieu varian disebut SMPL-X) bisa maksakeun hiji CGI parametrik bolong nu saluyu jeung estimasi pose (kaasup éksprési, sakumaha perlu) sakabéh awak manusa diulas dina gambar, sahingga operasi anyar bisa dipigawé dina. gambar ngagunakeun bolong parametrik salaku pedoman volumetric atanapi perceptual. Sumber: https://arxiv.org/pdf/1904.05866.pdf

SMPL (dina hal ieu varian disebut SMPL-X) tiasa maksakeun bolong paramétrik CGI anu saluyu sareng perkiraan pose (kalebet éksprési, upami diperyogikeun) tina sakabéh awak manusa anu dipidangkeun dina gambar, ngamungkinkeun operasi énggal dilaksanakeun dina gambar nganggo bolong paramétrik salaku volumetrik atanapi perséptual. pituduh. Sumber: https://arxiv.org/pdf/1904.05866.pdf

Pangwangunan anu paling diaku dina garis ieu nyaéta Disney's 2019 Rendering kalawan Style inisiatif, nu melded pamakéan tékstur-peta tradisional jeung imagery GAN-dihasilkeun, dina usaha pikeun nyieun ningkat, 'deepfake-gaya' kaluaran animasi.

Old meets anyar, dina pendekatan hibrid Disney kana deepfakes GAN-generate. Sumber: https://www.youtube.com/watch?v=TwpLqTmvqVk

Pendekatan Disney maksakeun rupa-rupa CGI sacara tradisional kana jaringan StyleGAN2 pikeun 'nginpaint' subjék raray manusa dina 'wewengkon masalah', dimana konsistensi temporal mangrupikeun masalah pikeun ngahasilkeun pidéo - daérah sapertos tékstur kulit.

The Rendering kalawan gaya workflow.

Kusabab sirah CGI paramétrik anu nungtun prosés ieu tiasa dirobih sareng dirobih pikeun nyocogkeun ka pangguna, raray anu dibangkitkeun GAN tiasa ngagambarkeun parobihan éta, kalebet parobihan pose sareng ekspresi sirah.

Sanaos dirarancang pikeun ngawinkeun alat CGI sareng realisme alami wajah GAN, tungtungna, hasilna nunjukkeun anu paling awon tina dua dunya, sareng tetep gagal ngajaga tékstur rambut sareng posisi fitur dasar anu konsisten:

Jenis anyar lebak uncanny emerges ti Rendering kalawan Gaya, sanajan prinsipna masih nyepeng sababaraha poténsial.

nu 2020 keretas StyleRig: Rigging StyleGAN pikeun Control 3D leuwih Potrét Gambar nyokot pendekatan beuki populér, kalawan ngagunakeun model raray morphable tilu diménsi (3DMMs) salaku proxy pikeun ngarobah ciri dina lingkungan StyleGAN, dina hal ieu ngaliwatan jaringan rigging novel disebut RigNet:

3DMM nangtung salaku proxy pikeun interpretasi rohangan laten dina StyleRig. Sumber: https://arxiv.org/pdf/2004.00121.pdf

Nanging, sapertos biasa sareng inisiatif ieu, hasil dugi ka ayeuna sigana dugi ka manipulasi pose minimal, sareng ekspresi / pangaruh anu 'teu terang'.

StyleRig ningkat dina tingkat kontrol, sanajan buuk samentara konsisten tetep hiji tantangan nu teu kaungkab. Sumber: https://www.youtube.com/watch?v=eaW_P85wQ9k

Kaluaran anu sami tiasa dipendakan ti Mitsubishi Research's PALING-GAN, hiji 2021 keretas anu ngagunakeun 3DMM nonlinier salaku arsitéktur disentanglement, tapi ogé struggles pikeun ngahontal gerak dinamis sareng konsisten.

Panalungtikan panganyarna pikeun nyoba instrumentality na disentanglement nyaeta Reenactment raray One-Shot dina Megapixels, nu deui ngagunakeun huluna parametrik 3DMM salaku panganteur ramah pikeun StyleGAN.

Dina alur kerja MegaFR tina One-Shot Face Reenactment, jaringan ngalakukeun sintésis raray ku cara ngagabungkeun gambar dunya nyata anu terbalik sareng parameter anu dicandak tina modél 3DMM anu didamel. Sumber: https://arxiv.org/pdf/2205.13368.pdf

OSFR milik kelas GAN raray redaktur tumuwuh anu néangan ngamekarkeun Photoshop/After Effects-gaya ngedit workflows linier mana pamaké bisa input gambar nu dipikahoyong nu transformasi bisa dilarapkeun, tinimbang moro ngaliwatan spasi laten pikeun kode laten patali hiji identitas.

Kitu deui, éksprési paramétrik ngagambarkeun metode nyuntik éksprési anu lengkep sareng non-pribadi, ngarah kana manipulasi anu sigana 'aneh' sorangan, henteu salawasna positif.

Babasan nyuntik dina OSFR.

Sapertos padamelan sateuacana, OSFR tiasa nyimpulkeun pose anu caket-aslina tina hiji gambar, sareng ogé ngalaksanakeun 'frontalization', dimana gambar pose di luar pusat ditarjamahkeun kana mugshot:

Gambar mugshot asli (di luhur) sareng disimpulkeun tina salah sahiji palaksanaan OSFR anu diwincik dina kertas énggal.

Dina prakna, inferensi sapertos kitu sami sareng sababaraha prinsip fotogrammétri anu didasarkeun Neural Radiance Widang (NeRF), iwal géométri di dieu kudu dihartikeun ku poto tunggal, tinimbang sudut pandang 3-4 nu ngidinan NeRF napsirkeun pose interstitial leungit tur nyieun pamandangan 3D neural explorable nampilkeun manusa.

(Nanging, NeRF sanés Sadayana Anjeun Peryogikeun ™ ogé, sabab éta ampir set sagemblengna béda tina roadblocks ka GAN dina hal ngahasilkeun sintésis vidéo raray)

Naha GAN ngagaduhan Tempat dina Sintésis Video Raray?

Ngahontal ekspresi dinamis sareng out-of-distribution pose tina gambar sumber tunggal sigana janten obsesi sapertos alkimia dina panalungtikan sintésis raray GAN ayeuna, utamina kusabab GAN mangrupikeun hiji-hijina metode anu ayeuna tiasa ngahasilkeun résolusi anu cukup luhur sareng rélatif luhur- kasatiaan neural raray: sanajan autoencoder kerangka deepfake bisa ngalatih dina multitude of real-dunya pose jeung ekspresi, maranéhanana kudu beroperasi dina VRAM-diwatesan input / output resolusi, sarta merlukeun hiji 'host'; bari NeRF ieu ogé konstrain, sarta - kawas dua pendekatan sejenna - ayeuna teu boga metodologi ngadegkeun pikeun ngarobah ekspresi raray, sarta miboga editability kawates sacara umum.

Sigana hiji-hijina jalan maju pikeun sistem sintésis raray CGI/GAN anu akurat nyaéta pikeun inisiatif anyar pikeun milarian sababaraha cara pikeun ngarakit éntitas identitas multi-poto di jero rohangan laten, dimana kode laten pikeun identitas jalma henteu kedah ngarambat sapanjang rohangan laten pikeun ngamangpaatkeun parameter pose anu teu aya hubunganana, tapi tiasa ngarujuk kana gambar anu aya hubunganana (alam nyata) salaku rujukan pikeun transformasi.

Sanaos dina kasus sapertos kitu, atanapi upami sadayana jaringan StyleGAN dilatih dina set raray-identitas tunggal (sarupa sareng set pelatihan anu dianggo ku autoencoders), logika semantik anu kirang sigana masih kedah disayogikeun ku téknologi adjunct sapertos segmentation semantis atanapi raray 3DMM parametrik, nu, dina skenario kitu, sahenteuna bakal mibanda leuwih bahan pikeun digawekeun ku.

Topik nu patali:AI kacerdasan buatan hal nu husus Sukapura GAN Jaringan Adversarial Generatif mesin Learning

nepi salajengna

Papanggihan Utama Ti Laporan LXT "The ROI of High-Quality AI Training Data" Laporan

Ulah Cik

Téhnik AI Anyar Bisa Ngaronjatkeun Ramalan Wildfire

Martin Anderson

Panulis ngeunaan pembelajaran mesin, intelijen buatan sareng data ageung.
situs pribadi: martinanderson.ai
kontak: [email dijaga]
Twitter: @manders_ai