cung Trajtimi i 'ditëve të këqija të flokëve' në sintezën e imazhit njerëzor - Unite.AI
Lidhu me ne

Inteligjenca artificiale

Trajtimi i 'ditëve të këqija të flokëve' në sintezën e imazhit njerëzor

mm
Përditësuar on

Që nga epoka e artë e statujës romake, përshkrimi i flokëve të njeriut ka qenë një sfidë e vështirë. Koka mesatare e njeriut përmban 100,000 fije, ka indekse thyese të ndryshme sipas ngjyrës së saj dhe, përtej një gjatësi të caktuar, do të lëvizë dhe do të reformohet në mënyra që mund të simulohen vetëm nga modele komplekse të fizikës – deri më sot, zbatohet vetëm nëpërmjet metodologjive 'tradicionale' CGI.

Nga hulumtimi i vitit 2017 nga Disney, një model i bazuar në fizikë përpiqet të zbatojë lëvizje realiste në një stil flokësh të lëngshëm në një rrjedhë pune CGI. Burimi: https://www.youtube.com/watch?v=-6iF3mufDW0

nga Hulumtimi i vitit 2017 nga Disney, një model i bazuar në fizikë përpiqet të zbatojë lëvizje realiste në një stil flokësh të lëngshëm në një rrjedhë pune CGI. Burimi: https://www.youtube.com/watch?v=-6iF3mufDW0

Problemi është adresuar keq nga metodat moderne të famshme të falsifikimit. Për disa vite, paketa kryesore DeepFaceLab ka pasur një model me 'kokë të plotë' i cili mund të kapë vetëm mishërime të ngurtë të modeleve të flokëve të shkurtra (zakonisht mashkullore); dhe së fundmi DFL stablemate Shkarkimi i fytyrës (të dyja paketat rrjedhin nga kodi burimor i diskutueshëm i 2017 DeepFakes) ka ofruar një zbatim të BiseNet modeli i segmentimit semantik, i cili lejon një përdorues të përfshijë veshët dhe flokët në daljen e falsifikimit të thellë.

Edhe kur përshkruani modele flokësh shumë të shkurtër, rezultatet priren të jenë shumë i kufizuar në cilësi, me kokat e plota që shfaqen të mbivendosura në filmim, në vend që të integrohen në të.

GAN Flokët

Dy qasjet kryesore konkurruese ndaj simulimit njerëzor janë Fushat e rrezatimit nervor (NeRF), të cilat mund të kapin një skenë nga këndvështrime të shumta dhe të përmbledhin një paraqitje 3D të këtyre këndvështrimeve në një rrjet nervor të eksplorueshëm; dhe Rrjetet kundërshtare gjeneruese (GAN-et), të cilat janë dukshëm më të avancuara për sa i përket sintezës së imazhit njerëzor (jo më pak sepse NeRF u shfaq vetëm në 2020).

Kuptimi i konkluduar i gjeometrisë 3D nga NeRF i mundëson atij të përsërisë një skenë me besnikëri dhe konsistencë të madhe, edhe nëse aktualisht ka pak ose aspak hapësirë ​​për imponimin e modeleve të fizikës - dhe, në fakt, hapësirë ​​relativisht e kufizuar për çdo lloj transformimi në të mbledhurit. të dhëna që nuk kanë të bëjnë me ndryshimin e këndvështrimit të kamerës. Aktualisht, NeRF ka aftësi shumë të kufizuara për sa i përket riprodhimit të lëvizjes së flokëve të njeriut.

Ekuivalentët e bazuar në GAN me NeRF fillojnë me një disavantazh pothuajse fatal, pasi, ndryshe nga NeRF, hapësirë ​​latente i një GAN nuk përfshin në mënyrë origjinale një kuptim të informacionit 3D. Prandaj, sinteza e imazhit të fytyrës GAN me vetëdije 3D është bërë një kërkim i nxehtë në kërkimin e gjenerimit të imazheve në vitet e fundit, me 2019 InterFaceGAN një nga përparimet kryesore.

Sidoqoftë, edhe rezultatet e shfaqura dhe të zgjedhura nga InterFaceGAN tregojnë se qëndrueshmëria e flokëve nervore mbetet një sfidë e vështirë për sa i përket qëndrueshmërisë së përkohshme, për rrjedhat e mundshme të punës VFX:

Flokët 'lëmshëm' në një transformim poze nga InterFaceGAN. Burimi: https://www.youtube.com/watch?v=uoftpl3Bj6w

Flokët 'lëmshëm' në një transformim poze nga InterFaceGAN. Burimi: https://www.youtube.com/watch?v=uoftpl3Bj6w

Ndërsa bëhet më e qartë se gjenerimi i qëndrueshëm i pamjes përmes manipulimit vetëm të hapësirës latente mund të jetë një ndjekje e ngjashme me alkiminë, po shfaqen një numër në rritje i punimeve që inkorporoni informacion 3D të bazuar në CGI në një rrjedhë pune GAN si një kufizim stabilizues dhe normalizues.

Elementi CGI mund të përfaqësohet nga primitivë të ndërmjetëm 3D si p.sh Modeli linear me shumë persona me lëkurë (SMPL), ose duke adoptuar teknika konkluzionesh 3D në një mënyrë të ngjashme me NeRF, ku gjeometria vlerësohet nga imazhet ose videot burimore.

Një punë e re në këtë drejtim, lëshuar këtë javë, Është Rrjetet kundërshtare gjeneruese konsistente me shumë pamje për sintezën e imazhit të vetëdijshëm për 3D (MVCGAN), një bashkëpunim midis ReLER, AAII, University of Technology Sydney, Akademisë DAMO në Alibaba Group dhe Universitetit Zhejiang.

Poza të reja të besueshme dhe të fuqishme të fytyrës të krijuara nga MVCGAN në imazhet e nxjerra nga grupi i të dhënave CELEBA-HQ. Burimi: https://arxiv.org/pdf/2204.06307.pdf

Poza të reja të besueshme dhe të fuqishme të fytyrës të krijuara nga MVCGAN në imazhet e nxjerra nga grupi i të dhënave CELEBA-HQ.  Burimi: https://arxiv.org/pdf/2204.06307.pdf

MVCGAN përfshin a rrjeti i fushës së rrezatimit gjenerues (GRAF) i aftë për të ofruar kufizime gjeometrike në një Rrjet Kundërshtar Gjenerativ, duke arritur ndoshta disa nga aftësitë më autentike të paraqitjes së çdo qasjeje të ngjashme të bazuar në GAN.

Krahasimi midis MVCGAN dhe metodave të mëparshme GRAF, GIRAFFE dhe pi-GAN.

Krahasimi midis MVCGAN dhe metodave të mëparshme GRAF, GIRAFFE dhe pi-GAN.

Megjithatë, materiali plotësues për MVCGAN zbulon se marrja e vëllimit, disponimit, vendosjes dhe konsistencës së sjelljes së flokëve është një problem që nuk trajtohet lehtësisht përmes kufizimeve të bazuara në gjeometrinë 3D të imponuar nga jashtë.

Nga materiali shtesë që nuk u publikua publikisht në kohën e shkrimit, ne shohim se ndërsa sinteza e pozave të fytyrës nga MVCGAN përfaqëson një përparim të dukshëm në gjendjen aktuale të artit, qëndrueshmëria e përkohshme e flokëve mbetet një problem.

Nga materiali shtesë që nuk u publikua publikisht në kohën e shkrimit, ne shohim se ndërsa sinteza e pozave të fytyrës nga MVCGAN përfaqëson një përparim të dukshëm në gjendjen aktuale të artit, qëndrueshmëria e përkohshme e flokëve mbetet një problem.

Meqenëse flukset e punës 'të drejtpërdrejta' të CGI e shohin ende një sfidë të tillë rindërtimin e përkohshëm të flokëve, nuk ka asnjë arsye për të besuar se qasjet konvencionale të bazuara në gjeometri të kësaj natyre do të sjellin sintezë të qëndrueshme të flokëve në hapësirën latente në çdo kohë së shpejti.

Stabilizimi i flokëve me rrjete nervore konvolucionale

Megjithatë, një punim i ardhshëm nga tre studiues në Institutin e Teknologjisë Chalmers në Suedi mund të ofrojë një përparim shtesë në simulimin e qimeve nervore.

Në të majtë, përfaqësimi i flokëve të stabilizuar nga CNN, në të djathtë, e vërteta në terren. Shikoni videon e ngulitur në fund të artikullit për zgjidhje më të mirë dhe shembuj shtesë. Burimi: https://www.youtube.com/watch?v=AvnJkwCmsT4

Në të majtë, përfaqësimi i flokëve të stabilizuar nga CNN, në të djathtë, e vërteta në terren. Shikoni videon e ngulitur në fund të artikullit për zgjidhje më të mirë dhe shembuj shtesë. Burimi: https://www.youtube.com/watch?v=AvnJkwCmsT4

me titull Filtrim i flokëve në kohë reale me rrjete nervore konvolucionale, punimi do të publikohet për simpozium i3D në fillim të majit.

Sistemi përbëhet nga një rrjet i bazuar në autoenkoder, i aftë për të vlerësuar rezolucionin e flokëve, duke përfshirë vetëhijen dhe duke marrë parasysh trashësinë e flokëve, në kohë reale, bazuar në një numër të kufizuar mostrash stokastike të mbjella nga gjeometria OpenGL.

Qasja jep një numër të kufizuar mostrash me transparenca stokastike dhe më pas stërvit a U-net për të rindërtuar imazhin origjinal.

Nën MVCGAN, një CNN filtron faktorët e ngjyrave, pikat kryesore, tangjentet, thellësinë dhe alfat e mostruar në mënyrë stokastike, duke mbledhur rezultatet e sintetizuara në një imazh të përbërë.

Nën MVCGAN, një CNN filtron faktorët e ngjyrave, pikat kryesore, tangjentet, thellësinë dhe alfat e mostruar në mënyrë stokastike, duke mbledhur rezultatet e sintetizuara në një imazh të përbërë.

Rrjeti është trajnuar në PyTorch, duke konverguar gjatë një periudhe prej gjashtë deri në dymbëdhjetë orë, në varësi të vëllimit të rrjetit dhe numrit të veçorive të hyrjes. Parametrat e trajnuar (peshat) përdoren më pas në zbatimin në kohë reale të sistemit.

Të dhënat e stërvitjes krijohen duke dhënë disa qindra imazhe për modele flokësh të drejtë dhe me onde, duke përdorur distanca dhe poza të rastësishme, si dhe kushte të ndryshme ndriçimi.

Shembuj të ndryshëm të kontributit të trajnimit.

Shembuj të ndryshëm të kontributit të trajnimit.

Translucenca e flokëve nëpër kampione është mesatarisht nga imazhet e paraqitura me transparencë stokastike në rezolucion të mbikampionuar. Të dhënat origjinale me rezolucion të lartë zvogëlohen për të përshtatur kufijtë e rrjetit dhe harduerit, dhe më vonë kopjohen, në një rrjedhë pune tipike të kodifikuesit automatik.

Aplikacioni i konkluzionit në kohë reale (softueri 'live' që përdor algoritmin e nxjerrë nga modeli i trajnuar) përdor një përzierje të NVIDIA CUDA me cuDNN dhe OpenGL. Veçoritë fillestare të hyrjes hidhen në tamponat e ngjyrave me shumë mostra OpenGL dhe rezultati kalohet në tensorët cuDNN përpara se të përpunohet në CNN. Ata tensorë kopjohen më pas në një teksturë 'live' OpenGL për t'u vendosur në imazhin përfundimtar.

Sistemi në kohë reale funksionon në një NVIDIA RTX 2080, duke prodhuar një rezolucion prej 1024×1024 piksele.

Meqenëse vlerat e ngjyrës së flokëve janë tërësisht të ndara në vlerat përfundimtare të marra nga rrjeti, ndryshimi i ngjyrës së flokëve është një detyrë e parëndësishme, megjithëse efekte të tilla si gradientët dhe vijat mbeten një sfidë e ardhshme.

Autorët kanë publikuar kodin e përdorur në vlerësimet e punimit në GitLab. Shikoni videon plotësuese për MVCGAN më poshtë.

Filtrim i flokëve në kohë reale me rrjete nervore konvolucionale

Përfundim

Lundrimi në hapësirën latente të një autoenkoderi ose GAN është akoma më shumë i ngjashëm me lundrimin sesa me vozitje me saktësi. Vetëm në këtë periudhë shumë të fundit kemi filluar të shohim rezultate të besueshme për gjenerimin e pozave të gjeometrisë "më të thjeshtë" siç janë fytyrat, në qasje të tilla si NeRF, GANs dhe kornizat autoencoder jo-deepfake (2017).

Kompleksiteti i rëndësishëm arkitektonik i flokëve të njeriut, i kombinuar me nevojën për të inkorporuar modele fizike dhe tipare të tjera për të cilat qasjet aktuale të sintezës së imazhit nuk kanë asnjë parashikim, tregon se sinteza e flokëve nuk ka gjasa të mbetet një komponent i integruar në sintezën e përgjithshme të fytyrës, por do të kërkojë rrjete të dedikuara dhe të veçanta të njëfarë sofistikimi – edhe nëse rrjete të tilla përfundimisht mund të përfshihen në korniza më të gjera dhe më komplekse të sintezës së fytyrës.

 

Botuar për herë të parë më 15 prill 2022.

Shkrimtar për mësimin e makinerive, inteligjencën artificiale dhe të dhënat e mëdha.
Faqja personale: martinanderson.ai
Kontaktoni: [email mbrojtur]
Twitter: @manders_ai