Kapcsolatba velünk

Mesterséges intelligencia

A „rossz hajú napok” kezelése az emberi képszintézisben

mm

A római szobrászat aranykora óta az emberi haj ábrázolása komoly kihívást jelent. Az átlagos emberi fej 100,000 XNUMX szálat tartalmaz, színétől függően változó törésmutatókkal rendelkezik, és egy bizonyos hosszon túl olyan módon mozog és reformálódik, amit csak szimulálni lehet. összetett fizikai modellek – a mai napig csak a „hagyományos” CGI módszertanon keresztül alkalmazható.

A Disney 2017-es kutatásából egy fizikán alapuló modell próbál valósághű mozgást alkalmazni egy gördülékeny frizurára egy CGI munkafolyamatban. Forrás: https://www.youtube.com/watch?v=-6iF3mufDW0

Tól től 2017. évi kutatás A Disney egy fizikán alapuló modellje valósághű mozgást próbál alkalmazni egy gördülékeny frizurára egy CGI munkafolyamatban. Forrás: https://www.youtube.com/watch?v=-6iF3mufDW0

A problémát a modern népszerű mélyhamisítási módszerek rosszul kezelik. Néhány éve a vezető csomag DeepFaceLab „teljes fejű” modellje volt, amely csak a rövid (általában férfi) frizurák merev megtestesüléseit képes rögzíteni; és nemrég a DFL istállótársa arccsere (mindkét csomag a vitatott 2017-es DeepFakes forráskódból származik) felajánlotta a BiseNet szemantikus szegmentációs modell, amely lehetővé teszi a felhasználó számára, hogy a füleket és a hajat belefoglalja a mélyhamisításba.

Még akkor is, ha nagyon rövid frizurákat ábrázol, az eredmény általában jó nagyon korlátozott minőségben, teljes fejjel a felvételekre rárakva, nem pedig beépítve.

GAN Haj

Az emberi szimuláció két fő versengő megközelítése a neurális sugárzási mező (Neur Radiance Fields)NeRF). és a generatív ellenséges hálózatok (Gans), amelyek jelentősen fejlettebbek az emberi képszintézis terén (nem utolsósorban azért, mert a NeRF csak 2020-ban jelent meg).

A NeRF 3D geometria kikövetkeztetett értelmezése lehetővé teszi, hogy nagy pontossággal és következetesen reprodukáljon egy jelenetet, még akkor is, ha jelenleg kevés vagy egyáltalán nincs mozgástere a fizikai modellek rákényszerítésére – és valójában viszonylag korlátozott lehetőségei vannak bármilyen átalakításnak az összegyűjtötten. olyan adatok, amelyek nem kapcsolódnak a kamera nézőpontjának megváltoztatásához. Jelenleg a NeRF rendelkezik nagyon korlátozott képességekkel az emberi hajmozgás reprodukálása szempontjából.

A NeRF GAN-alapú megfelelői szinte végzetes hátránnyal indulnak, mivel a NeRF-től eltérően a látens tér a GAN natív módon nem tartalmazza a 3D információ megértését. Ezért a 3D-tudatos GAN arckép-szintézis az elmúlt években a képgenerálási kutatások egyik leghíresebb elfoglaltságává vált, 2019. InterFaceGAN az egyik vezető áttörés.

Azonban még az InterFaceGAN bemutatott és cseresznyével összeválogatott eredményei is azt mutatják, hogy az idegi szőrzet konzisztenciája továbbra is komoly kihívást jelent az időbeli konzisztencia tekintetében a potenciális VFX munkafolyamatoknál:

„Zörgő” haj póz-átalakításban az InterFaceGAN-tól. Forrás: https://www.youtube.com/watch?v=uoftpl3Bj6w

„Zörgő” haj póz-átalakításban az InterFaceGAN-tól. Forrás: https://www.youtube.com/watch?v=uoftpl3Bj6w

Ahogy egyre nyilvánvalóbbá válik, hogy a konzisztens nézetalkotás önmagában a látens tér manipulációján keresztül alkímia-szerű törekvés lehet, egyre több olyan cikk jelenik meg, tartalmaznak CGI-alapú 3D információkat stabilizáló és normalizáló kényszerként egy GAN munkafolyamatba.

A CGI elemet köztes 3D primitívek képviselhetik, mint például a Nyúzott többszemélyes lineáris modell (SMPL), vagy 3D következtetési technikák alkalmazásával a NeRF-hez hasonló módon, ahol a geometriát a forrásképekből vagy videóból értékelik ki.

Egy új munka ezen a vonalon, a héten megjelent, Nem Többnézetű, konzisztens generatív ellenséges hálózatok a 3D-s képszintézishez (MVCGAN), a ReLER, az AAII, a Sydneyi Műszaki Egyetem, az Alibaba Group DAMO Akadémia és a Zhejiang Egyetem együttműködése.

Valószínű és robusztus új arcpózok, amelyeket az MVCGAN generált a CELEBA-HQ adatkészletből származó képeken. Forrás: https://arxiv.org/pdf/2204.06307.pdf

Valószínű és robusztus új arcpózok, amelyeket az MVCGAN generált a CELEBA-HQ adatkészletből származó képeken.  Forrás: https://arxiv.org/pdf/2204.06307.pdf

Az MVCGAN magában foglalja a generatív sugárzási térhálózat (GRAF), amely képes geometriai korlátokat biztosítani egy generatív ellenséges hálózatban, és vitathatatlanul eléri a leghitelesebb pózolási képességeket bármely hasonló GAN-alapú megközelítéshez képest.

Az MVCGAN és a korábbi GRAF, GIRAFFE és pi-GAN módszerek összehasonlítása.

Az MVCGAN és a korábbi GRAF, GIRAFFE és pi-GAN módszerek összehasonlítása.

Az MVCGAN kiegészítő anyaga azonban feltárja, hogy a haj térfogatának, elrendezésének, elhelyezésének és viselkedésének konzisztenciájának elérése olyan probléma, amelyet nem lehet könnyen megbirkózni a külsőleg meghatározott 3D geometrián alapuló korlátokkal.

A cikk írásakor nyilvánosan nem publikált kiegészítő anyagokból azt látjuk, hogy bár az MVCGAN arcpóz szintézise jelentős előrelépést jelent a technika jelenlegi állásához képest, az időbeli haj konzisztenciája továbbra is probléma.

A cikk írásakor nyilvánosan nem publikált kiegészítő anyagokból azt látjuk, hogy bár az MVCGAN arcpóz szintézise jelentős előrelépést jelent a technika jelenlegi állásához képest, az időbeli haj konzisztenciája továbbra is probléma.

Mivel az „egyszerű” CGI-munkafolyamatok még mindig ekkora kihívást jelentenek az időbeli hajrekonstrukciónak, nincs okunk azt hinni, hogy az ilyen jellegű hagyományos geometria-alapú megközelítések hamarosan konzisztens hajszintézist hoznak a látens térbe.

A haj stabilizálása konvolúciós neurális hálózatokkal

A svéd Chalmers Institute of Technology három kutatójának hamarosan megjelenő tanulmánya azonban további előrelépést jelenthet az idegi szőrszimulációban.

Bal oldalon a CNN által stabilizált hajábrázolás, jobb oldalon az alapigazság. A jobb felbontásért és további példákért tekintse meg a cikk végén beágyazott videót. Forrás: https://www.youtube.com/watch?v=AvnJkwCmsT4

Bal oldalon a CNN által stabilizált hajábrázolás, jobb oldalon az alapigazság. A jobb felbontásért és további példákért tekintse meg a cikk végén beágyazott videót. Forrás: https://www.youtube.com/watch?v=AvnJkwCmsT4

Címmel Valós idejű hajszűrés konvolúciós neurális hálózatokkal, a lap a i3D szimpózium május elején.

A rendszer egy autoencoder-alapú hálózatból áll, amely képes valós időben értékelni a hajfelbontást, beleértve az önárnyékolást és a hajvastagság figyelembevételét, korlátozott számú OpenGL geometriával beoltott sztochasztikus minta alapján.

A megközelítés korlátozott számú mintát jelenít meg sztochasztikus átlátszóság majd edzi a U-háló hogy rekonstruálja az eredeti képet.

Az MVCGAN alatt a CNN sztochasztikusan mintavételezett színtényezőket, kiemeléseket, érintőket, mélységet és alfakat szűr, és a szintetizált eredményeket összetett képpé állítja össze.

Az MVCGAN alatt a CNN sztochasztikusan mintavételezett színtényezőket, kiemeléseket, érintőket, mélységet és alfakat szűr, és a szintetizált eredményeket összetett képpé állítja össze.

A hálózatot PyTorch-en tanítják, és a hálózat mennyiségétől és a bemeneti funkciók számától függően hat-tizenkét órán keresztül konvergál. A betanított paraméterek (súlyok) ezután a rendszer valós idejű megvalósításában kerülnek felhasználásra.

Az edzésadatokat több száz kép renderelésével állítják elő egyenes és hullámos frizurákhoz, véletlenszerű távolságok és pózok, valamint változatos fényviszonyok felhasználásával.

Különféle példák a képzési inputra.

Különféle példák a képzési inputra.

A mintákon a haj áttetszőségét a szuperminta felbontású sztochasztikus átlátszósággal renderelt képekből átlagoljuk. Az eredeti, nagy felbontású adatok lemintavételezése a hálózati és hardveres korlátok figyelembevétele érdekében, majd később egy tipikus automatikus kódoló munkafolyamat során felmintavételezésre kerül.

A valós idejű következtetési alkalmazás (az „élő” szoftver, amely kihasználja a betanított modellből származó algoritmust) az NVIDIA CUDA, valamint a cuDNN és ​​az OpenGL keverékét alkalmazza. A kezdeti bemeneti jellemzők az OpenGL többmintás színpuffereibe kerülnek, és az eredményt a cuDNN tenzorokba söntik a CNN-ben való feldolgozás előtt. Ezeket a tenzorokat ezután visszamásolják egy „élő” OpenGL textúrába, hogy beillesszék a végső képbe.

A valós idejű rendszer NVIDIA RTX 2080-on működik, 1024×1024 pixeles felbontást produkálva.

Mivel a hajszín értékek teljesen elkülönülnek a hálózat által kapott végső értékektől, a hajszín megváltoztatása triviális feladat, bár az olyan effektusok, mint a színátmenetek és a csíkok, a jövőben is kihívást jelentenek.

A szerzők kiadták a dolgozat értékelései során használt kódot a GitLabnál. Nézze meg az MVCGAN kiegészítő videóját alább.

Valós idejű hajszűrés konvolúciós neurális hálózatokkal

Következtetés

Az autoencoder vagy GAN látens terében való navigálás még mindig inkább a vitorláshoz, mint a precíziós vezetéshez. Csak ebben a nagyon közelmúltban kezdünk hiteles eredményeket látni az „egyszerűbb” geometriák, például az arcok pózgenerálásában, olyan megközelítésekben, mint a NeRF, a GAN és a nem-deepfake (2017) autoencoder keretrendszerek.

Az emberi haj jelentős építészeti összetettsége, valamint a fizikai modellek és más olyan tulajdonságok beépítésének szükségessége, amelyekre a jelenlegi képszintézis-megközelítések nem rendelkeznek, azt jelzi, hogy a hajszintézis valószínűleg nem marad az általános arcszintézis integrált összetevője, de szükségessé válik. dedikált és különálló, némileg kifinomult hálózatok – még akkor is, ha az ilyen hálózatok végül beépülnek szélesebb és összetettebb arcszintézis keretrendszerekbe.

 

Első megjelenés: 15. április 2022.

Író a gépi tanulásról, az emberi képszintézis terület specialistája. A Metaphysic.ai kutatási tartalomért felelős vezetője volt.
Személyes oldal: Martinanderson.ai
Kapcsolat [e-mail védett]
Twitter: @manders_ai