Umetna inteligenca
Prestrukturiranje obrazov v videoposnetkih s strojnim učenjem
Raziskovalno sodelovanje med Kitajsko in Združenim kraljestvom je razvilo novo metodo za preoblikovanje obrazov v videu. Tehnika omogoča prepričljivo širjenje in ožanje strukture obraza, z visoko konsistenco in odsotnostjo artefaktov.
Tovrstna preobrazba je običajno mogoča samo s tradicionalnimi metodami CGI, ki bi morale v celoti poustvariti obraz s podrobnimi in dragimi postopki omejevanja gibanja, vpenjalne opreme in teksturiranja.
Namesto tega je tisto, kar je v tehniki CGI, integrirano v nevronski cevovod kot parametrične 3D informacije o obrazu, ki se nato uporabijo kot osnova za potek dela strojnega učenja.
Avtorji navajajo:
'Naš cilj je ustvariti visokokakovostno preoblikovanje portretnega videa [rezultate] z urejanjem celotne oblike portretnih obrazov glede na naravno deformacijo obraza v resničnem svetu. To se lahko uporablja za aplikacije, kot je ustvarjanje oblikovanega obraza za beatifikacijo in pretiravanje obraza za vizualne učinke.'
Čeprav je 2D ukrivljanje obraza in popačenje na voljo uporabnikom že od pojava Photoshopa (in je povzročilo nenavadne in pogosto nesprejemljive subkulture okoli popačenja obraza in telesne dismorfije), je težko izvesti trik v videu brez uporabe CGI.
Preoblikovanje telesa je trenutno področje intenzivno zanimanje v sektorju računalniškega vida, predvsem zaradi njegovega potenciala v modnem e-trgovini, čeprav je trenutno videti, da je nekdo višji ali okostno raznolik opazen izziv.
Podobno je bilo spreminjanje oblike glave v videoposnetkih na dosleden in prepričljiv način predhodno delo od raziskovalcev novega časopisa, čeprav je ta izvedba trpela zaradi artefaktov in drugih omejitev. Nova ponudba razširja zmogljivost te predhodne raziskave s statičnega na video izhod.
Novi sistem je bil naučen na namiznem računalniku z AMD Ryzen 9 3950X z 32 GB pomnilnika in uporablja algoritem optičnega toka iz OpenCV za zemljevide gibanja, zglajene z StructureFlow okvir; mreža za poravnavo obraza (FAN) komponenta za oceno mejnikov, ki se uporablja tudi v priljubljenih paketih deepfakes; in Ceres Solver za reševanje izzivov optimizacije.
O papirja je naslovljen Parametrično preoblikovanje portretov v videoposnetkih, prihaja pa od treh raziskovalcev z univerze Zhejiang in enega z univerze v Bathu.
O Face
Po novem sistemu se videoposnetek ekstrahira v zaporedje slik in za vsak obraz se najprej oceni tog položaj. Nato se skupaj oceni reprezentativno število naslednjih sličic, da se izdelajo dosledni parametri identitete vzdolž celotnega niza slik (tj. sličic videoposnetka).
Po tem se izraz ovrednoti, kar prinese parameter preoblikovanja, ki se izvede z linearno regresijo. Naprej nova predznačena funkcija razdalje (SDF) pristop izdela gosto 2D preslikavo obraznih linij pred in po preoblikovanju.
Končno se na izhodnem videu izvede optimizacija zvijanja glede na vsebino.
Parametrični obrazi
Postopek vse pogosteje uporablja 3D Morphable Face Model (3DMM). popularen dodatekt do nevronskih sistemov in sistemov za sintezo obrazov, ki temeljijo na GAN-u, ter biti primerno za sisteme za odkrivanje globokih ponaredkov.
Potek dela novega sistema mora upoštevati primere okluzije, kot je primer, ko subjekt pogleda stran. To je eden največjih izzivov pri programski opremi deepfake, saj imajo mejniki FAN malo zmožnosti za upoštevanje teh primerov in ponavadi slabšajo kakovost, ko se obraz obrne ali zakrije.
Novi sistem se lahko tej pasti izogne tako, da definira a konturna energija ki se lahko ujema z mejo med 3D obrazom (3DMM) in 2D obrazom (kot je določeno z orientacijskimi točkami FAN).
optimizacija
Koristna uvedba za tak sistem bi bila implementacija deformacije v realnem času, na primer v filtrih za video klepet. Trenutni okvir tega ne omogoča, potrebni računalniški viri pa bi deformacijo 'v živo' naredili pomemben izziv.
Glede na dokument in ob predpostavki cilja videoposnetka 24 sličic na sekundo operacije na sličico v cevovodu predstavljajo zakasnitev 16.344 sekunde za vsako sekundo posnetka, z dodatnimi enkratnimi zadetki za oceno identitete in 3D deformacijo obraza (321 ms oziroma 160 ms) .
Zato je optimizacija ključna za napredek pri zmanjševanju zakasnitve. Ker bi skupna optimizacija v vseh okvirjih procesu povzročila resne stroške in bi optimizacija v slogu inicializacije (ob predpostavki na dosledni kasnejši identiteti govorca iz prvega okvira) lahko povzročila anomalije, so avtorji sprejeli redko shemo za izračun koeficientov okvirjev, vzorčenih v praktičnih intervalih.
Na tej podmnožici okvirjev se nato izvede skupna optimizacija, kar vodi do vitkejšega procesa rekonstrukcije.
Ukrivljenost obraza
Tehnika zvijanja, uporabljena v projektu, je priredba avtorjevega dela iz leta 2020 Globoki oblikovani portreti (DSP).
Avtorji opažajo 'To metodo razširimo s preoblikovanja ene monokularne slike na preoblikovanje celotnega zaporedja slik.'
Testi
Prispevek ugotavlja, da ni bilo primerljivega predhodnega materiala, na podlagi katerega bi ocenili novo metodo. Zato so avtorji primerjali okvirje svojega izkrivljenega video izhoda s statičnim izhodom DSP.
Avtorji ugotavljajo, da so artefakti posledica metode DSP zaradi njene uporabe redkega preslikave – problem, ki ga novi okvir rešuje z gostim preslikavo. Poleg tega je video, ki ga je ustvaril DSP, trdi časopis, dokazuje, pomanjkanje gladkosti in vizualne skladnosti.
Avtorji navajajo:
"Rezultati kažejo, da lahko naš pristop robustno ustvari koherentne preoblikovane portretne videoposnetke, medtem ko lahko metoda, ki temelji na slikah, zlahka povzroči opazne utripajoče artefakte."
Za več primerov si oglejte priložen videoposnetek spodaj:
Prvič objavljeno 9. maja 2022. Spremenjeno ob 6 EET, zamenjano »polje« s »funkcijo« za SDF.