Umetna inteligenca

Prestrukturiranje obrazov v videoposnetkih s strojnim učenjem

Posodobljeno on December 9, 2022

Raziskovalno sodelovanje med Kitajsko in Združenim kraljestvom je razvilo novo metodo za preoblikovanje obrazov v videu. Tehnika omogoča prepričljivo širjenje in ožanje strukture obraza, z visoko konsistenco in odsotnostjo artefaktov.

Iz YouTubovega videoposnetka, ki so ga raziskovalci uporabili kot izvorni material, se igralka Jennifer Lawrence zdi bolj vulgarna osebnost (desno). Oglejte si spremljajoči videoposnetek, vdelan na dnu članka, za veliko več primerov v boljši ločljivosti. Vir: https://www.youtube.com/watch?v=tA2BxvrKvjE

Iz YouTubovega videoposnetka, ki so ga raziskovalci uporabili kot izvorni material, je igralka Jennifer Lawrence videti bolj shujšana osebnost (desno). Oglejte si spremljajoči videoposnetek, vdelan na dnu članka, za veliko več primerov v boljši ločljivosti. Vir: https://www.youtube.com/watch?v=tA2BxvrKvjE

Tovrstna preobrazba je običajno mogoča samo s tradicionalnimi metodami CGI, ki bi morale v celoti poustvariti obraz s podrobnimi in dragimi postopki omejevanja gibanja, vpenjalne opreme in teksturiranja.

Namesto tega je tisto, kar je v tehniki CGI, integrirano v nevronski cevovod kot parametrične 3D informacije o obrazu, ki se nato uporabijo kot osnova za potek dela strojnega učenja.

Tradicionalni parametrični obrazi se vedno pogosteje uporabljajo kot smernice za transformativne procese, ki uporabljajo AI namesto CGI. Vir: https://arxiv.org/pdf/2205.02538.pdf

Avtorji navajajo:

'Naš cilj je ustvariti visokokakovostno preoblikovanje portretnega videa [rezultate] z urejanjem celotne oblike portretnih obrazov glede na naravno deformacijo obraza v resničnem svetu. To se lahko uporablja za aplikacije, kot je ustvarjanje oblikovanega obraza za beatifikacijo in pretiravanje obraza za vizualne učinke.'

Čeprav je 2D ukrivljanje obraza in popačenje na voljo uporabnikom že od pojava Photoshopa (in je povzročilo nenavadne in pogosto nesprejemljive subkulture okoli popačenja obraza in telesne dismorfije), je težko izvesti trik v videu brez uporabe CGI.

Razsežnosti Marka Zuckerberga so se razširile in ožile s kitajsko/britansko tehniko.

Obrazne dimenzije Marka Zuckerberga so se razširile in zožile z novo kitajsko/britansko tehniko.

Preoblikovanje telesa je trenutno področje intenzivno zanimanje v sektorju računalniškega vida, predvsem zaradi njegovega potenciala v modnem e-trgovini, čeprav je trenutno videti, da je nekdo višji ali okostno raznolik opazen izziv.

Podobno je bilo spreminjanje oblike glave v videoposnetkih na dosleden in prepričljiv način predhodno delo od raziskovalcev novega časopisa, čeprav je ta izvedba trpela zaradi artefaktov in drugih omejitev. Nova ponudba razširja zmogljivost te predhodne raziskave s statičnega na video izhod.

Novi sistem je bil naučen na namiznem računalniku z AMD Ryzen 9 3950X z 32 GB pomnilnika in uporablja algoritem optičnega toka iz OpenCV za zemljevide gibanja, zglajene z StructureFlow okvir; mreža za poravnavo obraza (FAN) komponenta za oceno mejnikov, ki se uporablja tudi v priljubljenih paketih deepfakes; in Ceres Solver za reševanje izzivov optimizacije.

Ekstremen primer razširitve obraza z novim sistemom.

O papirja je naslovljen Parametrično preoblikovanje portretov v videoposnetkih, prihaja pa od treh raziskovalcev z univerze Zhejiang in enega z univerze v Bathu.

O Face

Po novem sistemu se videoposnetek ekstrahira v zaporedje slik in za vsak obraz se najprej oceni tog položaj. Nato se skupaj oceni reprezentativno število naslednjih sličic, da se izdelajo dosledni parametri identitete vzdolž celotnega niza slik (tj. sličic videoposnetka).

Arhitekturni tok sistema za krivljenje obraza.

Po tem se izraz ovrednoti, kar prinese parameter preoblikovanja, ki se izvede z linearno regresijo. Naprej nova predznačena funkcija razdalje (SDF) pristop izdela gosto 2D preslikavo obraznih linij pred in po preoblikovanju.

Končno se na izhodnem videu izvede optimizacija zvijanja glede na vsebino.

Parametrični obrazi

Postopek vse pogosteje uporablja 3D Morphable Face Model (3DMM). popularen dodatekt do nevronskih sistemov in sistemov za sintezo obrazov, ki temeljijo na GAN-u, ter biti primerno za sisteme za odkrivanje globokih ponaredkov.

Ne s papirja, ampak primer 3D Morphable face Model (3DMM) – parametričnega prototipa obraza, uporabljenega v novem projektu. Zgoraj levo, orientacijska aplikacija na obrazu 3DMM. Zgoraj desno so oglišča 3D mreže izomap. Spodaj levo prikazuje prileganje mejnika; spodaj-sredina, izomap ekstrahirane teksture obraza; spodaj desno pa nastalo prileganje in oblika. Vir: http://www.ee.surrey.ac.uk/CVSSP/Publications/papers/Huber-VISAPP-2016.pdf

Ne iz novega dokumenta, ampak primer 3D Morphable face Model (3DMM) – parametričnega prototipa obraza, uporabljenega v novem projektu. Zgoraj levo, orientacijska aplikacija na obrazu 3DMM. Zgoraj desno so oglišča 3D mreže izomap. Spodaj levo prikazuje prileganje mejnika; spodaj-sredina, izomap ekstrahirane teksture obraza; spodaj desno pa nastalo prileganje in oblika. Vir: http://www.ee.surrey.ac.uk/CVSSP/Publications/papers/Huber-VISAPP-2016.pdf

Potek dela novega sistema mora upoštevati primere okluzije, kot je primer, ko subjekt pogleda stran. To je eden največjih izzivov pri programski opremi deepfake, saj imajo mejniki FAN malo zmožnosti za upoštevanje teh primerov in ponavadi slabšajo kakovost, ko se obraz obrne ali zakrije.

Novi sistem se lahko tej pasti izogne tako, da definira a konturna energija ki se lahko ujema z mejo med 3D obrazom (3DMM) in 2D obrazom (kot je določeno z orientacijskimi točkami FAN).

optimizacija

Koristna uvedba za tak sistem bi bila implementacija deformacije v realnem času, na primer v filtrih za video klepet. Trenutni okvir tega ne omogoča, potrebni računalniški viri pa bi deformacijo 'v živo' naredili pomemben izziv.

Glede na dokument in ob predpostavki cilja videoposnetka 24 sličic na sekundo operacije na sličico v cevovodu predstavljajo zakasnitev 16.344 sekunde za vsako sekundo posnetka, z dodatnimi enkratnimi zadetki za oceno identitete in 3D deformacijo obraza (321 ms oziroma 160 ms) .

Zato je optimizacija ključna za napredek pri zmanjševanju zakasnitve. Ker bi skupna optimizacija v vseh okvirjih procesu povzročila resne stroške in bi optimizacija v slogu inicializacije (ob predpostavki na dosledni kasnejši identiteti govorca iz prvega okvira) lahko povzročila anomalije, so avtorji sprejeli redko shemo za izračun koeficientov okvirjev, vzorčenih v praktičnih intervalih.

Na tej podmnožici okvirjev se nato izvede skupna optimizacija, kar vodi do vitkejšega procesa rekonstrukcije.

Ukrivljenost obraza

Tehnika zvijanja, uporabljena v projektu, je priredba avtorjevega dela iz leta 2020 Globoki oblikovani portreti (DSP).

Deep Shapely Portraits, predložitev leta 2020 ACM Multimedia. Članek vodijo raziskovalci iz skupnega laboratorija ZJU-Tencent Game and Intelligent Graphics Innovation Technology Joint Lab. Vir: http://www.cad.zju.edu.cn/home/jin/mm2020/demo.mp4

Avtorji opažajo 'To metodo razširimo s preoblikovanja ene monokularne slike na preoblikovanje celotnega zaporedja slik.'

Testi

Prispevek ugotavlja, da ni bilo primerljivega predhodnega materiala, na podlagi katerega bi ocenili novo metodo. Zato so avtorji primerjali okvirje svojega izkrivljenega video izhoda s statičnim izhodom DSP.

Preizkušanje novega sistema na statičnih slikah iz Deep Shapely Portraits.

Avtorji ugotavljajo, da so artefakti posledica metode DSP zaradi njene uporabe redkega preslikave – problem, ki ga novi okvir rešuje z gostim preslikavo. Poleg tega je video, ki ga je ustvaril DSP, trdi časopis, dokazuje, pomanjkanje gladkosti in vizualne skladnosti.

Avtorji navajajo:

"Rezultati kažejo, da lahko naš pristop robustno ustvari koherentne preoblikovane portretne videoposnetke, medtem ko lahko metoda, ki temelji na slikah, zlahka povzroči opazne utripajoče artefakte."

Za več primerov si oglejte priložen videoposnetek spodaj:

Parametrično preoblikovanje portretov v videoposnetkih - ACM MM 2021

Parametric Reshaping of Portraits in Videos - ACM MM 2021

Watch this video on YouTube

Prvič objavljeno 9. maja 2022. Spremenjeno ob 6 EET, zamenjano »polje« s »funkcijo« za SDF.

Up Next

Napetosti boja proti podnebnim spremembam z umetno inteligenco

Ne zamudite

Urejanje latentnega prostora GAN z 'blobs'

Martin Anderson

Pisec o strojnem učenju, umetni inteligenci in velikih podatkih.
Osebno spletno mesto: martinanderson.ai
Kontakt: [e-pošta zaščitena]
Twitter: @manders_ai

Unite.AI

Prestrukturiranje obrazov v videoposnetkih s strojnim učenjem

Umetna inteligenca