Umjetna inteligencija

Restrukturiranje lica u videozapisima pomoću strojnog učenja

Objavljeno Svibanj 9, 2022

Ažurirano Prosinac 9, 2022

Martin Anderson

Istraživačka suradnja između Kine i Ujedinjenog Kraljevstva osmislila je novu metodu za preoblikovanje lica u videu. Tehnika omogućuje uvjerljivo širenje i sužavanje strukture lica, uz visoku postojanost i odsutnost artefakata.

Iz YouTube videa koji su istraživači koristili kao izvorni materijal, glumica Jennifer Lawrence pojavljuje se kao vulpina osobnost (desno). Pogledajte popratni video ugrađen na dnu članka za mnogo više primjera u boljoj razlučivosti. Izvor: https://www.youtube.com/watch?v=tA2BxvrKvjE

Iz YouTube videa koji su istraživači koristili kao izvorni materijal, glumica Jennifer Lawrence pojavljuje se kao mršavija osobnost (desno). Pogledajte popratni video ugrađen na dnu članka za mnogo više primjera u boljoj razlučivosti. Izvor: https://www.youtube.com/watch?v=tA2BxvrKvjE

Ova vrsta transformacije obično je moguća samo tradicionalnim CGI metodama koje bi trebale u potpunosti rekreirati lice putem detaljnih i skupih postupaka ograničavanja pokreta, postavljanja i teksturiranja.

Umjesto toga, ono što CGI postoji u tehnici integrirano je u neuralni cjevovod kao parametarske 3D informacije o licu koje se kasnije koriste kao osnova za tijek rada strojnog učenja.

Tradicionalna parametarska lica sve se više koriste kao smjernice za transformativne procese koji koriste AI umjesto CGI. Izvor: https://arxiv.org/pdf/2205.02538.pdf

Autori navode:

'Naš je cilj generirati visokokvalitetno preoblikovanje portretnog videa [rezultate] uređivanjem ukupnog oblika portretnih lica u skladu s prirodnom deformacijom lica u stvarnom svijetu. Ovo se može koristiti za aplikacije kao što je stvaranje lijepog lica za beatifikaciju i pretjerivanje lica za vizualne efekte.'

Iako je 2D iskrivljenje lica i izobličenje dostupno potrošačima od pojave Photoshopa (i dovelo je do čudnih i često neprihvatljivih sub-kulture oko iskrivljenja lica i tjelesne dismorfije), to je trik koji je teško izvesti u videu bez korištenja CGI-ja.

Kinesko/britanskom tehnikom proširene i sužene dimenzije Marka Zuckerberga.

Dimenzije lica Marka Zuckerberga proširene su i sužene novom kinesko/britanskom tehnikom.

Preoblikovanje tijela trenutno je polje intenzivan interes u sektoru računalnog vida, uglavnom zbog njegovog potencijala u modnoj e-trgovini, iako je trenutačno natjerati nekoga da izgleda viši ili kosturno raznolik značajan izazov.

Isto tako, mijenjanje oblika glave u video snimkama na dosljedan i uvjerljiv način bilo je predmetom prethodni rad od istraživača novog rada, iako je ta implementacija patila od artefakata i drugih ograničenja. Nova ponuda proširuje mogućnost tog prethodnog istraživanja sa statičnog na video izlaz.

Novi sustav je treniran na stolnom računalu s AMD Ryzen 9 3950X s 32 GB memorije i koristi algoritam optičkog protoka iz OpenCV za karte kretanja, izglađene pomoću StructureFlow okvir; mreža za poravnavanje lica (FAN) komponenta za procjenu znamenitosti, koja se također koristi u popularnim deepfakes paketima; i Ceres Solver za rješavanje izazova optimizacije.

Ekstremni primjer proširenja lica novim sustavom.

The papir naslovljen je Parametarsko preoblikovanje portreta u videozapisima, a dolazi od tri istraživača sa Sveučilišta Zhejiang i jednog sa Sveučilišta u Bathu.

O licu

Prema novom sustavu, video se izdvaja u niz slika, a za svako lice se prvo procjenjuje kruta poza. Zatim se zajednički procjenjuje reprezentativni broj sljedećih okvira kako bi se konstruirali dosljedni parametri identiteta duž cijelog niza slika (tj. okvira videa).

Arhitektonski tok sustava za krivljenje lica.

Nakon toga, izraz se procjenjuje, dajući parametar preoblikovanja koji se implementira linearnom regresijom. Sljedeća nova funkcija udaljenosti s predznakom (SOR) pristup konstruira gusto 2D mapiranje linija lica prije i nakon preoblikovanja.

Konačno, na izlaznom videu izvodi se optimizacija savijanja svjesna sadržaja.

Parametarska lica

Proces sve više koristi 3D Morphable Face Model (3DMM). popularni dodatakt neuralnim sustavima i sustavima sinteze lica temeljenim na GAN-u, kao i biti primjenjivo za sustave detekcije deepfakea.

Ne s papira, već primjer 3D Morphable face Model (3DMM) – parametarskog prototipa lica korištenog u novom projektu. Gore lijevo, aplikacija orijentir na 3DMM licu. Gore desno, vrhovi 3D mreže izomap. Dolje lijevo prikazuje postavljanje orijentira; dno-sredina, izomap izdvojene teksture lica; i dolje desno, rezultirajuće pristajanje i oblik. Izvor: http://www.ee.surrey.ac.uk/CVSSP/Publications/papers/Huber-VISAPP-2016.pdf

Ne iz novog rada, već primjer 3D Morphable face Model (3DMM) – parametarskog prototipa lica korištenog u novom projektu. Gore lijevo, aplikacija orijentir na 3DMM licu. Gore desno, vrhovi 3D mreže izomap. Dolje lijevo prikazuje postavljanje orijentira; dno-sredina, izomap izdvojene teksture lica; i dolje desno, rezultirajuće pristajanje i oblik. Izvor: http://www.ee.surrey.ac.uk/CVSSP/Publications/papers/Huber-VISAPP-2016.pdf

Tijek rada novog sustava mora uzeti u obzir slučajeve okluzije, kao što je slučaj kada subjekt skrene pogled. Ovo je jedan od najvećih izazova u softveru deepfake, budući da FAN orijentirne oznake imaju malo kapaciteta da uzmu u obzir te slučajeve i imaju tendenciju pada kvalitete kako se lice odvraća ili zaklanja.

Novi sustav može izbjeći ovu zamku definiranjem a konturna energija koji je sposoban uskladiti granicu između 3D lica (3DMM) i 2D lica (kao što je definirano FAN orijentirima).

Optimizacija

Korisna implementacija za takav sustav bila bi implementacija deformacije u stvarnom vremenu, na primjer u filtrima video-chata. Sadašnji okvir to ne omogućuje, a potrebni računalni resursi učinili bi 'živu' deformaciju značajnim izazovom.

Prema dokumentu, i uz pretpostavku ciljanog video zapisa od 24fps, operacije po kadru u cjevovodu predstavljaju latenciju od 16.344 sekunde za svaku sekundu snimke, s dodatnim jednokratnim pogocima za procjenu identiteta i 3D deformaciju lica (321ms odnosno 160ms) .

Stoga je optimizacija ključna za napredak prema smanjenju latencije. Budući da bi zajednička optimizacija u svim okvirima dodala ozbiljne troškove procesu, a optimizacija init stila (pretpostavljajući dosljedan naknadni identitet govornika iz prvog okvira) mogla bi dovesti do anomalija, autori su usvojili rijetku shemu za izračun koeficijenata okvira uzorkovanih u praktičnim intervalima.

Zajednička optimizacija se zatim izvodi na ovom podskupu okvira, što dovodi do manjeg procesa rekonstrukcije.

Iskrivljenje lica

Tehnika savijanja korištena u projektu adaptacija je rada autora iz 2020 Duboki oblikovani portreti (DSP).

Deep Shapely Portraits, prijava za ACM Multimedia za 2020. Rad vode istraživači iz ZJU-Tencent Game and Intelligent Graphics Innovation Technology Joint Lab. Izvor: http://www.cad.zju.edu.cn/home/jin/mm2020/demo.mp4

Autori primjećuju 'Proširujemo ovu metodu s preoblikovanja jedne monokularne slike na preoblikovanje cijele sekvence slika.'

Testovi

Rad primjećuje da nije bilo usporedivog prethodnog materijala prema kojem bi se mogla procijeniti nova metoda. Stoga su autori usporedili okvire svog iskrivljenog video izlaza sa statičnim DSP izlazom.

Testiranje novog sustava protiv statičnih slika iz Deep Shapely Portraits.

Autori primjećuju da su artefakti rezultat DSP metode, zbog njezine upotrebe rijetkog preslikavanja – problem koji novi okvir rješava gustim preslikavanjem. Dodatno, video koji je proizveo DSP, tvrdi list, pokazuje nedostatak glatkoće i vizualne koherentnosti.

Autori navode:

'Rezultati pokazuju da naš pristup može robusno proizvesti koherentne preoblikovane portretne videozapise dok metoda temeljena na slikama može lako dovesti do primjetnih artefakata titranja.'

Za više primjera pogledajte popratni videozapis u nastavku:

Parametarsko preoblikovanje portreta u videozapisima - ACM MM 2021

Parametric Reshaping of Portraits in Videos - ACM MM 2021

Watch this video on YouTube

Prvi put objavljeno 9. svibnja 2022. Izmijenjeno u 6:XNUMX EET, zamijenjeno 'polje' s 'funkcija' za SDF.

Sljedeći

Napetost borbe protiv klimatskih promjena pomoću umjetne inteligencije

Ne propustite

Uređivanje latentnog prostora GAN-a pomoću 'mrljica'