Kunstig intelligens

Restrukturering av ansikter i videoer med maskinlæring

oppdatert on Desember 9, 2022

Et forskningssamarbeid mellom Kina og Storbritannia har utviklet en ny metode for å omforme ansikter i video. Teknikken tillater overbevisende utvidelse og innsnevring av ansiktsstrukturen, med høy konsistens og fravær av artefakter.

Fra en YouTube-video brukt som kildemateriale av forskerne, fremstår skuespillerinnen Jennifer Lawrence som en mer vulpin personlighet (til høyre). Se den medfølgende videoen som er innebygd nederst i artikkelen for mange flere eksempler med bedre oppløsning. Kilde: https://www.youtube.com/watch?v=tA2BxvrKvjE

Fra en YouTube-video brukt som kildemateriale av forskerne, fremstår skuespillerinnen Jennifer Lawrence som en mer mager personlighet (til høyre). Se den medfølgende videoen som er innebygd nederst i artikkelen for mange flere eksempler med bedre oppløsning. Kilde: https://www.youtube.com/watch?v=tA2BxvrKvjE

Denne typen transformasjon er vanligvis bare mulig gjennom tradisjonelle CGI-metoder som ville trenge å gjenskape ansiktet fullstendig via detaljerte og kostbare motion-capping-, rigging- og tekstureringsprosedyrer.

I stedet er det CGI som finnes i teknikken integrert i en nevral pipeline som parametrisk 3D-ansiktsinformasjon som senere brukes som grunnlag for en maskinlæringsarbeidsflyt.

Tradisjonelle parametriske ansikter blir i økende grad brukt som retningslinjer for transformative prosesser som bruker AI i stedet for CGI. Kilde: https://arxiv.org/pdf/2205.02538.pdf

Forfatterne sier:

'Vårt mål er å generere høykvalitets portrettvideo-omforming [resultater] ved å redigere den generelle formen på portrettflatene i henhold til naturlig ansiktsdeformasjon i den virkelige verden. Dette kan brukes til applikasjoner som formskapende ansiktsgenerering for saligkåring, og ansiktsoverdrivelse for visuelle effekter.'

Selv om 2D ansiktsforvrengning og forvrengning har vært tilgjengelig for forbrukere siden bruken av Photoshop (og har ført til merkelige og ofte uakseptable subkulturer rundt ansiktsforvrengning og kroppsdysmorfi), er det et tøft triks å gjøre i video uten å bruke CGI.

Mark Zuckerbergs dimensjoner utvidet og innsnevret av den kinesisk/britiske teknikken.

Mark Zuckerbergs ansiktsdimensjoner utvidet og innsnevret av den nye kinesisk/britiske teknikken.

Kroppsomforming er for tiden et felt av intens interesse i datasynssektoren, hovedsakelig på grunn av potensialet i mote-e-handel, selv om det for øyeblikket er en bemerkelsesverdig utfordring.

På samme måte har det vært gjenstand for å endre formen på et hode i videoopptak på en konsekvent og overbevisende måte. tidligere arbeid fra den nye artikkelens forskere, selv om implementeringen led av artefakter og andre begrensninger. Det nye tilbudet utvider muligheten til tidligere forskning fra statisk til videoutgang.

Det nye systemet ble trent på en stasjonær PC med en AMD Ryzen 9 3950X med 32 GB minne, og bruker en optisk flytalgoritme fra OpenCV for bevegelseskart, jevnet ut av StrukturFlow rammeverk; Facial Alignment Network (FAN) komponent for landemerkestimering, som også brukes i de populære deepfakes-pakkene; og Ceres Solver for å løse optimaliseringsutfordringer.

Et ekstremt eksempel på ansiktsutvidelse med det nye systemet.

De papir har tittelen Parametrisk omforming av portretter i videoer, og kommer fra tre forskere ved Zhejiang University, og en fra University of Bath.

Om ansiktet

Under det nye systemet trekkes videoen ut til en bildesekvens, og en stiv positur estimeres først for hvert ansikt. Deretter estimeres et representativt antall påfølgende bilder i fellesskap for å konstruere konsistente identitetsparametere langs hele bildeserien (dvs. rammene til videoen).

Arkitektonisk flyt av ansiktsformingssystemet.

Etter dette blir uttrykket evaluert, noe som gir en omformingsparameter som implementeres ved lineær regresjon. Neste en ny signert avstandsfunksjon (SDF)-tilnærmingen konstruerer en tett 2D-kartlegging av ansiktslinjene før og etter omforming.

Til slutt utføres en innholdsbevisst vridningsoptimalisering på utgangsvideoen.

Parametriske ansikter

Prosessen bruker en 3D Morphable Face Model (3DMM), i økende grad populært tilleggt til nevrale og GAN-baserte ansiktssyntesesystemer, samt være aktuelt for deepfake-deteksjonssystemer.

Ikke fra papiret, men et eksempel på en 3D Morphable Face Model (3DMM) – et parametrisk prototype ansikt brukt i det nye prosjektet. Øverst til venstre, landemerkeapplikasjon på et 3DMM-ansikt. Øverst til høyre, 3D-nettpunktene til en isomart. Nederst til venstre viser landemerkebeslag; bunn-midten, et isomat av den ekstraherte ansiktsteksturen; og nederst til høyre, en resulterende passform og form. Kilde: http://www.ee.surrey.ac.uk/CVSSP/Publications/papers/Huber-VISAPP-2016.pdf

Ikke fra det nye papiret, men et eksempel på en 3D Morphable Face Model (3DMM) – et parametrisk prototype ansikt brukt i det nye prosjektet. Øverst til venstre, landemerkeapplikasjon på et 3DMM-ansikt. Øverst til høyre, 3D-nettpunktene til en isomart. Nederst til venstre viser landemerkebeslag; bunn-midten, et isomat av den ekstraherte ansiktsteksturen; og nederst til høyre, en resulterende passform og form. Kilde: http://www.ee.surrey.ac.uk/CVSSP/Publications/papers/Huber-VISAPP-2016.pdf

Arbeidsflyten til det nye systemet må vurdere tilfeller av okklusjon, for eksempel et tilfelle der forsøkspersonen ser bort. Dette er en av de største utfordringene i deepfake-programvare, siden FAN-landemerker har liten kapasitet til å redegjøre for disse tilfellene, og har en tendens til å erodere i kvalitet ettersom ansiktet avverger eller er okkludert.

Det nye systemet er i stand til å unngå denne fellen ved å definere en konturenergi som er i stand til å matche grensen mellom 3D-flaten (3DMM) og 2D-flaten (som definert av FAN-landemerker).

Optimalisering

En nyttig distribusjon for et slikt system vil være å implementere sanntidsdeformasjon, for eksempel i videochatfiltre. Det nåværende rammeverket muliggjør ikke dette, og de nødvendige dataressursene vil gjøre "live" deformasjon til en betydelig utfordring.

I følge papiret, og forutsatt et 24fps videomål, representerer per-frame-operasjoner i pipelinen en ventetid på 16.344 sekunder for hvert sekund med opptak, med ytterligere engangstreff for identitetsestimat og 3D-ansiktsdeformasjon (henholdsvis 321ms og 160ms) .

Derfor er optimalisering nøkkelen til å gjøre fremskritt mot å redusere ventetiden. Siden felles optimalisering på tvers av alle rammer ville legge til alvorlige overhead til prosessen, og optimalisering i init-stil (forutsatt at den konsekvente påfølgende identiteten til høyttaleren fra den første rammen) kan føre til uregelmessigheter, har forfatterne tatt i bruk et sparsomt skjema for å beregne koeffisientene av rammer samplet med praktiske intervaller.

Fellesoptimalisering utføres deretter på dette undersettet av rammer, noe som fører til en slankere rekonstruksjonsprosess.

Forvrengning av ansiktet

Vridningsteknikken som er brukt i prosjektet er en tilpasning av forfatternes 2020-verk Dype formfulle portretter (DSP).

Deep Shapely Portraits, en 2020-innlevering til ACM Multimedia. Oppgaven ledes av forskere fra ZJU-Tencent Game and Intelligent Graphics Innovation Technology Joint Lab. Kilde: http://www.cad.zju.edu.cn/home/jin/mm2020/demo.mp4

Forfatterne observerer "Vi utvider denne metoden fra å omforme ett monokulært bilde til å omforme hele bildesekvensen."

Tester

Artikkelen observerer at det ikke var noe sammenlignbart tidligere materiale å vurdere den nye metoden mot. Derfor sammenlignet forfatterne rammer av deres forvrengte videoutgang med statisk DSP-utgang.

Tester det nye systemet mot statiske bilder fra Deep Shapely Portraits.

Forfatterne bemerker at artefakter er et resultat av DSP-metoden, på grunn av bruken av sparsom kartlegging – et problem som det nye rammeverket løser med tett kartlegging. I tillegg, video produsert av DSP, hevder avisen, demonstrerer mangel på jevnhet og visuell sammenheng.

Forfatterne sier:

"Resultatene viser at vår tilnærming robust kan produsere sammenhengende omformede portrettvideoer mens den bildebaserte metoden lett kan føre til merkbare flimrende artefakter."

Sjekk ut den medfølgende videoen nedenfor, for flere eksempler:

Parametrisk omforming av portretter i videoer – ACM MM 2021