Kunstig intelligens
Restrukturering av ansikter i videoer med maskinlæring
Et forskningssamarbeid mellom Kina og Storbritannia har utviklet en ny metode for å omforme ansikter i video. Teknikken tillater overbevisende utvidelse og innsnevring av ansiktsstrukturen, med høy konsistens og fravær av artefakter.
Denne typen transformasjon er vanligvis bare mulig gjennom tradisjonelle CGI-metoder som ville trenge å gjenskape ansiktet fullstendig via detaljerte og kostbare motion-capping-, rigging- og tekstureringsprosedyrer.
I stedet er det CGI som finnes i teknikken integrert i en nevral pipeline som parametrisk 3D-ansiktsinformasjon som senere brukes som grunnlag for en maskinlæringsarbeidsflyt.
Forfatterne sier:
'Vårt mål er å generere høykvalitets portrettvideo-omforming [resultater] ved å redigere den generelle formen på portrettflatene i henhold til naturlig ansiktsdeformasjon i den virkelige verden. Dette kan brukes til applikasjoner som formskapende ansiktsgenerering for saligkåring, og ansiktsoverdrivelse for visuelle effekter.'
Selv om 2D ansiktsforvrengning og forvrengning har vært tilgjengelig for forbrukere siden bruken av Photoshop (og har ført til merkelige og ofte uakseptable subkulturer rundt ansiktsforvrengning og kroppsdysmorfi), er det et tøft triks å gjøre i video uten å bruke CGI.
Kroppsomforming er for tiden et felt av intens interesse i datasynssektoren, hovedsakelig på grunn av potensialet i mote-e-handel, selv om det for øyeblikket er en bemerkelsesverdig utfordring.
På samme måte har det vært gjenstand for å endre formen på et hode i videoopptak på en konsekvent og overbevisende måte. tidligere arbeid fra den nye artikkelens forskere, selv om implementeringen led av artefakter og andre begrensninger. Det nye tilbudet utvider muligheten til tidligere forskning fra statisk til videoutgang.
Det nye systemet ble trent på en stasjonær PC med en AMD Ryzen 9 3950X med 32 GB minne, og bruker en optisk flytalgoritme fra OpenCV for bevegelseskart, jevnet ut av StrukturFlow rammeverk; Facial Alignment Network (FAN) komponent for landemerkestimering, som også brukes i de populære deepfakes-pakkene; og Ceres Solver for å løse optimaliseringsutfordringer.
De papir har tittelen Parametrisk omforming av portretter i videoer, og kommer fra tre forskere ved Zhejiang University, og en fra University of Bath.
Om ansiktet
Under det nye systemet trekkes videoen ut til en bildesekvens, og en stiv positur estimeres først for hvert ansikt. Deretter estimeres et representativt antall påfølgende bilder i fellesskap for å konstruere konsistente identitetsparametere langs hele bildeserien (dvs. rammene til videoen).
Etter dette blir uttrykket evaluert, noe som gir en omformingsparameter som implementeres ved lineær regresjon. Neste en ny signert avstandsfunksjon (SDF)-tilnærmingen konstruerer en tett 2D-kartlegging av ansiktslinjene før og etter omforming.
Til slutt utføres en innholdsbevisst vridningsoptimalisering på utgangsvideoen.
Parametriske ansikter
Prosessen bruker en 3D Morphable Face Model (3DMM), i økende grad populært tilleggt til nevrale og GAN-baserte ansiktssyntesesystemer, samt være aktuelt for deepfake-deteksjonssystemer.
Arbeidsflyten til det nye systemet må vurdere tilfeller av okklusjon, for eksempel et tilfelle der forsøkspersonen ser bort. Dette er en av de største utfordringene i deepfake-programvare, siden FAN-landemerker har liten kapasitet til å redegjøre for disse tilfellene, og har en tendens til å erodere i kvalitet ettersom ansiktet avverger eller er okkludert.
Det nye systemet er i stand til å unngå denne fellen ved å definere en konturenergi som er i stand til å matche grensen mellom 3D-flaten (3DMM) og 2D-flaten (som definert av FAN-landemerker).
Optimalisering
En nyttig distribusjon for et slikt system vil være å implementere sanntidsdeformasjon, for eksempel i videochatfiltre. Det nåværende rammeverket muliggjør ikke dette, og de nødvendige dataressursene vil gjøre "live" deformasjon til en betydelig utfordring.
I følge papiret, og forutsatt et 24fps videomål, representerer per-frame-operasjoner i pipelinen en ventetid på 16.344 sekunder for hvert sekund med opptak, med ytterligere engangstreff for identitetsestimat og 3D-ansiktsdeformasjon (henholdsvis 321ms og 160ms) .
Derfor er optimalisering nøkkelen til å gjøre fremskritt mot å redusere ventetiden. Siden felles optimalisering på tvers av alle rammer ville legge til alvorlige overhead til prosessen, og optimalisering i init-stil (forutsatt at den konsekvente påfølgende identiteten til høyttaleren fra den første rammen) kan føre til uregelmessigheter, har forfatterne tatt i bruk et sparsomt skjema for å beregne koeffisientene av rammer samplet med praktiske intervaller.
Fellesoptimalisering utføres deretter på dette undersettet av rammer, noe som fører til en slankere rekonstruksjonsprosess.
Forvrengning av ansiktet
Vridningsteknikken som er brukt i prosjektet er en tilpasning av forfatternes 2020-verk Dype formfulle portretter (DSP).
Forfatterne observerer "Vi utvider denne metoden fra å omforme ett monokulært bilde til å omforme hele bildesekvensen."
Tester
Artikkelen observerer at det ikke var noe sammenlignbart tidligere materiale å vurdere den nye metoden mot. Derfor sammenlignet forfatterne rammer av deres forvrengte videoutgang med statisk DSP-utgang.
Forfatterne bemerker at artefakter er et resultat av DSP-metoden, på grunn av bruken av sparsom kartlegging – et problem som det nye rammeverket løser med tett kartlegging. I tillegg, video produsert av DSP, hevder avisen, demonstrerer mangel på jevnhet og visuell sammenheng.
Forfatterne sier:
"Resultatene viser at vår tilnærming robust kan produsere sammenhengende omformede portrettvideoer mens den bildebaserte metoden lett kan føre til merkbare flimrende artefakter."
Sjekk ut den medfølgende videoen nedenfor, for flere eksempler:
Først publisert 9. mai 2022. Endret kl. 6 EET, erstattet 'felt' med 'funksjon' for SDF.