Kunstig intelligens

Endre følelser i videoopptak med AI

oppdatert on Desember 9, 2022

Forskere fra Hellas og Storbritannia har utviklet en ny tilnærming til dyp læring for å endre uttrykket og den tilsynelatende stemningen til mennesker i videoopptak, samtidig som de har bevart leppebevegelsene deres til den originale lyden på en måte som tidligere forsøk ikke har vært i stand til å matche. .

Fra videoen som følger med artikkelen (innebygd på slutten av denne artikkelen), et kort klipp av skuespilleren Al Pacino som får uttrykket hans subtilt endret av NED, basert på semantiske konsepter på høyt nivå. Kilde: https://www.youtube.com/watch?v=Li6W8pRDMJQ

Fra videoen som følger med artikkelen (innebygd på slutten av denne artikkelen), et kort klipp av skuespilleren Al Pacino som får uttrykket sitt subtilt endret av NED, basert på høynivå semantiske konsepter som definerer individuelle ansiktsuttrykk, og deres tilhørende følelser. Den 'Referansedrevne' metoden til høyre tar de tolkede følelsene til en kildevideo og bruker den på hele en videosekvens. Kilde: https://www.youtube.com/watch?v=Li6W8pRDMJQ

Dette bestemte feltet faller inn i den voksende kategorien dypt falske følelser, hvor identiteten til den opprinnelige foredragsholderen er bevart, men deres uttrykk og mikrouttrykk er endret. Etter hvert som denne spesielle AI-teknologien modnes, gir den muligheten for film- og TV-produksjoner til å gjøre subtile endringer i skuespillernes uttrykk – men åpner også opp for en ganske ny kategori av "emosjonsendrede" videodeepfakes.

Endre ansikter

Ansiktsuttrykk for offentlige personer, som politikere, er strengt kuratert; i 2016 kom Hillary Clintons ansiktsuttrykk under intens medieoppdagelse for deres potensielle negative innvirkning på hennes valgmuligheter; ansiktsuttrykk, viser det seg, er også en tema av interesse til FBI; og de er en kritisk indikator i jobbintervjuer, noe som gjør det (langt fjerne) utsikten til et live 'uttrykkskontroll'-filter til en ønskelig utvikling for jobbsøkere som prøver å passere en forhåndsskjerm på Zoom.

En studie fra 2005 fra Storbritannia hevdet at ansiktsutseendet påvirker stemmeavgjørelser, mens en Washington Post-innslag fra 2019 undersøkte bruk av «ute av kontekst»-deling av videoklipp, som for øyeblikket er det nærmeste som talsmenn for falske nyheter har til å faktisk kunne endre hvordan en offentlig person ser ut til å oppføre seg, reagere eller føle.

Mot manipulasjon av nevrale uttrykk

For øyeblikket er det nyeste innen manipulering av ansiktspåvirkning ganske rudimentært, siden det innebærer å takle løsrivelse av konsepter på høyt nivå (som f.eks trist, sint, lykkelig, smiler) fra faktisk videoinnhold. Selv om tradisjonelle deepfake-arkitekturer ser ut til å oppnå denne oppløsningen ganske bra, krever speiling av følelser på tvers av ulike identiteter fortsatt at to trenings-ansiktssett inneholder matchende uttrykk for hver identitet.

Fordi ansikts-ID og positur-karakteristika for tiden er så sammenvevd, er det nødvendig med en bred paritet av uttrykk, hodepositur og (i mindre grad) belysning på tvers av to ansiktsdatasett for å trene opp en effektiv dypfalsk modell på systemer som DeepFaceLab. Jo mindre en bestemt konfigurasjon (som 'sidevisning/smilende/solbelyst') er omtalt i begge ansiktssettene, jo mindre nøyaktig vil den gjengi i en dypfalske video, om nødvendig.

Typiske eksempler på ansiktsbilder i datasett som brukes til å trene dype falske. Foreløpig kan du bare manipulere en persons ansiktsuttrykk ved å lage ID-spesifikke uttrykk<>uttrykksveier i et dypt falskt nevralt nettverk. Deepfake-programvare fra 2017-tiden har ingen iboende, semantisk forståelse av et "smil" – den kartlegger og matcher bare opplevde endringer i ansiktsgeometri på tvers av de to fagene.

Det som er ønskelig, og som ennå ikke er perfekt oppnådd, er å gjenkjenne hvordan subjekt B (for eksempel) smiler, og ganske enkelt lage en 'smil' bytte i arkitekturen, uten å måtte kartlegge den til et tilsvarende bilde av motiv A som smiler.

De nytt papir har tittelen Neural Emotion Director: Talebevarende semantisk kontroll av ansiktsuttrykk i "in-the-wild" videoer, og kommer fra forskere ved School of Electrical & Computer Engineering ved National Technical University of Athens, Institute of Computer Science ved Foundation for Research and Technology Hellas (FORTH), og College of Engineering, Mathematics and Physical Sciences ved University of Exeter i Storbritannia.

Teamet har utviklet et rammeverk kalt Neural Emotion Director (NED), som inkluderer et 3D-basert nettverk for emosjonsoversettelse, 3D-basert følelsesmanipulator.

NED tar en mottatt sekvens av uttrykksparametere og oversetter dem til et måldomene. Den er trent på uparallelle data, noe som betyr at det ikke er nødvendig å trene på datasett der hver identitet har tilsvarende ansiktsuttrykk.

Videoen, som vises på slutten av denne artikkelen, går gjennom en serie tester der NED påtvinger en tilsynelatende følelsesmessig tilstand på opptak fra YouTube-datasettet.

Forfatterne hevder at NED er den første videobaserte metoden for å 'regissere' skuespillere i tilfeldige og uforutsigbare situasjoner, og har gjort koden tilgjengelig på NEDs Prosjektet siden.

Metode og arkitektur

Systemet er trent på to store videodatasett som har blitt kommentert med "følelse"-etiketter.

Utgangen aktiveres av en videoansiktsgjengivelse som gjengir den ønskede følelsen til video ved bruk av tradisjonelle ansiktsbildesynteseteknikker, inkludert ansiktssegmentering, ansikts landemerkejustering og blanding, der bare ansiktsområdet syntetiseres, og deretter pålegges det originale opptakene.

Arkitekturen for rørledningen til Neural Emotion Detector (NED). Kilde: https://arxiv.org/pdf/2112.00585.pdf

Til å begynne med oppnår systemet 3D ansiktsgjenoppretting og pålegger ansikts landemerkejusteringer på inngangsrammene for å identifisere uttrykket. Etter dette blir disse gjenopprettede uttrykksparametrene sendt til den 3D-baserte Emotion Manipulator, og en stilvektor beregnet ved hjelp av enten en semantisk etikett (som "happy") eller av en referansefil.

En referansefil er en video som viser et bestemt gjenkjent uttrykk/følelse, som deretter påtvinges hele målvideoen, og bytter ut det originale uttrykket.

Stadier i rørledningen for følelsesoverføring, med ulike skuespillere samplet fra YouTube-videoer.

Den endelige genererte 3D-ansiktsformen settes deretter sammen med den normaliserte gjennomsnittlige ansiktskoordinaten (NMFC) og øyebildene (de røde prikkene i bildet ovenfor), og sendes til den nevrale gjengiveren, som utfører den endelige manipulasjonen.

Resultater

Forskerne gjennomførte omfattende studier, inkludert bruker- og ablasjonsstudier, for å evaluere effektiviteten av metoden opp mot tidligere arbeid, og fant at i de fleste kategorier overgår NED dagens toppmoderne i denne undersektoren av nevrale ansiktsmanipulasjoner.

Avisens forfattere ser for seg at senere implementeringer av dette arbeidet, og verktøy av lignende art, vil være nyttig primært i TV- og filmindustrien, og sier:

'Vår metode åpner en mengde nye muligheter for nyttige anvendelser av nevrale gjengivelsesteknologier, alt fra filmpostproduksjon og videospill til fotorealistiske, affektive avatarer.'

Dette er et tidlig arbeid i feltet, men en av de første som forsøkte å gjenskape ansiktet med video i stedet for stillbilder. Selv om videoer i hovedsak er mange stillbilder som kjører sammen veldig raskt, er det tidsmessige hensyn som gjør tidligere bruk av følelsesoverføring mindre effektive. I den medfølgende videoen, og eksempler i artikkelen, inkluderer forfatterne visuelle sammenligninger av NEDs produksjon mot andre sammenlignbare nyere metoder.

Mer detaljerte sammenligninger, og mange flere eksempler på NED, finner du i hele videoen nedenfor:

[CVPR 2022] NED: Talebevarende semantisk kontroll av ansiktsuttrykk i "i-the-wild"-videoer

[CVPR 2022] NED: Speech-preserving semantic control of facial expressions in “in-the-wild” videos

Watch this video on YouTube

3. desember 2021, 18:30 GMT+2 – På forespørsel fra en av avisens forfattere ble det gjort korrigeringer angående 'referansefilen', som jeg feilaktig oppga var et stillbilde (når det faktisk er et videoklipp). Også en endring av navnet på Institutt for informatikk ved Stiftelsen for forskning og teknologi.
3. desember 2021, 20:50 GMT+2 – En ny forespørsel fra en av avisens forfattere om en ytterligere endring av navnet på den ovennevnte institusjonen.