Kunstig intelligens
Endre følelser i videoopptak med AI
Forskere fra Hellas og Storbritannia har utviklet en ny tilnærming til dyp læring for å endre uttrykket og den tilsynelatende stemningen til mennesker i videoopptak, samtidig som de har bevart leppebevegelsene deres til den originale lyden på en måte som tidligere forsøk ikke har vært i stand til å matche. .
Dette bestemte feltet faller inn i den voksende kategorien dypt falske følelser, hvor identiteten til den opprinnelige foredragsholderen er bevart, men deres uttrykk og mikrouttrykk er endret. Etter hvert som denne spesielle AI-teknologien modnes, gir den muligheten for film- og TV-produksjoner til å gjøre subtile endringer i skuespillernes uttrykk – men åpner også opp for en ganske ny kategori av "emosjonsendrede" videodeepfakes.
Endre ansikter
Ansiktsuttrykk for offentlige personer, som politikere, er strengt kuratert; i 2016 kom Hillary Clintons ansiktsuttrykk under intens medieoppdagelse for deres potensielle negative innvirkning på hennes valgmuligheter; ansiktsuttrykk, viser det seg, er også en tema av interesse til FBI; og de er en kritisk indikator i jobbintervjuer, noe som gjør det (langt fjerne) utsikten til et live 'uttrykkskontroll'-filter til en ønskelig utvikling for jobbsøkere som prøver å passere en forhåndsskjerm på Zoom.
En studie fra 2005 fra Storbritannia hevdet at ansiktsutseendet påvirker stemmeavgjørelser, mens en Washington Post-innslag fra 2019 undersøkte bruk av «ute av kontekst»-deling av videoklipp, som for øyeblikket er det nærmeste som talsmenn for falske nyheter har til å faktisk kunne endre hvordan en offentlig person ser ut til å oppføre seg, reagere eller føle.
Mot manipulasjon av nevrale uttrykk
For øyeblikket er det nyeste innen manipulering av ansiktspåvirkning ganske rudimentært, siden det innebærer å takle løsrivelse av konsepter på høyt nivå (som f.eks trist, sint, lykkelig, smiler) fra faktisk videoinnhold. Selv om tradisjonelle deepfake-arkitekturer ser ut til å oppnå denne oppløsningen ganske bra, krever speiling av følelser på tvers av ulike identiteter fortsatt at to trenings-ansiktssett inneholder matchende uttrykk for hver identitet.
Det som er ønskelig, og som ennå ikke er perfekt oppnådd, er å gjenkjenne hvordan subjekt B (for eksempel) smiler, og ganske enkelt lage en 'smil' bytte i arkitekturen, uten å måtte kartlegge den til et tilsvarende bilde av motiv A som smiler.
De nytt papir har tittelen Neural Emotion Director: Talebevarende semantisk kontroll av ansiktsuttrykk i "in-the-wild" videoer, og kommer fra forskere ved School of Electrical & Computer Engineering ved National Technical University of Athens, Institute of Computer Science ved Foundation for Research and Technology Hellas (FORTH), og College of Engineering, Mathematics and Physical Sciences ved University of Exeter i Storbritannia.
Teamet har utviklet et rammeverk kalt Neural Emotion Director (NED), som inkluderer et 3D-basert nettverk for emosjonsoversettelse, 3D-basert følelsesmanipulator.
NED tar en mottatt sekvens av uttrykksparametere og oversetter dem til et måldomene. Den er trent på uparallelle data, noe som betyr at det ikke er nødvendig å trene på datasett der hver identitet har tilsvarende ansiktsuttrykk.
Forfatterne hevder at NED er den første videobaserte metoden for å 'regissere' skuespillere i tilfeldige og uforutsigbare situasjoner, og har gjort koden tilgjengelig på NEDs Prosjektet siden.
Metode og arkitektur
Systemet er trent på to store videodatasett som har blitt kommentert med "følelse"-etiketter.
Utgangen aktiveres av en videoansiktsgjengivelse som gjengir den ønskede følelsen til video ved bruk av tradisjonelle ansiktsbildesynteseteknikker, inkludert ansiktssegmentering, ansikts landemerkejustering og blanding, der bare ansiktsområdet syntetiseres, og deretter pålegges det originale opptakene.
Til å begynne med oppnår systemet 3D ansiktsgjenoppretting og pålegger ansikts landemerkejusteringer på inngangsrammene for å identifisere uttrykket. Etter dette blir disse gjenopprettede uttrykksparametrene sendt til den 3D-baserte Emotion Manipulator, og en stilvektor beregnet ved hjelp av enten en semantisk etikett (som "happy") eller av en referansefil.
En referansefil er en video som viser et bestemt gjenkjent uttrykk/følelse, som deretter påtvinges hele målvideoen, og bytter ut det originale uttrykket.
Den endelige genererte 3D-ansiktsformen settes deretter sammen med den normaliserte gjennomsnittlige ansiktskoordinaten (NMFC) og øyebildene (de røde prikkene i bildet ovenfor), og sendes til den nevrale gjengiveren, som utfører den endelige manipulasjonen.
Resultater
Forskerne gjennomførte omfattende studier, inkludert bruker- og ablasjonsstudier, for å evaluere effektiviteten av metoden opp mot tidligere arbeid, og fant at i de fleste kategorier overgår NED dagens toppmoderne i denne undersektoren av nevrale ansiktsmanipulasjoner.
Avisens forfattere ser for seg at senere implementeringer av dette arbeidet, og verktøy av lignende art, vil være nyttig primært i TV- og filmindustrien, og sier:
'Vår metode åpner en mengde nye muligheter for nyttige anvendelser av nevrale gjengivelsesteknologier, alt fra filmpostproduksjon og videospill til fotorealistiske, affektive avatarer.'
Dette er et tidlig arbeid i feltet, men en av de første som forsøkte å gjenskape ansiktet med video i stedet for stillbilder. Selv om videoer i hovedsak er mange stillbilder som kjører sammen veldig raskt, er det tidsmessige hensyn som gjør tidligere bruk av følelsesoverføring mindre effektive. I den medfølgende videoen, og eksempler i artikkelen, inkluderer forfatterne visuelle sammenligninger av NEDs produksjon mot andre sammenlignbare nyere metoder.
Mer detaljerte sammenligninger, og mange flere eksempler på NED, finner du i hele videoen nedenfor:
3. desember 2021, 18:30 GMT+2 – På forespørsel fra en av avisens forfattere ble det gjort korrigeringer angående 'referansefilen', som jeg feilaktig oppga var et stillbilde (når det faktisk er et videoklipp). Også en endring av navnet på Institutt for informatikk ved Stiftelsen for forskning og teknologi.
3. desember 2021, 20:50 GMT+2 – En ny forespørsel fra en av avisens forfattere om en ytterligere endring av navnet på den ovennevnte institusjonen.