Umjetna inteligencija

Zora lažnih emocija

Ažurirano on Prosinac 9, 2022

Istraživači su razvili novu tehniku strojnog učenja za proizvoljno nametanje novih emocija licima u videu, prilagođavajući postojeće tehnologije koje su se nedavno pojavile kao rješenja za usklađivanje pokreta usana sa sinkronizacijom na stranom jeziku.

Istraživanje je ravnopravna suradnja između Sveučilišta Northeastern u Bostonu i Media Laba na MIT-u, a naslovljeno je Invertable Frowns: Video-to-Video Facial Emotion Translation. Iako istraživači priznaju da se početna kvaliteta rezultata mora razvijati daljnjim istraživanjem, oni tvrde da je tehnika, nazvana Wav2Lip-Emotion, prva takve vrste koja se izravno bavi modifikacijom cjelovitog video izraza putem tehnika neuronske mreže.

Osnovni kod je bio otpušten na GitHubu, iako će kontrolne točke modela kasnije biti dodane u repozitorij otvorenog koda, obećavaju autori.

S lijeve strane, 'tužan' okvir izvornog videa. S desne strane 'sretan' okvir. U središtu su dva novonastala pristupa sintetiziranju alternativnih emocija – gornji red: potpuno maskirano lice gdje je cijela površina izražaja zamijenjena; donji red: tradicionalnija metoda Wav2Lip, koja zamjenjuje samo donji dio lica. Izvor: https://raw.githubusercontent.com/jagnusson/Wav2Lip-Emotion/main/literature/ADGD_2021_Wav2Lip-emotion.pdf

Jedan video kao izvor podataka

U teoriji, takve se manipulacije sada mogu postići kroz cjelovitu obuku na tradicionalnim spremištima deepfakea kao što su DeepFaceLab ili FaceSwap. Međutim, standardni tijek rada uključivao bi korištenje alternativnog identiteta umjesto 'ciljanog' identiteta, kao što je glumac koji oponaša metu, čiji bi se vlastiti izrazi prenijeli na drugu osobu, zajedno s ostatkom izvedbe. Osim toga, tehnike duboko lažnog kloniranja glasa obično bi bile potrebne kako bi se dovršila iluzija.

Nadalje, zapravo mijenjanje izraza meta1>cilja1 u videozapisu jedinog izvora pod ovim popularnim okvirima uključivalo bi promjenu vektori poravnanja lica na način koji ove arhitekture trenutno ne omogućuju.

Wav2Lip-Emotion održava sinkronizaciju usana izvornog video audio dijaloga dok transformira povezane izraze.

Umjesto toga, Wav2Lip-Emotion učinkovito nastoji 'kopirati i zalijepiti' izraze povezane s emocijama iz jednog dijela videa i zamijeniti ih u druge točke, uz samonametnutu štedljivost izvornih podataka koja je na kraju namijenjena ponudi metode manjeg napora za manipulacija izrazom.

Kasnije bi se mogli razviti izvanmrežni modeli koji bi se uvježbavali na alternativnim video zapisima govornika, čime bi se izbjegla potreba da bilo koji video sadrži 'paletu' izražajnih stanja s kojima bi se manipuliralo videom.

Potencijalne namjene

Autori predlažu niz aplikacija za modificiranje izraza lica, uključujući live video filter za kompenzaciju učinaka PTSP-a i osoba koje pate od paralize lica. List primjećuje:

'Pojedinci sa ili bez inhibiranih izraza lica mogu imati koristi od prilagođavanja vlastitih izraza kako bi bolje odgovarali njihovim društvenim okolnostima. Netko će možda htjeti promijeniti izraze lica u videozapisima koji mu se prikazuju. Govornici bi mogli vikati jedni na druge tijekom videokonferencije, ali unatoč tome žele prikupiti sadržaj u svojoj razmjeni bez neugodnih izraza. Ili filmski redatelj možda želi povećati ili umanjiti ekspresiju glumca.'

Budući da je izraz lica a ključni i temeljni pokazatelj namjere, čak i kada može utjecati na izgovorene riječi, sposobnost mijenjanja izraza također nudi, u određenoj mjeri, mogućnost promjene načina na koji je komunikacija primljen.

Prethodni rad

Zanimanje za promjenu izraza strojnog učenja seže barem do 2012., kada je a kolaboracija između Adobea, Facebooka i Sveučilišta Rutgers predložili su metodu za promjenu izraza korištenjem pristupa rekonstrukcije 3D geometrije temeljenog na Tensoru, koji je mukotrpno nametao CGI mrežu preko svakog kadra ciljanog videa kako bi se izvršila promjena.

Adobe/Facebook istraživanje iz 2012. manipuliralo je izrazima nametanjem tradicionalnih promjena vođenih CGI-jem na video snimku. Izrazi se mogu povećati ili potisnuti. Izvor: https://yfalan.github.io/files/papers/FeiYang_CVPR2012.pdf

Adobe/Facebook istraživanje iz 2012. manipuliralo je izrazima nametanjem tradicionalnih promjena vođenih CGI-jem na video snimke. Izrazi se mogu povećati ili potisnuti. Izvor: https://yfalan.github.io/files/papers/FeiYang_CVPR2012.pdf

Iako su rezultati bili obećavajući, tehnika je bila opterećujuća, a potrebni resursi bili su znatni. U ovom je trenutku CGI bio daleko ispred pristupa temeljenih na računalnom vidu za izravnu manipulaciju prostorom značajki i pikselima.

Bliže povezan s novim dokumentom je MEAD, skup podataka i model generiranja izraza objavljen 2020. godine, sposoban za generiranje videa 'glave koja govori', iako bez razine sofisticiranosti koja se potencijalno može postići izravnom modificiranjem stvarnog izvornog videa.

Generiranje izraza s MEAD-om iz 2020., suradnjom između SenseTime Researcha, Carnegie Mellona i tri kineska sveučilišta. Izvor: https://wywu.github.io/projects/MEAD/MEAD.html

Godine 2018. još jedan rad pod naslovom GANimation: Anatomski osviještena animacija lica iz jedne slike, nastao kao američko-španjolska akademska istraživačka suradnja, a koristio je Generative Adversarial Networks za povećanje ili promjenu izraza samo na fotografijama.

Mijenjanje izraza na fotografijama pomoću GANimation. Izvor: https://arxiv.org/pdf/1807.09251.pdf

Wav2Lip-Emocija

Umjesto toga, novi projekt temelji se na Wav2Lipu, koji pridobio publicitet 2020. nudeći potencijalnu metodu za ponovno sinkroniziranje pokreta usana kako bi se prilagodio novom govoru (ili pjesma) unos koji se nikada nije pojavio u izvornom videu.

Izvorni Wav2Lip arhitektura obučen je na korpusu izgovorenih rečenica iz BBC-jeve arhive. Kako bi prilagodili Wav2Lip zadatku izmjene izraza, istraživači su 'fino podesili' arhitekturu na gore spomenutom MEAD skupu podataka.

MEAD se sastoji od 40 sati videa koji uključuje 60 glumaca koji čitaju istu rečenicu dok izvode različite izraze lica. Glumci dolaze iz 15 različitih zemalja i nude niz međunarodnih karakteristika čiji je cilj pomoći projektu (i izvedenim projektima) da proizvede primjenjivu i dobro generaliziranu sintezu izraza.

U vrijeme istraživanja MEAD je objavio samo prvi dio skupa podataka, sa 47 pojedinaca koji su izvodili izraze kao što su 'ljut', 'gađenje', 'strah', 'prezir', 'sretan', 'tužan' i 'iznenađenje' '. U ovom početnom izletu u novi pristup, istraživači su ograničili opseg projekta na preklapanje ili na neki drugi način mijenjanje percipiranih emocija 'sretan' i 'tužan', budući da ih je najlakše prepoznati.

Metoda i rezultati

Izvorna Wav2Lip arhitektura zamjenjuje samo donji dio lica, dok Wav2Lip-Emotion također eksperimentira s potpunom maskom za zamjenu lica i sintezom izraza. Stoga je bilo potrebno da istraživači dodatno modificiraju ugrađene metode procjene, budući da one nisu bile dizajnirane za konfiguraciju cijelog lica.

Autori poboljšavaju izvorni kod zadržavajući izvorni audio ulaz, održavajući dosljednost pokreta usana.

Element generatora sadrži enkoder identiteta, enkoder govora i dekoder lica, u skladu s ranijim radom. Govorni element je dodatno kodiran kao naslagane 2D vijuge koje su naknadno povezane sa svojim pridruženim okvirom/ima.

Osim generativnog elementa, modificirana arhitektura ima tri glavne diskriminatorske komponente, usmjerene na kvalitetu sinkronizacije usana, element objektivnog osjećaja i objektivnu vizualnu kvalitetu usmjerenu protivniku.

Za potpunu rekonstrukciju lica, izvorni Wav2Lip rad nije sadržavao presedan, pa je stoga model obučen od nule. Za obuku donjeg dijela lica (polumaska), istraživači su krenuli od kontrolnih točaka uključenih u originalni Wav2Lip kod.

Osim automatske evaluacije, istraživači su koristili mišljenje dobiveno od strane poluautomatizirane servisne platforme. Radnici su općenito visoko ocijenili rezultat u smislu prepoznavanja nametnutih emocija, dok su dali samo 'umjerene' ocjene kvalitete slike.

Autori sugeriraju da bi, osim poboljšanja kvalitete generiranog videa s daljnjim usavršavanjem, buduće iteracije rada mogle obuhvatiti širi raspon emocija, te da bi se rad jednako mogao primijeniti u budućnosti na označene ili automatski izvedene izvorne podatke i skupove podataka, što će na kraju dovesti do , autentičnom sustavu u kojem se emocije mogu pojačavati ili smanjivati po želji korisnika, ili u konačnici zamijeniti emocijama u kontrastu s izvornim video zapisom.

Srodne teme:deepfake emocija prepoznavanje emocija emocije istraživanje

Sljedeći

Rješavanje problema JPEG artefakta u skupovima podataka računalnog vida

Ne propustite

Istraživači oponašaju strategije morskih puževa u kvantnom materijalu

Martin Anderson

Pisac o strojnom učenju, umjetnoj inteligenciji i velikim podacima.
Osobna stranica: martinanderson.ai
Kontaktirajte nas na: [e-pošta zaštićena]
Twitter: @manders_ai

Ujedinite se.AI

Zora lažnih emocija

Umjetna inteligencija