Inteligență artificială
Zoriiya Emoțiilor Deepfaked

Cercetătorii au dezvoltat o nouă tehnică de învățare automată pentru a impune arbitrar noi emoții pe fețele din videoclipuri, adaptând tehnologii existente care au apărut recent ca soluții pentru a face să corespundă mișcările buzelor cu dublajul într-o limbă străină.
Cercetarea este o colaborare egală între Universitatea Northeastern din Boston și Laboratorul Media de la MIT și se intitulează Invertable Frowns: Video-to-Video Facial Emotion Translation. Deși cercetătorii recunosc că calitatea inițială a rezultatelor trebuie să fie dezvoltată prin cercetări ulterioare, ei afirmă că tehnica, numită Wav2Lip-Emotion, este prima de acest fel care abordează direct modificarea expresiilor de pe întregul videoclip prin tehnici de rețea neurală.
Codul sursă a fost publicat pe GitHub, deși punctele de control ale modelului vor fi adăugate ulterioară în depozitul sursă deschis, promit autorii.

În stânga, un cadru ‘trist’ al videoclipului sursă. În dreapta, un cadru ‘fericit’. În centru se află două abordări incipiente pentru sintetizarea unor emoții alternative – rândul superior: o față complet mascată unde întreaga suprafață a expresiei a fost substituită; rândul inferior: o metodă Wav2Lip mai tradițională, care înlocuiește doar partea inferioară a feței. Sursă: https://raw.githubusercontent.com/jagnusson/Wav2Lip-Emotion/main/literature/ADGD_2021_Wav2Lip-emotion.pdf
Videoclipul ca dată sursă
În teorie, astfel de manipulări sunt obținute acum prin antrenarea completă pe depozite tradiționale de deepfake, cum ar fi DeepFaceLab sau FaceSwap. Cu toate acestea, fluxul de lucru standard ar implica utilizarea unei identități alternative identității ‘țintă’, cum ar fi un actor care imită ținta, a cărui expresie ar fi transferată către o altă persoană, împreună cu restul interpretării. În plus, tehnici de clonare a vocii deepfake ar fi de obicei necesare pentru a completa iluzia.
Mai mult, schimbarea efectivă a expresiei țintă1>țintă1 într-un singur videoclip sursă, sub aceste cadre populare, ar implica schimbarea vectorilor de aliniere facială într-un mod în care aceste arhitecturi nu o fac în prezent.

Wav2Lip-Emotion menține sincronizarea buzelor din dialogul audio original al videoclipului, în timp ce transformă expresiile asociate.
În schimb, Wav2Lip-Emotion caută efectiv să ‘copieze și să lipească’ expresii legate de emoții dintr-o parte a unui videoclip și să le înlocuiască în alte puncte, cu o economie autoimpusă a datelor sursă, care urmează să ofere în cele din urmă o metodă de manipulare a expresiilor cu mai puțin efort.
Modele offline ar putea fi dezvoltate ulterioară, care să fie antrenate pe videoclipuri alternative ale vorbitorului, eliminând nevoia ca orice videoclip să conțină o ‘paletă’ de stări de expresie cu care să se manipuleze videoclipul.
Scopuri potențiale
Autorii sugerează o serie de aplicații pentru modificarea expresiilor, inclusiv un filtru de videoclip live pentru a compensa efectele PTSD și suferinzilor de paralizie facială. Articolul observă:
‘Persoanele cu sau fără expresii faciale inhibate pot beneficia de ajustarea propriilor expresii pentru a se potrivi mai bine cu circumstanțele sociale. Cineva poate dori să schimbe expresiile din videoclipurile prezentate lor. Vorbitorii ar putea striga unul la altul în timpul unei conferințe video, dar totuși doresc să obțină conținutul schimbului lor fără expresiile neplăcute. Sau un regizor de film ar putea dori să amplifice sau să diminueze expresiile unui actor.’
Deoarece expresia facială este un indicator cheie și de bază al intenției, chiar și atunci când se poate freca împotriva cuvintelor rostite, capacitatea de a schimba expresia oferă, într-o anumită măsură, capacitatea de a schimba modul în care comunicarea este primită.
Lucrări anterioare
Interesul pentru modificarea expresiilor prin învățare automată datează cel puțin din 2012, când o colaborare între Adobe, Facebook și Universitatea Rutgers a propus o metodă pentru a schimba expresiile prin utilizarea unei abordări de reconstrucție geometrică 3D bazată pe tensori, care a impus cu greutate o rețea CGI peste fiecare cadru al unui videoclip țintă pentru a efectua schimbarea.

Cercetarea Adobe/Facebook din 2012 a manipulat expresiile prin impunerea unor schimbări tradiționale, bazate pe CGI, asupra videoclipurilor. Expresiile puteau fi augmentate sau suprimate. Sursă: https://yfalan.github.io/files/papers/FeiYang_CVPR2012.pdf
Deși rezultatele au fost promițătoare, tehnica a fost împovărătoare și resursele necesare au fost considerabile. La acel moment, CGI era mult înaintea abordărilor bazate pe viziunea computerizată pentru manipularea directă a spațiului de caracteristici și a pixelilor.
Mai strâns legat de noul articol este MEAD, un set de date și un model de generare a expresiilor lansat în 2020, capabil să genereze videoclipuri ‘talking-head’, dar fără nivelul de sofisticare care poate fi obținut prin modificarea directă a videoclipului sursă.

Generarea expresiilor cu MEAD din 2020, o colaborare între SenseTime Research, Carnegie Mellon și trei universități chineze. Sursă: https://wywu.github.io/projects/MEAD/MEAD.html
În 2018, un alt articol, intitulat GANimation: Animație facială conștientă de anatomie dintr-o singură imagine, a apărut ca o colaborare academică între Statele Unite și Spania și a utilizat Rețele Adversative Generative pentru a augmenta sau schimba expresiile în imagini statice.

Schimbarea expresiilor în imagini statice cu GANimation. Sursă: https://arxiv.org/pdf/1807.09251.pdf
Wav2Lip-Emotion
În schimb, noul proiect se bazează pe Wav2Lip, care a atras atenția în 2020 prin oferirea unei metode potențiale pentru resincronizarea mișcării buzelor pentru a se potrivi cu un nou input de vorbire (sau cântec) care nu a apărut în videoclipul original.
Arhitectura originală Wav2Lip a fost antrenată pe un corpus de propoziții vorbite din arhivele BBC. Pentru a adapta Wav2Lip spre sarcina de alterare a expresiilor, cercetătorii au ‘rafinat’ arhitectura pe setul de date menționat mai sus, MEAD.
MEAD constă în 40 de ore de videoclipuri cu 60 de actori care citesc aceeași propoziție, în timp ce efectuează o varietate de expresii faciale. Actorii provin din 15 țări diferite și oferă o gamă de caracteristici internaționale menite să ajute proiectul (și proiectele derivate) să producă o sinteză a expresiilor aplicabilă și bine generalizată.
La momentul cercetării, MEAD a lansat doar prima parte a setului de date, care prezintă 47 de persoane care efectuează expresii precum ‘furios’, ‘dezgust’, ‘frică’, ‘dispreț’, ‘fericit’, ‘trist’ și ‘surpriză’. În acest prim demers într-o nouă abordare, cercetătorii au limitat sfera proiectului la suprapunerea sau altfel de alterare a emoțiilor percepute ‘fericite’ și ‘triste’, deoarece acestea sunt cele mai ușor recunoscute.
Metodă și rezultate
Arhitectura originală Wav2Lip înlocuiește doar partea inferioară a feței, în timp ce Wav2Lip-Emotion experimentează și cu o mască de înlocuire facială completă și sinteză a expresiilor. Astfel, a fost necesar ca cercetătorii să modifice, de asemenea, metodele de evaluare încorporate, deoarece acestea nu au fost proiectate pentru o configurație cu față completă.
Autorii îmbunătățesc codul original prin păstrarea inputului audio original, menținând consistența mișcării buzelor.
Elementul generator prezintă un codificator de identitate, un codificator de vorbire și un decodificator facial, în conformitate cu lucrările anterioare. Elementul de vorbire este codificat suplimentar ca convoluții 2D împachetate, care sunt concatenate ulterioară cu cadrele asociate.
Pe lângă elementul generator, arhitectura modificată prezintă trei componente principale de discriminare, care vizează calitatea sincronizării buzelor, un element obiectiv de emoție și un obiectiv vizual antrenat adversativ.
Pentru reconstrucția feței complete, lucrarea originală Wav2Lip nu a conținut niciun precedent, și prin urmare modelul a fost antrenat de la zero. Pentru antrenamentul feței inferioare (jumătate de mască), cercetătorii au procedat de la punctele de control incluse în codul Wav2Lip original.
Pe lângă evaluarea automată, cercetătorii au utilizat opinia furnizată de o platformă semi-automată. Lucrătorii au evaluat în general ieșirile ca fiind de calitate ridicată în ceea ce privește recunoașterea emoțiilor suprapuse, în timp ce au raportat doar evaluări ‘moderate’ pentru calitatea imaginii.
Autorii sugerează că, pe lângă îmbunătățirea calității videoclipurilor generate cu rafinări ulterioare, iterațiile viitoare ale lucrării ar putea cuprinde o gamă mai largă de emoții, și că lucrarea ar putea fi aplicată în viitor și datelor sursă etichetate sau deduse automat și seturilor de date, conducând, în cele din urmă, la un sistem autentic în care emoțiile ar putea fi reglate sau diminuate la discreția utilizatorului, sau înlocuite în cele din urmă cu emoții contrastante în raport cu videoclipul sursă original.










