Inteligența artificială
Zorii emoțiilor profunde false

Cercetătorii au dezvoltat o nouă tehnică de învățare automată pentru a impune în mod arbitrar noi emoții pe fețele din videoclipuri, adaptând tehnologiile existente care au apărut recent ca soluții pentru a potrivi mișcările buzelor cu dublarea în limbi străine.
Cercetarea este o colaborare egală între Northeastern University din Boston și Media Lab de la MIT și este intitulată Încruntări inversabile: traducerea emoțiilor faciale video în video. Deși cercetătorii admit că calitatea inițială a rezultatelor trebuie dezvoltată prin cercetări ulterioare, ei susțin că tehnica, numită Wav2Lip-Emotion, este prima de acest fel care abordează direct modificarea expresiei video complet prin tehnici de rețea neuronală.
Codul de bază a fost eliberat pe GitHub, deși punctele de control ale modelului vor fi adăugate mai târziu la depozitul open source, promit autorii.

În stânga, un cadru „trist” al videoclipului sursă. În dreapta, un cadru „fericit”. În centru sunt două abordări incipiente pentru sintetizarea emoțiilor alternative – rândul de sus: o față complet mască, unde întreaga suprafață de expresie a fost înlocuită; rândul de jos: o metodă Wav2Lip mai tradițională, care înlocuiește doar partea inferioară a feței. Sursa: https://raw.githubusercontent.com/jagnusson/Wav2Lip-Emotion/main/literature/ADGD_2021_Wav2Lip-emotion.pdf
Un singur videoclip ca date sursă
În teorie, astfel de manipulări pot fi obținute acum prin antrenament complet pe depozitele tradiționale de deepfake, cum ar fi DeepFaceLab sau FaceSwapTotuși, fluxul de lucru standard ar implica utilizarea unei identități alternative la identitatea „țintă”, cum ar fi un actor care se preface a fi ținta, ale cărui expresii ar fi transferate către o altă persoană, împreună cu restul performanței. În plus, tehnicile de clonare vocală de tip deepfake ar fi de obicei necesare pentru a completa iluzia.
Mai mult, schimbarea efectivă a expresiei target1> target1 într-o singură sursă video în aceste cadre populare ar implica schimbarea vectori de aliniere facială într-un mod pe care aceste arhitecturi nu îl facilitează în prezent.

Wav2Lip-Emotion menține sincronizarea buzelor a dialogului audio video original, transformând în același timp expresiile asociate.
În schimb, Wav2Lip-Emotion urmărește practic să „copieze și să lipească” expresii legate de emoții dintr-o parte a unui videoclip și să le înlocuiască în alte puncte, cu o frugalitate autoimpusă a datelor sursă, menită în cele din urmă să ofere o metodă mai ușoară de manipulare a expresiilor.
Ulterior, ar putea fi dezvoltate modele offline care sunt antrenate pe videoclipuri alternative ale vorbitorului, evitând necesitatea ca fiecare videoclip să conțină o „paletă” de stări de expresie cu care să se manipuleze videoclipul.
Scopuri potențiale
Autorii sugerează o serie de aplicații pentru modificarea expresiei, inclusiv un filtru video în direct pentru a compensa efectele PTSD și persoanele care suferă de paralizie facială. Lucrarea observă:
„Persoanele cu sau fără expresii faciale inhibate pot beneficia de ajustarea propriilor expresii pentru a se potrivi mai bine circumstanțelor lor sociale. Cineva ar putea dori să modifice expresiile din videoclipurile care le sunt prezentate. Vorbitorii ar putea țipa unul la altul în timpul unei videoconferințe, dar totuși doresc să înțeleagă conținutul schimbului lor fără expresiile neplăcute. Sau un regizor de film ar putea dori să amplifice sau să diminueze expresiile unui actor.”
Deoarece expresia facială este a indicator cheie și de bază al intenției, chiar și acolo unde poate afecta cuvintele rostite, capacitatea de a modifica expresia oferă și, într-o măsură, capacitatea de a schimba modul în care este comunicarea. primit.
Lucrări anterioare
Interesul pentru modificarea expresiei de învățare automată datează cel puțin din 2012, când a colaborare între Adobe, Facebook și Universitatea Rutgers au propus o metodă de modificare a expresiilor folosind o abordare de reconstrucție a geometriei 3D bazată pe tensor, care a impus laborios o plasă CGI peste fiecare cadru al unui videoclip țintă pentru a efectua modificarea.

Cercetarea Adobe/Facebook din 2012 a manipulat expresiile prin impunerea unor modificări tradiționale, bazate pe CGI, asupra imaginilor video. Expresiile pot fi mărite sau suprimate. Sursa: https://yfalan.github.io/files/papers/FeiYang_CVPR2012.pdf
Deși rezultatele erau promițătoare, tehnica era împovărătoare și resursele necesare erau considerabile. În acest moment, CGI era cu mult înaintea abordărilor bazate pe computer viziune pentru a direcționa spațiul caracteristicilor și manipularea pixelilor.
Mai strâns legat de noua lucrare este MEAD, un model de generare a seturilor de date și a expresiilor lansat în 2020, capabil să genereze videoclipuri cu „persoane care vorbesc”, deși fără nivelul de sofisticare care poate fi obținut prin modificarea directă a videoclipului sursă real.

Generarea de expresii cu MEAD-ul din 2020, o colaborare între SenseTime Research, Carnegie Mellon și trei universități chineze. Sursa: https://wywu.github.io/projects/MEAD/MEAD.html
În 2018 o altă lucrare, intitulată GANimation: Animație facială anatomică dintr-o singură imagine, a apărut ca colaborare de cercetare academică SUA/Spaniolă și a folosit rețele generative adversare pentru a mări sau modifica expresiile numai în imagini statice.

Schimbarea expresiilor din imagini statice cu GANimation. Sursă: https://arxiv.org/pdf/1807.09251.pdf
Wav2Lip-Emoție
În schimb, noul proiect se bazează pe Wav2Lip, care a obținut publicitate în 2020, oferind o metodă potențială de resincronizare a mișcării buzelor pentru a se adapta unui discurs nou (sau cântec) intrare care nu a apărut niciodată în videoclipul original.
Originală Arhitectura Wav2Lip a fost antrenat pe un corpus de propoziții rostite din arhivele BBC. Pentru a adapta Wav2Lip la sarcina de modificare a expresiilor, cercetătorii au „ajustat” arhitectura setului de date MEAD menționat mai sus.
MEAD constă în 40 de ore de videoclipuri în care 60 de actori citesc aceeași propoziție în timp ce interpretează o varietate de expresii faciale. Actorii provin din 15 țări diferite și oferă o serie de caracteristici internaționale menite să ajute proiectul (și proiectele derivate) să producă o sinteză de expresie aplicabilă și bine generalizată.
La momentul cercetării, MEAD publicase doar prima parte a setului de date, care prezenta 47 de persoane care utilizau expresii precum „furie”, „zgust”, „frică”, „dispreț”, „fericit”, „trist” și „surpriză”. În această primă incursiune într-o nouă abordare, cercetătorii au limitat domeniul de aplicare al proiectului la suprapunerea sau modificarea în alt mod a emoțiilor percepute „fericit” și „trist”, deoarece acestea sunt cele mai ușor de recunoscut.
Metodă și rezultate
Arhitectura originală Wav2Lip înlocuiește doar secțiunea inferioară a feței, în timp ce Wav2Lip-Emotion experimentează și o mască de înlocuire completă a feței și sinteza expresiei. Astfel, a fost necesar ca cercetătorii să modifice suplimentar metodele de evaluare încorporate, deoarece acestea nu au fost concepute pentru o configurație completă.
Autorii îmbunătățesc codul original reținând intrarea audio originală, menținând consistența mișcării buzelor.
Elementul generator are un codificator de identitate, un codificator de vorbire și un decodor de fețe, în conformitate cu lucrările anterioare. Elementul de vorbire este codificat suplimentar ca convoluții 2D stivuite care sunt ulterior concatenate la cadrele asociate.
Pe lângă elementul generativ, arhitectura modificată prezintă trei componente principale discriminatoare, care vizează calitatea sincronizării buzelor, un element obiectiv emoțional și un obiectiv de calitate vizuală antrenat adversar.
Pentru reconstrucția completă a feței, lucrarea originală Wav2Lip nu conținea precedent și, prin urmare, modelul a fost antrenat de la zero. Pentru antrenamentul feței inferioare (jumătate de mască), cercetătorii au plecat de la punctele de control incluse în codul original Wav2Lip.
Pe lângă evaluarea automată, cercetătorii au folosit opinii colectate prin crowdsourcing, furnizate de o platformă de servicii semiautomatizată. În general, cercetătorii au acordat o notă ridicată rezultatului în ceea ce privește recunoașterea emoțiilor suprapuse, în timp ce au raportat doar evaluări „moderate” pentru calitatea imaginii.
Autorii sugerează că, pe lângă îmbunătățirea calității video generate cu perfecționări suplimentare, viitoarele iterații ale lucrării ar putea cuprinde o gamă mai largă de emoții și că lucrarea ar putea fi aplicată în mod egal în viitor datelor sursă și seturi de date etichetate sau deduse automat, conducând, în cele din urmă , la un sistem autentic în care emoțiile ar putea fi formate în sus sau în jos la dorința utilizatorului sau în cele din urmă înlocuite cu emoții contrastante în raport cu videoclipul sursă original.