Inteligenta Artificiala

Modificarea emoțiilor în filmările video cu AI

Actualizat on December 9, 2022

Cercetătorii din Grecia și Marea Britanie au dezvoltat o nouă abordare de învățare profundă pentru a schimba expresiile și starea de spirit aparentă a oamenilor din filmările video, păstrând în același timp fidelitatea mișcărilor buzelor lor față de sunetul original într-un mod în care încercările anterioare nu au putut să se potrivească. .

Din videoclipul care însoțește lucrarea (încorporat la sfârșitul acestui articol), un scurt clip cu actorul Al Pacino având expresia subtil alterată de NED, bazată pe concepte semantice de nivel înalt care definesc expresiile faciale individuale și emoția asociată acestora. Metoda 'Reference-Driven' din dreapta preia emoțiile interpretate ale unui videoclip sursă și o aplică întregii secvențe video. Sursa: https://www.youtube.com/watch?v=Li6W8pRDMJQ

Acest domeniu special se încadrează în categoria în creștere a emoții profunde falsificate, unde identitatea vorbitorului original este păstrată, dar expresiile și microexpresiile acestora sunt modificate. Pe măsură ce această tehnologie AI se maturizează, oferă posibilitatea producțiilor de filme și TV de a aduce modificări subtile expresiilor actorilor – dar deschide și o categorie destul de nouă de deepfake video „alterate de emoții”.

Schimbarea fețelor

Expresiile faciale pentru personalitățile publice, cum ar fi politicienii, sunt curatate cu rigurozitate; în 2016 au venit expresiile faciale ale lui Hillary Clinton sub o atentă supraveghere mediatică pentru impactul lor negativ potențial asupra perspectivelor sale electorale; expresiile faciale, se pare, sunt, de asemenea, a subiect de interes către FBI; și ei sunt o indicator critic în interviurile de angajare, făcând din perspectiva (departe) un filtru de „control-expresie” în direct o dezvoltare dezirabilă pentru cei care caută un loc de muncă care încearcă să treacă un pre-ecran pe Zoom.

Un studiu din 2005 din Marea Britanie a afirmat că aspectul facial afectează deciziile de vot, în timp ce un articol de la Washington Post din 2019 a examinat utilizarea partajării clipurilor video „în afara contextului”., care este în prezent cel mai apropiat lucru pe care îl au susținătorii știrilor false de a putea schimba efectiv modul în care o persoană publică pare să se comporte, să răspundă sau să se simtă.

Spre manipularea expresiei neuronale

În prezent, stadiul tehnicii în manipularea afectului facial este destul de rudimentar, deoarece implică abordarea descurcarea de concepte de nivel înalt (cum ar fi trist, supărat, fericit, zâmbitor) din conținutul video real. Deși arhitecturile tradiționale deepfake par să realizeze destul de bine această dezacordare, oglindirea emoțiilor în diferite identități necesită totuși ca două seturi de fețe de antrenament să conțină expresii potrivite pentru fiecare identitate.

Deoarece ID-ul facial și caracteristicile de poziție sunt în prezent atât de împletite, este necesară o paritate largă de expresie, poziție a capului și (într-o măsură mai mică) iluminare în două seturi de date faciale pentru a antrena un model eficient de deepfake pe sisteme precum DeepFaceLab. Cu cât o anumită configurație (cum ar fi „vedere laterală/zâmbet/luminat de soare”) este prezentată în ambele seturi de fețe, cu atât va fi redată cu mai puțină acuratețe într-un videoclip deepfake, dacă este necesar.

Exemple tipice de imagini ale feței în seturi de date utilizate pentru a antrena deepfake-urile. În prezent, puteți manipula expresia facială a unei persoane doar prin crearea expresiei specifice ID-ului<>căilor de expresie într-o rețea neuronală deepfake. Software-ul deepfake din epoca 2017 nu are o înțelegere intrinsecă, semantică, a unui „zâmbet” – doar hărțește și potrivește schimbările percepute în geometria facială la cele două subiecte.

Ceea ce este de dorit, și nu a fost încă perfect realizat, este să recunoașteți modul în care subiectul B (de exemplu) zâmbește și să creați pur și simplu un 'zâmbet' comutați în arhitectură, fără a fi nevoie să o mapați la o imagine echivalentă a subiectului A zâmbind.

hârtie nouă se intitulează Director de emoții neuronale: controlul semantic al expresiilor faciale care păstrează vorbirea în videoclipurile „în sălbăticie”, și provine de la cercetători de la Școala de Inginerie Electrică și Calculatoare de la Universitatea Națională Tehnică din Atena, de la Institutul de Informatică de la Fundația pentru Cercetare și Tehnologie Hellas (FORTH) și de la Colegiul de Inginerie, Matematică și Științe Fizice de la Universitatea din Exeter din Marea Britanie.

Echipa a dezvoltat un cadru numit Director de emoții neuronale (NED), care încorporează o rețea de traducere a emoțiilor bazată pe 3D, Manipulator de emoții bazat pe 3D.

NED preia o secvență recepționată a parametrilor de expresie și le traduce într-un domeniu țintă. Este antrenat pe date inegale, ceea ce înseamnă că nu este necesar să se antreneze pe seturi de date în care fiecare identitate are expresii faciale corespunzătoare.

Videoclipul, prezentat la sfârșitul acestui articol, trece printr-o serie de teste în care NED impune o stare emoțională aparentă pe filmările din setul de date YouTube.

Autorii susțin că NED este prima metodă bazată pe video pentru „regia” actorilor în situații aleatorii și imprevizibile și au pus codul disponibil pe NED. Pagina proiectului.

Metoda si Arhitectura

Sistemul este antrenat pe două seturi mari de date video care au fost adnotate cu etichete „emoții”.

Ieșirea este activată de o redare a feței video care redă emoția dorită în video folosind tehnici tradiționale de sinteză a imaginii faciale, inclusiv segmentarea feței, alinierea și amestecarea reperelor faciale, unde este sintetizată doar zona feței și apoi impusă filmării originale.

Arhitectura pentru conducta Neural Emotion Detector (NED). Sursa: https://arxiv.org/pdf/2112.00585.pdf

Arhitectura pentru conducta Neural Emotion Detector (NED). Sursă: https://arxiv.org/pdf/2112.00585.pdf

Inițial, sistemul obține recuperarea facială 3D și impune aliniamente ale reperelor faciale pe cadrele de intrare pentru a identifica expresia. După aceasta, acești parametri de expresie recuperați sunt transferați la Manipulatorul de emoții bazat pe 3D și un vector de stil calculat fie prin intermediul unei etichete semantice (cum ar fi „fericit”), fie printr-un fișier de referință.

Un fișier de referință este un videoclip care prezintă o anumită expresie/emoție recunoscută, care este apoi impusă pe întregul videoclip țintă, schimbând expresia originală.

Etape ale transferului de emoții, cu diverși actori prelevați din videoclipurile YouTube.

Forma finală a feței 3D generată este apoi concatenată cu coordonatele normale a feței medii (NMFC) și imaginile oculare (punctele roșii din imaginea de mai sus) și trecută la redarea neuronală, care efectuează manipularea finală.

REZULTATE

Cercetătorii au efectuat studii ample, inclusiv studii privind utilizatorii și ablația, pentru a evalua eficacitatea metodei față de lucrările anterioare și au descoperit că, în majoritatea categoriilor, NED depășește stadiul actual al tehnicii în acest sub-sector al manipulării faciale neuronale.

Autorii lucrării au în vedere că implementările ulterioare ale acestei lucrări și instrumentele de natură similară vor fi utile în primul rând în industriile TV și cinematografice, afirmând:

„Metoda noastră deschide o multitudine de noi posibilități pentru aplicații utile ale tehnologiilor de redare neuronală, de la post-producție de filme și jocuri video până la avatare afective foto-realiste.”

Aceasta este o lucrare timpurie în domeniu, dar una dintre primele care a încercat reconstituirea facială cu video, mai degrabă decât cu imagini statice. Deși videoclipurile sunt în esență multe imagini statice care rulează împreună foarte rapid, există considerații temporale care fac aplicațiile anterioare de transfer de emoții mai puțin eficiente. În videoclipul însoțitor și în exemplele din lucrare, autorii includ comparații vizuale ale rezultatelor NED cu alte metode comparabile recente.

Comparații mai detaliate și multe alte exemple de NED pot fi găsite în videoclipul complet de mai jos:

[CVPR 2022] NED: Controlul semantic al expresiilor faciale cu păstrarea vorbirii în videoclipurile „în sălbăticie”

[CVPR 2022] NED: Speech-preserving semantic control of facial expressions in “in-the-wild” videos

Watch this video on YouTube

3 decembrie 2021, 18:30 GMT+2 – La solicitarea unuia dintre autorii lucrării, s-au făcut corecturi cu privire la „fișierul de referință”, despre care am afirmat din greșeală că este o fotografie statică (când este de fapt un videoclip). De asemenea, o modificare a denumirii Institutului de Informatică de la Fundația pentru Cercetare și Tehnologie.
3 decembrie 2021, 20:50 GMT+2 – O a doua solicitare din partea unuia dintre autorii lucrării pentru o nouă modificare a denumirii instituției menționate mai sus.

Urmeaza

Beneficiul neintenționat al cartografierii spațiului latent al unui GAN

Nu ratați

Disney combină CGI cu redarea neuronală pentru a aborda „Valea Uncanny”

Martin Anderson

Scriitor despre învățare automată, inteligență artificială și date mari.
Site personal: martinanderson.ai
Contact: [e-mail protejat]
Twitter: @manders_ai

Unite.AI

Modificarea emoțiilor în filmările video cu AI

Inteligenta Artificiala