Inteligenta Artificiala
Modificarea emoțiilor în filmările video cu AI
Cercetătorii din Grecia și Marea Britanie au dezvoltat o nouă abordare de învățare profundă pentru a schimba expresiile și starea de spirit aparentă a oamenilor din filmările video, păstrând în același timp fidelitatea mișcărilor buzelor lor față de sunetul original într-un mod în care încercările anterioare nu au putut să se potrivească. .
Acest domeniu special se încadrează în categoria în creștere a emoții profunde falsificate, unde identitatea vorbitorului original este păstrată, dar expresiile și microexpresiile acestora sunt modificate. Pe măsură ce această tehnologie AI se maturizează, oferă posibilitatea producțiilor de filme și TV de a aduce modificări subtile expresiilor actorilor – dar deschide și o categorie destul de nouă de deepfake video „alterate de emoții”.
Schimbarea fețelor
Expresiile faciale pentru personalitățile publice, cum ar fi politicienii, sunt curatate cu rigurozitate; în 2016 au venit expresiile faciale ale lui Hillary Clinton sub o atentă supraveghere mediatică pentru impactul lor negativ potențial asupra perspectivelor sale electorale; expresiile faciale, se pare, sunt, de asemenea, a subiect de interes către FBI; și ei sunt o indicator critic în interviurile de angajare, făcând din perspectiva (departe) un filtru de „control-expresie” în direct o dezvoltare dezirabilă pentru cei care caută un loc de muncă care încearcă să treacă un pre-ecran pe Zoom.
Un studiu din 2005 din Marea Britanie a afirmat că aspectul facial afectează deciziile de vot, în timp ce un articol de la Washington Post din 2019 a examinat utilizarea partajării clipurilor video „în afara contextului”., care este în prezent cel mai apropiat lucru pe care îl au susținătorii știrilor false de a putea schimba efectiv modul în care o persoană publică pare să se comporte, să răspundă sau să se simtă.
Spre manipularea expresiei neuronale
În prezent, stadiul tehnicii în manipularea afectului facial este destul de rudimentar, deoarece implică abordarea descurcarea de concepte de nivel înalt (cum ar fi trist, supărat, fericit, zâmbitor) din conținutul video real. Deși arhitecturile tradiționale deepfake par să realizeze destul de bine această dezacordare, oglindirea emoțiilor în diferite identități necesită totuși ca două seturi de fețe de antrenament să conțină expresii potrivite pentru fiecare identitate.
Ceea ce este de dorit, și nu a fost încă perfect realizat, este să recunoașteți modul în care subiectul B (de exemplu) zâmbește și să creați pur și simplu un 'zâmbet' comutați în arhitectură, fără a fi nevoie să o mapați la o imagine echivalentă a subiectului A zâmbind.
hârtie nouă se intitulează Director de emoții neuronale: controlul semantic al expresiilor faciale care păstrează vorbirea în videoclipurile „în sălbăticie”, și provine de la cercetători de la Școala de Inginerie Electrică și Calculatoare de la Universitatea Națională Tehnică din Atena, de la Institutul de Informatică de la Fundația pentru Cercetare și Tehnologie Hellas (FORTH) și de la Colegiul de Inginerie, Matematică și Științe Fizice de la Universitatea din Exeter din Marea Britanie.
Echipa a dezvoltat un cadru numit Director de emoții neuronale (NED), care încorporează o rețea de traducere a emoțiilor bazată pe 3D, Manipulator de emoții bazat pe 3D.
NED preia o secvență recepționată a parametrilor de expresie și le traduce într-un domeniu țintă. Este antrenat pe date inegale, ceea ce înseamnă că nu este necesar să se antreneze pe seturi de date în care fiecare identitate are expresii faciale corespunzătoare.
Autorii susțin că NED este prima metodă bazată pe video pentru „regia” actorilor în situații aleatorii și imprevizibile și au pus codul disponibil pe NED. Pagina proiectului.
Metoda si Arhitectura
Sistemul este antrenat pe două seturi mari de date video care au fost adnotate cu etichete „emoții”.
Ieșirea este activată de o redare a feței video care redă emoția dorită în video folosind tehnici tradiționale de sinteză a imaginii faciale, inclusiv segmentarea feței, alinierea și amestecarea reperelor faciale, unde este sintetizată doar zona feței și apoi impusă filmării originale.
Inițial, sistemul obține recuperarea facială 3D și impune aliniamente ale reperelor faciale pe cadrele de intrare pentru a identifica expresia. După aceasta, acești parametri de expresie recuperați sunt transferați la Manipulatorul de emoții bazat pe 3D și un vector de stil calculat fie prin intermediul unei etichete semantice (cum ar fi „fericit”), fie printr-un fișier de referință.
Un fișier de referință este un videoclip care prezintă o anumită expresie/emoție recunoscută, care este apoi impusă pe întregul videoclip țintă, schimbând expresia originală.
Forma finală a feței 3D generată este apoi concatenată cu coordonatele normale a feței medii (NMFC) și imaginile oculare (punctele roșii din imaginea de mai sus) și trecută la redarea neuronală, care efectuează manipularea finală.
REZULTATE
Cercetătorii au efectuat studii ample, inclusiv studii privind utilizatorii și ablația, pentru a evalua eficacitatea metodei față de lucrările anterioare și au descoperit că, în majoritatea categoriilor, NED depășește stadiul actual al tehnicii în acest sub-sector al manipulării faciale neuronale.
Autorii lucrării au în vedere că implementările ulterioare ale acestei lucrări și instrumentele de natură similară vor fi utile în primul rând în industriile TV și cinematografice, afirmând:
„Metoda noastră deschide o multitudine de noi posibilități pentru aplicații utile ale tehnologiilor de redare neuronală, de la post-producție de filme și jocuri video până la avatare afective foto-realiste.”
Aceasta este o lucrare timpurie în domeniu, dar una dintre primele care a încercat reconstituirea facială cu video, mai degrabă decât cu imagini statice. Deși videoclipurile sunt în esență multe imagini statice care rulează împreună foarte rapid, există considerații temporale care fac aplicațiile anterioare de transfer de emoții mai puțin eficiente. În videoclipul însoțitor și în exemplele din lucrare, autorii includ comparații vizuale ale rezultatelor NED cu alte metode comparabile recente.
Comparații mai detaliate și multe alte exemple de NED pot fi găsite în videoclipul complet de mai jos:
3 decembrie 2021, 18:30 GMT+2 – La solicitarea unuia dintre autorii lucrării, s-au făcut corecturi cu privire la „fișierul de referință”, despre care am afirmat din greșeală că este o fotografie statică (când este de fapt un videoclip). De asemenea, o modificare a denumirii Institutului de Informatică de la Fundația pentru Cercetare și Tehnologie.
3 decembrie 2021, 20:50 GMT+2 – O a doua solicitare din partea unuia dintre autorii lucrării pentru o nouă modificare a denumirii instituției menționate mai sus.