Umelá inteligencia

Úsvit hlbokých emócií

Aktualizované on Decembra 9, 2022

Výskumníci vyvinuli novú techniku strojového učenia, ktorá svojvoľne vnucuje tváram vo videu nové emócie, pričom prispôsobili existujúce technológie, ktoré sa nedávno objavili ako riešenia, aby prispôsobili pohyby pier dabingu v cudzom jazyku.

Výskum je rovnocennou spoluprácou medzi Northeastern University v Bostone a Media Lab na MIT a má názov Invertable Frowns: Video-to-Video Facial Emotion Translation. Hoci výskumníci pripúšťajú, že počiatočná kvalita výsledkov musí byť vyvinutá prostredníctvom ďalšieho výskumu, tvrdia, že technika s názvom Wav2Lip-Emotion je prvou svojho druhu, ktorá priamo rieši úpravu výrazu celého videa prostredníctvom techník neurónových sietí.

Základný kód bol uvoľnený na GitHub, hoci kontrolné body modelu budú pridané do úložiska s otvoreným zdrojovým kódom neskôr, autori sľubujú.

Vľavo „smutný“ rámček zdrojového videa. Vpravo „šťastný“ rám. V strede sú dva rodiace sa prístupy k syntéze alternatívnych emócií – horný rad: úplne maskovaná tvár, kde bola nahradená celá plocha výrazu; spodný rad: tradičnejšia metóda Wav2Lip, ktorá nahrádza iba spodnú časť tváre. Zdroj: https://raw.githubusercontent.com/jagnusson/Wav2Lip-Emotion/main/literature/ADGD_2021_Wav2Lip-emotion.pdf

Jediné video ako zdrojové údaje

Teoreticky sú teraz takéto manipulácie dostupné prostredníctvom plnohodnotného školenia na tradičných deepfake úložiskách, ako sú napr. DeepFaceLab alebo FaceSwap. Štandardný pracovný postup by však zahŕňal použitie alternatívnej identity k „cieľovej“ identite, ako je napríklad herec, ktorý sa vydáva za cieľ, ktorého vlastné výrazy by sa preniesli na iného jednotlivca spolu so zvyškom predstavenia. Okrem toho by na dokončenie ilúzie boli zvyčajne potrebné techniky klonovania hlbokého falošného hlasu.

Ďalej vlastne mení výraz cieľ1>cieľ1 v jedinom zdrojovom videu v rámci týchto populárnych rámcov by znamenalo zmenu vektory zarovnania tváre spôsobom, ktorý tieto architektúry v súčasnosti neumožňujú.

Wav2Lip-Emotion zachováva synchronizáciu pier pôvodného video audio dialógu a zároveň transformuje súvisiace výrazy.

Namiesto toho sa Wav2Lip-Emotion efektívne snaží „skopírovať a prilepiť“ výrazy súvisiace s emóciami z jednej časti videa a nahradiť ich inými bodmi, s skromnosťou zdrojových údajov, ktoré si sami stanovili a ktoré majú nakoniec ponúknuť metódu s nižšou námahou pre manipulácia s výrazom.

Neskôr by sa mohli vyvinúť offline modely, ktoré sú trénované na alternatívnych videách rečníka, čím sa vyhne potrebe, aby každé video obsahovalo „paletu“ stavov vyjadrenia, s ktorými sa dá video manipulovať.

Potenciálne účely

Autori navrhujú množstvo aplikácií na úpravu výrazu, vrátane živého video filtra na kompenzáciu účinkov PTSD a pacientov s obrnou tváre. V liste sa uvádza:

„Jedinci s alebo bez inhibovaných výrazov tváre môžu mať prospech z vyladenia vlastného výrazu tak, aby lepšie zodpovedal ich sociálnym podmienkam. Možno budete chcieť zmeniť výrazy vo videách, ktoré sa im zobrazujú. Rečníci môžu počas videokonferencie na seba kričať, no napriek tomu chcú zhromaždiť obsah vo svojej komunikácii bez nepríjemných výrazov. Alebo filmový režisér môže chcieť rozšíriť alebo zmenšiť výraz herca.“

Keďže výraz tváre je a kľúčový a hlavný ukazovateľ zámeruaj keď sa môže obrusovať proti hovoreným slovám, schopnosť zmeniť výraz tiež ponúka do určitej miery schopnosť zmeniť spôsob komunikácie obdržané.

Predchádzajúca práca

Záujem o zmenu výrazov strojového učenia siaha minimálne do roku 2012, kedy a spolupráce medzi Adobe, Facebookom a Rutgers University navrhli metódu na zmenu výrazov pomocou metódy rekonštrukcie 3D geometrie založenej na tenzoroch, ktorá pracne vložila CGI sieť na každý snímok cieľového videa, aby sa vykonala zmena.

Výskum Adobe/Facebooku z roku 2012 zmanipuloval výrazy tým, že do videozáznamu vložil tradičné zmeny založené na CGI. Výrazy môžu byť rozšírené alebo potlačené. Zdroj: https://yfalan.github.io/files/papers/FeiYang_CVPR2012.pdf

Hoci výsledky boli sľubné, technika bola náročná a potrebné zdroje boli značné. V tomto bode bolo CGI ďaleko pred prístupmi založenými na počítačovom videní k priamemu priestoru funkcií a manipulácii s pixelmi.

S novým dokumentom užšie súvisí MEAD, model množiny údajov a generovania výrazov vydaný v roku 2020, ktorý je schopný generovať videá s „hovoriacimi hlavami“, aj keď bez úrovne sofistikovanosti, ktorú možno získať priamou úpravou skutočného zdrojového videa.

Generovanie výrazov s MEAD 2020, spolupráca medzi SenseTime Research, Carnegie Mellon a tromi čínskymi univerzitami. Zdroj: https://wywu.github.io/projects/MEAD/MEAD.html

V roku 2018 ďalší príspevok s názvom GANimation: Anatomicky uvedomená animácia tváre z jedného obrázka, vznikla ako spolupráca medzi americko-španielskym akademickým výskumom a využívala Generative Adversarial Networks na rozšírenie alebo zmenu výrazov iba v statických obrázkoch.

Zmena výrazov na statických obrázkoch pomocou GANimation. Zdroj: https://arxiv.org/pdf/1807.09251.pdf

Wav2Lip-Emotion

Namiesto toho je nový projekt založený na Wav2Lip, ktorý získal publicitu v roku 2020 tým, že ponúkne potenciálnu metódu na opätovnú synchronizáciu pohybu pier s cieľom prispôsobiť sa novej reči (alebo pieseň) vstup, ktorý sa nikdy neobjavil v pôvodnom videu.

Pôvodná Architektúra Wav2Lip bol trénovaný na korpuse hovorených viet z archívov BBC. Aby sa Wav2Lip prispôsobil úlohe zmeny výrazu, výskumníci „vyladili“ architektúru na vyššie uvedenom súbore údajov MEAD.

MEAD pozostáva zo 40 hodín videa, v ktorom 60 hercov číta tú istú vetu a zároveň predvádza rôzne výrazy tváre. Herci pochádzajú z 15 rôznych krajín a ponúkajú celý rad medzinárodných charakteristík, ktorých cieľom je pomôcť projektu (a odvodeným projektom) vytvoriť použiteľnú a dobre zovšeobecnenú syntézu výrazov.

V čase výskumu spoločnosť MEAD zverejnila iba prvú časť súboru údajov, v ktorej bolo 47 jednotlivcov, ktorí vyjadrovali výrazy ako „nahnevaný“, „znechutenie“, „strach“, „pohŕdanie“, „šťastný“, „smutný“ a „prekvapenie“. '. V tomto počiatočnom výlete do nového prístupu výskumníci obmedzili rozsah projektu na superponovanie alebo inú zmenu vnímaných emócií „šťastných“ a „smutných“, pretože tieto sú najľahšie rozpoznateľné.

Metóda a výsledky

Pôvodná architektúra Wav2Lip nahrádza iba spodnú časť tváre, zatiaľ čo Wav2Lip-Emotion tiež experimentuje s úplnou náhradnou maskou tváre a syntézou výrazu. Preto bolo potrebné, aby výskumníci dodatočne upravili vstavané metódy hodnotenia, pretože tieto neboli navrhnuté pre konfiguráciu celej tváre.

Autori vylepšujú pôvodný kód zachovaním pôvodného zvukového vstupu, pričom zachovávajú konzistenciu pohybu pier.

Prvok generátora obsahuje kódovač identity, kódovač reči a dekodér tváre v súlade s predchádzajúcou prácou. Prvok reči je dodatočne zakódovaný ako naskladané 2D konvolúcie, ktoré sú následne zreťazené na ich pridružený rámec/rámce.

Okrem generatívneho prvku obsahuje modifikovaná architektúra tri hlavné komponenty diskriminátora, ktoré sa zameriavajú na kvalitu synchronizácie pier, prvok emocionálneho cieľa a nepriaznivo trénovaný cieľ vizuálnej kvality.

Pre rekonštrukciu celej tváre neobsahovala pôvodná práca Wav2Lip žiadny precedens, a preto bol model trénovaný od nuly. Pri tréningu spodnej časti tváre (polovičná maska) výskumníci postupovali z kontrolných bodov zahrnutých v pôvodnom kóde Wav2Lip.

Okrem automatického vyhodnocovania výskumníci použili názor z davu, ktorý poskytuje poloautomatická servisná platforma. Pracovníci vo všeobecnosti hodnotili výstup vysoko, pokiaľ ide o rozpoznanie prekrývajúcich sa emócií, pričom uviedli len „stredné“ hodnotenia kvality obrazu.

Autori naznačujú, že okrem zlepšenia kvality generovaného videa s ďalšími vylepšeniami by budúce iterácie práce mohli zahŕňať širšiu škálu emócií a že práca by sa mohla v budúcnosti rovnako aplikovať na označené alebo automaticky odvodené zdrojové údaje a súbory údajov, čo by mohlo viesť , k autentickému systému, v ktorom by mohli byť emócie vytáčané nahor alebo nadol podľa rozmaru používateľa alebo nakoniec nahradené kontrastnými emóciami vzhľadom na pôvodné zdrojové video.