Umelá inteligencia

Prečo Deepfakes momentálne nedokáže sprostredkovať jemnosť emócií

Aktualizované on Decembra 9, 2022

Kniha Boba Fetta - Disney

Včerajší debut epizódy 6 star Wars spin-off Kniha Boba Fetta Zdá sa, že názor fanúšikov je rozdelený. Sociálne siete získali všeobecné uznanie a naprieč sociálnymi sieťami existuje všeobecný predpoklad, že oveľa vylepšená zábava starnúceho Marka Hamilla (v porovnaní s postavou predchádzajúci vzhľad vo finále 2. sezóny Mandalorian v roku 2020) je priamym výsledkom toho, že Industrial Light and Magic najala amatérskeho praktika deepfakes Shamooka (ktorý radikálne zlepšili svoju prácu so softvérom s otvoreným zdrojovým kódom); a že stvárnenie postavy musí byť kombináciou technológie deepfake, možno upravenej pomocou CGI.

V súčasnosti je to obmedzené, hoci Shamook povedal svetu len málo, odkedy zostúpila zmluva NDA s ILM. Napriek tomu je táto práca mimoriadnym zlepšením CGI 2020; vykazuje určitú „leskosť“ spojenú s hlboko falošnými modelmi odvodenými z archívnych diel; a vo všeobecnosti je v súlade s najlepším súčasným vizuálnym štandardom pre deepfakes.

Druhá časť názoru fanúšikov je, že nový pokus o 'Young Luke' má a iný súbor nedostatkov než ten predchádzajúci. Snáď najvýrečnejšie je, že nedostatok expresivity a jemné, výstižné emócie vo veľmi dlhých sekvenciách predstavujúcich nový film Skywalker sú typickejšie pre deepfakes ako pre CGI; Verge má popísané the,en Boba Fett simulácia z hľadiska „podivuhodná, prázdna podoba zamrznutej tváre Marka Hamilla z roku 1983“.

Bez ohľadu na technológie, ktoré stoja za novou ILM rekreáciou, hlboké falošné transformácie majú zásadný problém s jemnosťou emócií, ktoré je ťažké riešiť buď zmenami v architektúre, alebo zlepšením zdrojových tréningových materiálov, a ktoré sa zvyčajne vyhýbajú starostlivým rozhodnutiam, ktoré sa šíria vírusom. deepfakeri robia pri výbere cieľového videa.

Obmedzenia zarovnania tváre

Najbežnejšie používané sú dve hlboké falošné úložiská FOSS DeepFaceLab (DFL) a Výmena tváre, oba odvodené od anonymného a kontroverzná 2017 zdrojový kód, pričom DFL má obrovský náskok v odvetví VFX, napriek jeho obmedzenej inštrumentácii.

Každý z týchto balíkov má na začiatku za úlohu extrahovať orientačné body tváre z tvárí, ktoré bol schopný identifikovať zo zdrojového materiálu (tj snímky videí a/alebo statických obrázkov).

Facial Alignment Network (FAN) Adriana Bulata v akcii, z oficiálneho úložiska. Zdroj: https://github.com/1adrianb/face-alignment

Facial Alignment Network (FAN) v akcii z oficiálneho úložiska. Zdroj: https://github.com/1adrianb/face-alignment

DFL aj FaceSwap používajú Sieť na zarovnanie tváre (FAN) knižnica. FAN dokáže vytvoriť 2D a 3D (pozri obrázok vyššie) orientačné body pre extrahované tváre. 3D orientačné body môžu vo veľkej miere zohľadňovať vnímanú orientáciu tváre, až po extrémne profily a relatívne ostré uhly.

Je však zrejmé, že ide o veľmi základné pokyny pre stádo a vyhodnocovanie pixelov:

Z fóra FaceSwap, hrubý indikátor dostupných orientačných bodov pre línie tváre. Zdroj: https://forum.faceswap.dev/viewtopic.php?f=25&t=27

Povolené sú najzákladnejšie línie tváre: oči sa môžu rozširovať a zatvárať, rovnako ako čeľusť, zatiaľ čo základné konfigurácie úst (ako je úsmev, mračenie atď.) je možné sledovať a prispôsobiť. Tvár sa môže otáčať ľubovoľným smerom až o 200 stupňov z pohľadu kamery.

Okrem toho sú to dosť hrubé ploty pre spôsoby, akými sa budú pixely správať v rámci týchto hraníc, a predstavujú jediné skutočne matematické a presné pokyny pre tvár v celom procese deepfake. Samotný tréningový proces jednoducho porovnáva spôsob rozmiestnenia pixelov v rámci týchto hraníc alebo blízko nich.

Školenie v DeepFaceLab. Zdroj: https://medium.com/geekculture/realistic-deepfakes-with-deepfacelab-530e90bd29f2

Keďže neexistuje žiadne ustanovenie pre topológiu podčastí tváre (konvexnosť a konkávnosť líc, starnúce detaily, jamky atď.), nie je ani možné pokus zosúladiť takéto „jemné“ čiastkové funkcie medzi zdrojom ('tvár, cez ktorú chceš napísať') a cieľ ('tvár, ktorú chcete vložiť') identitu.

Vystačíte si s obmedzenými údajmi

Získanie zhodných údajov medzi dvoma identitami na účely tréningu deepfakes je neľahké. Čím nezvyčajnejší je uhol, ktorý potrebujete porovnať, tým viac budete musieť robiť kompromisy v tom, či sa tento (zriedkavý) uhol medzi identitami A a B skutočne vyskytuje. rovnaký výraz.

Tesná, ale nie úplne zhoda.

Vo vyššie uvedenom príklade sú tieto dve identity dosť podobné dispozíciou, ale je to tak blízko, ako sa tento súbor údajov môže dostať k presnej zhode.

Jasné rozdiely zostávajú: uhol a šošovka sa presne nezhodujú a ani osvetlenie; subjekt A nemá úplne zatvorené oči, na rozdiel od subjektu B; kvalita obrazu a kompresia je horšia v objekte A; a nejako sa zdá, že predmet B je veľa šťastnejší než subjekt A.

Ale viete, je to všetko, čo máme, takže aj tak na tom budeme musieť trénovať.

Pretože toto A> nedostatočne fit to alebo overfit to.

Nedostatočná kondícia: Ak je tento zápas skutočne menšinový (tj rodičovský súbor údajov je dosť veľký a často neobsahuje charakteristiky týchto dvoch fotografií), nezaberie to veľa tréningového času v porovnaní s „populárnejšími“ (tj ľahký/ neutrálne) párovania. V dôsledku toho tento uhol/výraz nebude dobre reprezentovaný v deepfake vytvorenom pomocou trénovaného modelu.

Overfit: V zúfalstve nad nedostatočnými zhodami údajov pre také zriedkavé A> duplikovať párovanie mnohokrát v množine údajov, aby mal lepšiu šancu stať sa prvkom v konečnom modeli. To povedie k nadmernému prispôsobeniu, kde pravdepodobne dôjde k falšovaniu videí vytvorených s týmto modelom pedantne opakovať nezhody ktoré sú zrejmé medzi týmito dvoma fotografiami, ako napríklad rozdielna miera zatvorenia očí.

Na obrázku nižšie vidíme Vladimíra Putina, ako sa školí v DeepFaceLab, aby vykonal výmenu za Kevina Spaceyho. Tu je školenie pomerne pokročilé na 160,000 XNUMX iterácií.

Zdroj: https://i.imgur.com/OdXHLhU.jpg

Náhodný pozorovateľ by mohol tvrdiť, že Putin vyzerá trochu, no, priestornejší než Spacey v týchto testovacích výmenách. Pozrime sa, čo online program na rozpoznávanie emócií robí z nesúladu vo výrazoch:

Zdroj: https://www.noldus.com/facereader/measure-your-emotions

Podľa tohto konkrétneho orákula, ktorý analyzuje oveľa podrobnejšiu topografiu tváre ako DFL a Faceswap, je Spacey menej nahnevaný, znechutenýa pohŕdavý než výsledný Putin deepfake v tomto párovaní.

Nerovnaké výrazy prichádzajú ako súčasť zapleteného balíka, pretože populárne deepfakes aplikácie nemajú žiadnu schopnosť registrovať alebo porovnávať výrazy alebo emócie, s výnimkou tichého, ako surového mapovania pixel>pixel.

U nás sú rozdiely obrovské. Učíme sa čítať výrazy tváre ako základnú techniku prežitia od najútlejšieho veku a naďalej sa spoliehať na túto zručnosť v dospelosti na účely sociálnej integrácie a progresie, párenia a ako sústavu hodnotenia hrozieb. Keďže sme veľmi citliví na mikrovýrazy, technológie deepfake budú musieť s tým nakoniec počítať.

Proti zrnu

Hoci deepfake revolúcia priniesla prísľub vloženia „klasických“ filmových hviezd do moderných filmov a televízie, AI sa nemôže vrátiť v čase a natočiť svoje klasické diela v kompatibilnejšej definícii a kvalite, čo je pre tento prípad použitia kľúčové.

Za predpokladu (a pre naše účely nezáleží na tom, či je to nesprávne), že Boba Fett Hamillova rekonštrukcia bola z veľkej časti dielom trénovaného deepfake modelu, dátový súbor pre model by potreboval využiť zábery z obdobia blízko časovej osi predstavenia (tj Hamill ako niečo okolo tridsiatky v čase výroby pre Návrat Jediho, 1981-83).

Film bol výstrel na pažbe Eastman Color Negative 250T 5293/7293, emulzii 250ASA, ktorá bola v tom čase považovaná za strednú až jemnozrnnú, ale bola prekonaná v čistote, farebnom rozsahu a vernosti dokonca aj koncom 1980. rokov. Je to zásoba svojej doby a operného rozsahu Jedi poskytla niekoľko detailných záberov dokonca aj svojim popredným aktérom, čím sa problémy zrnitosti stali ešte kritickejšími, pretože zdrojové tváre zaberajú iba časť snímky.

Rozsah scén Hamilla vo filme Návrat Jediho (1983).

Rad scén Hamilla v Návrat Jediho (1983).

Navyše, veľa záznamov s VFX s Hamillom by prešlo optickou tlačiarňou, čím by sa zvýšila zrnitosť filmu. Tento problém by však mohol vyriešiť prístup k archívom Lucasfilmu – ktoré sa pravdepodobne dobre postarali o hlavné negatívy a mohli by ponúknuť hodiny ďalších nepoužitých nespracovaných záberov.

Niekedy je možné pokryť rozsah rokov výkonu herca, aby sa zvýšil a diverzifikoval súbor údajov deepfakes. V Hamillovom prípade sú deepfakeri ochromení jeho zmena vzhľadu po autonehode v roku 1977 a skutočnosť, že takmer okamžite začal svoju druhú kariéru ako uznávaný hlasový herec po r. Jedi, čím je zdrojový materiál relatívne vzácny.

Obmedzený rozsah emócií?

Ak potrebujete, aby váš hlboko falošný herec žuval scenériu, budete potrebovať zdrojový záznam, ktorý obsahuje nezvyčajne širokú škálu výrazov tváre. Je možné, že na jedinom dostupnom zábere zodpovedajúcom veku nie je veľa takýchto výrazov.

Napríklad v čase, keď sa príbeh oblúka Návrat Jediho Prišlo, Hamillova postava do značnej miery zvládla svoje emócie, čo je vývoj absolútne ústredný pre pôvodnú franšízovú mytológiu. Preto ak vytvoríte Hamill deepfake model z Jedi dáta, budete musieť pracovať s obmedzenejším rozsahom emócií a nezvyčajným vyrovnaním tváre, ktoré si od neho Hamillova rola v tom čase vyžadovala, v porovnaní s jeho predchádzajúcimi vstupmi do franšízy.

Aj keď si uvedomíte, že sú tam momenty Návrat Jediho tam, kde je postava Skywalkera v strese a mohla by poskytnúť materiál pre väčší rozsah výrazov, materiál tváre v týchto scénach je napriek tomu prchavý a podlieha rozmazaniu pohybu a rýchlemu strihu, ktoré sú typické pre akčné scény; takže údaje sú dosť nevyvážené.

Zovšeobecnenie: Splynutie emócií

v prípade, že Boba Fett Rekreácia Skywalkera je skutočne hlboký falošný, nedostatok expresívneho rozsahu, ktorý sa proti nej z niektorých strán postavil, by nebol úplne spôsobený obmedzeným zdrojovým materiálom. Tréningový proces kódovač-dekodér deepfakes hľadá a generalizovaný model, ktorý úspešne destiluje ústredné prvky z tisícok obrázkov a dokáže aspoň pokus na hlboké sfalšovanie uhla, ktorý v súbore údajov chýbal alebo bol zriedkavý.

Nebyť tejto flexibility, deepfake architektúra by jednoducho kopírovala a prilepovala základné morfy na základe jednotlivých snímok, bez zohľadnenia časovej adaptácie alebo kontextu.

Bolestivým kompromisom za túto všestrannosť je však to, že vernosť vyjadrenia bude pravdepodobne obeťou procesu a akékoľvek vyjadrenia, ktoré sú „jemné“ nemusia byť tie správne. Všetci hráme svoje tváre ako 100-členné orchestre a sme na to dobre vybavení, zatiaľ čo deepfake softvéru pravdepodobne chýba aspoň sláčiková sekcia.

Nerovnosť afektov vo výrazoch

Pohyby tváre a ich účinky na nás nie sú jednotným jazykom všetkých tvárí; zdvihnuté obočie, ktoré na Rogerovi Mooreovi vyzerá bezstarostne, môže na Sethovi Roganovi vyzerať menej sofistikovane, zatiaľ čo zvodná príťažlivosť Marilyn Monroe by sa mohla premietnuť do negatívnejšej emócie, ak by bola hlboko predstieraná na osobu, ktorej najdostupnejšia rola je „nahnevaná“ alebo „nelojálna“. (ako je postava Aubrey Plaza v siedmich sezónach Parks and Recreation).

Preto pixel>

Pravdepodobne je potrebný hlboký falošný rámec, ktorý nielenže dokáže rozpoznať výrazy a odvodiť emócie, ale má schopnosť stelesniť koncepty na vysokej úrovni, ako napr. nahnevaný, zvodný, znudený, unavenýatď., a kategorizovať tieto emócie a ich súvisiace prejavy v každej z dvoch identít s tvárou namiesto skúmania a replikácie dispozície úst alebo očného viečka.

Prvýkrát zverejnené 3. februára 2022. Aktualizované o 7:47 EET, nesprávne priradenie názvu.