Umělá inteligence

Úsvit hluboce padělaných emocí

Published September 20, 2021

Updated April 28, 2026

Martin Anderson

Výzkumníci vyvinuli novou techniku strojového učení, která umožňuje libovolně ukládat nové emoce na obličeje ve videu, a to úpravou existujících technologií, které se nedávno objevily jako řešení pro synchronizaci pohybů rtů s dabingem cizích jazyků.

Výzkum je rovnocennou spoluprací mezi Northeastern University v Bostonu a Media Lab na MIT a je nazván Převratné čelenky: Video-to-Video Facial Emotion Translation. Ačkoli výzkumníci připouštějí, že počáteční kvalita výsledků musí být dále vyvinuta, tvrdí, že technika, nazvaná Wav2Lip-Emotion, je první svého druhu, která přímo řeší úplnou modifikaci výrazu ve videu pomocí neuronových sítí.

Základní kód byl vydán na GitHubu, ačkoli kontrolní body modelu budou přidány do otevřené repozitáře později, slibují autoři.

Vlevo, ‘smutný’ rámec zdrojového videa. Vpravo, ‘šťastný’ rámec. Uprostřed jsou dva začínající přístupy k syntéze alternativních emocí – horní řada: plně maskovaný obličej, kde byla nahrazena celá plocha výrazu; spodní řada: tradiční metoda Wav2Lip, která nahrazuje pouze spodní část obličeje. Zdroj: https://raw.githubusercontent.com/jagnusson/Wav2Lip-Emotion/main/literature/ADGD_2021_Wav2Lip-emotion.pdf

Jedno video jako zdrojová data

Teoreticky jsou takové manipulace dosažitelné nyní prostřednictvím plného tréninku na tradičních repozitářích hlubokých padělků, jako je DeepFaceLab nebo FaceSwap. Nicméně standardní pracovní postup by zahrnoval použití alternativní identity pro ‘cílovou’ identitu, jako je herec napodobující cílovou osobu, jejíž vlastní výrazy by byly přeneseny na jinou osobu, spolu se zbytkem výkonu. Kromě toho by obvykle byly nutné techniky hlubokého padělatelství hlasu, aby se dokončilo klamání.

Další, skutečná změna výrazu target1>target1 v jediném zdrojovém videu v rámci těchto populárních rámců by vyžadovala změnu vektorů zarovnání obličeje způsobem, který tyto architektury目前 nepodporují.

Wav2Lip-Emotion zachovává synchronizaci rtů původního videozáznamu při transformaci přidružených výrazů.

Místo toho Wav2Lip-Emotion účinně seeks to ‘copy and paste’ emotion-related expressions from one part of a video and substitute them into other points, with a self-imposed frugality of source data that’s intended eventually to offer a lower-effort method for expression manipulation.

Offline modely mohly být později vyvinuty tak, aby byly trénovány na alternativních videích mluvčího, což by eliminovalo potřebu, aby jedno video obsahovalo ‘paletu’ stavů výrazu, se kterými by se video manipulovalo.

Potenciální účely

Autoři navrhují několik aplikací pro modifikaci výrazu, včetně živého video filtru, který kompenzuje účinky PTSD a obličejové paralýzy. Článek uvádí:

‘Jednotlivci s nebo bez inhibovaných obličejových výrazů mohou těžit z ladění svých vlastních výrazů, aby lépe odpovídaly jejich společenským okolnostem. Jedna osoba může chtít změnit výrazy ve videích zobrazených jim. Mluvčí mohou na sebe křičet během video konference, ale přesto chtějí získat obsah jejich výměny bez nepříjemných výrazů. Nebo filmový režisér může chtít zvýšit nebo snížit výrazy herce.’

Protože obličejový výraz je klíčovým a základním ukazatelem záměru, i když se může třít o slova, která jsou vyslovována, schopnost měnit výraz také nabízí, do jisté míry, schopnost měnit, jak je komunikace přijímána.

Předchozí práce

Zájem o strojové učení a modifikaci výrazu sahá nejméně do roku 2012, kdy spolupráce mezi Adobe, Facebookem a Rutgers University navrhla metodu pro změnu výrazů pomocí tensorového 3D geometrického přístupu, který namáhavě ukládal CGI mesh na každý rámec cílového videa, aby vyvolal změnu.

Výzkum Adobe/Facebook z roku 2012 manipuloval výrazy ukládáním tradičních, CGI-driven změn na videozáznam. Výrazy mohly být zvýšeny nebo potlačeny. Zdroj: https://yfalan.github.io/files/papers/FeiYang_CVPR2012.pdf

Ačkoli výsledky byly slibné, technika byla náročná a zdroje, které byly potřebné, byly značné. V tomto okamžiku byla CGI daleko před počítačovými vizuálními přístupy k přímé manipulaci funkcí a pixelů.

Více související s novým článkem je MEAD, dataset a model generování výrazu, který byl vydán v roce 2020, schopný generovat ‘talking-head’ videa, i když bez úrovně sofistikovanosti, která je potenciálně dosažitelná modifikací skutečného zdrojového videa přímo.

Generování výrazu s MEAD z roku 2020, spolupráce mezi SenseTime Research, Carnegie Mellon a třemi čínskými univerzitami. Zdroj: https://wywu.github.io/projects/MEAD/MEAD.html

V roce 2018 se objevila další práce, nazvaná GANimation: Anatomically-aware Facial Animation from a Single Image, jako akademická spolupráce mezi USA a Španělskem, a použila Generative Adversarial Networks ke zvýšení nebo změně výrazů ve statických obrazech pouze.

Změna výrazů ve statických obrazech s GANimation. Zdroj: https://arxiv.org/pdf/1807.09251.pdf

Wav2Lip-Emotion

Místo toho je nový projekt založen na Wav2Lip, který získal publicitu v roce 2020 nabídkou potenciální metody pro re-synchronizaci pohybů rtů, aby se přizpůsobily novému vstupu řeči (nebo písni), který se nevyskytoval v původním videu.

Původní architektura Wav2Lip byla trénována na korpusu mluvených vět z archivů BBC. Aby výzkumníci přizpůsobili Wav2Lip úkolu změny výrazu, ‘jemně’ upravili architekturu na výše zmíněném datasetu MEAD.

MEAD se skládá z 40 hodin videa s 60 herci, kteří čtou stejnou větu, zatímco provádějí různé obličejové výrazy. Herce pocházejí z 15 různých zemí a nabízejí řadu mezinárodních charakteristik, jejichž cílem je pomoci projektu (a odvozeným projektům) produkovat aplikovatelnou a dobře zobecněnou syntézu výrazu.

V době výzkumu MEAD vydal pouze první část datasetu, který zahrnoval 47 osob, které prováděly výrazy, jako je ‘hněv’, ‘odpor’, ‘strach’, ‘pohrdání’, ‘šťastný’, ‘smutný’ a ‘překvapení’. V tomto počátečním výstupu do nového přístupu výzkumníci omezili rozsah projektu na superimpozici nebo jinou změnu vnímaných emocí ‘šťastný’ a ‘smutný’, protože tyto jsou nejlépe rozpoznatelné.

Metoda a výsledky

Původní architektura Wav2Lip nahrazuje pouze spodní část obličeje, zatímco Wav2Lip-Emotion také experimentuje s plnou náhradou masky a syntézou výrazu. Proto bylo nutné, aby výzkumníci navíc upravili vestavěné metody hodnocení, protože tyto nebyly navrženy pro plnou konfiguraci obličeje.

Autoři vylepšují původní kód tím, že zachovávají původní audio vstup, udržují konzistenci pohybů rtů.

Generátorový prvek zahrnuje identifikační kód, kódovací řeč a dekodér obličeje, v souladu s předchozí prací. Řečový prvek je zakódován navíc jako zásobené 2D konvoluce, které jsou následně spojovány se svými přidruženými rámci.

Kromě generátorového prvku modifikovaná architektura zahrnuje tři hlavní diskriminační komponenty, zaměřené na kvalitu synchronizace rtů, emocionální cíl a adversarially trénovaný vizuální kvalitní cíl.

Pro plnou rekonstrukci obličeje původní práce Wav2Lip neobsahovala žádný precedent, a proto byl model trénován od začátku. Pro trénink spodní části obličeje (poloviční maska) výzkumníci pokračovali z kontrolních bodů zahrnutých v původním kódu Wav2Lip.

Kromě automatického hodnocení výzkumníci použili polově automatizovanou službu platformy. Pracovníci obecně hodnotili výstup highly v terms of rozpoznávání superimponovaných emocí, zatímco pouze hlásili ‘střední’ hodnocení pro kvalitu obrazu.

Autoři navrhují, že kromě zlepšení vygenerované kvality videa s dalšími vylepšeními by budoucí iterace práce mohly zahrnovat širší rozsah emocí a že práce by mohla být stejně aplikována v budoucnu na označená nebo automaticky inferovaná zdrojová data a datasety, vedoucí nakonec k autentickému systému, ve kterém by emoce mohly být ‘přepnuty’ nahoru nebo dolů podle uživatele, nebo nakonec nahrazeny kontrastními emocemi ve vztahu k původnímu zdrojovému videu.