Umělá inteligence

Přestavba obličejů ve videích pomocí strojového učení

Published May 9, 2022

Updated April 5, 2026

Martin Anderson

Výzkumná spolupráce mezi Čínou a Spojeným královstvím vyvinula novou metodu pro přestavbu obličejů ve videu. Tato technika umožňuje přesvědčivé rozšiřování a zužování obličejové struktury, s vysokou konzistencí a absencí artifactů.

Z YouTube videa použitého jako zdroj materiálu výzkumníky, herečka Jennifer Lawrence vypadá jako více liščí osobnost (vpravo). Viz doprovodné video vložené na konci článku pro mnoho dalších příkladů v lepší rozlišení. Source: https://www.youtube.com/watch?v=tA2BxvrKvjE

Z YouTube videa použitého jako zdroj materiálu výzkumníky, herečka Jennifer Lawrence vypadá jako více hubená osobnost (vpravo). Viz doprovodné video vložené na konci článku pro mnoho dalších příkladů v lepší rozlišení. Source: https://www.youtube.com/watch?v=tA2BxvrKvjE

Tento typ transformace je obvykle možný pouze pomocí tradičních CGI metod, které by vyžadovaly kompletní rekreaci obličeje prostřednictvím podrobných a nákladných procedur motion-capping, rigging a texturing.

Místo toho je CGI v této technice integrována do neuronové pipeline jako parametrická 3D obličejová informace, která je následně použita jako základ pro workflow strojového učení.

Tradiční parametrické obličeje jsou stále více používány jako směrnice pro transformační procesy, které používají AI místo CGI. Source: https://arxiv.org/pdf/2205.02538.pdf

Autoři uvádějí:

‘Naším cílem je vygenerovat vysoké kvality portrétní video přestavby [výsledků] úpravou celkové tvaru portrétních obličejů podle přirozené obličejové deformace v reálném světě. To lze použít pro aplikace, jako je generování tvarů obličejů pro krášlení a přehánění obličejů pro vizuální efekty.’

Ačkoli 2D tvárné a zkreslení obličejů je k dispozici spotřebitelům od vzniku Photoshopu (a vedlo k podivným a často nepřijatelným sub-kulturám kolem tvárného a zkreslení obličejů a těla), je to obtížný trik provést ve videu bez použití CGI.

Mark Zuckerbergovy rozměry rozšířeny a zúženy čínsko-britskou technikou.

Mark Zuckerbergovy obličejové rozměry rozšířeny a zúženy novou čínsko-britskou technikou.

Přestavba těla je v současné době oblastí intenzivního zájmu v počítačovém vidění, principalmente kvůli jeho potenciálu v módním e-commerce, ačkoli udělat někoho vypadat vyššího nebo skeletálně rozmanitého je v současné době značná výzva.

Podobně, změna tvaru hlavy ve videu ve konzistentní a přesvědčivé podobě byla předmětem předchozích prací od nových výzkumníků, ačkoli tato implementace trpěla artifacty a dalšími omezeními. Nová nabídka rozšiřuje schopnost této předchozí výzkumu z statického na video výstup.

Nový systém byl vyškolen na desktopovém PC s AMD Ryzen 9 3950X a 32GB paměti, a používá optický tok algoritmu z OpenCV pro motion mapy, vyhlazené StructureFlow rámcem; Facial Alignment Network (FAN) komponent pro odhadování landmarků, který je také použit v populárních deepfakes balíčcích; a Ceres Solver pro řešení optimalizačních problémů.

Extrémní příklad tvárného rozšiřování s novým systémem.

Článek je nazvaný Parametrická přestavba portrétů ve videích, a pochází od tří výzkumníků z Zhejiang University a jednoho z University of Bath.

O obličeji

Pod novým systémem je video extrahováno do sekvence obrázků, a rigidní pose je nejprve odhadnuta pro každou tvář. Poté je reprezentativní počet následujících snímků společně odhadnut pro konstrukci konzistentních identifikačních parametrů podél celé řady obrázků (tj. snímků videa).

Architektonický tok tvárného systému.

Poté je vyjádření vyhodnoceno, což vede k parametru přestavby, který je implementován lineární regresí. Další novou signovanou vzdálenostní funkcí (SDF) přístup konstruuje hustou 2D mapu obličejových linií před a po přestavbě.

Nakonec je provedena optimalizace tvárného obsahu na výstupním videu.

Parametrické obličeje

Proces využívá 3D Morphable Face Model (3DMM), který je stále více populární adjunkt neurální a GAN-založené tvárné syntézy systémů, stejně jako je použitelný pro deepfake detekční systémy.

Ne z článku, ale příklad 3D Morphable face Modelu (3DMM) – parametrického prototypu obličeje použitým v novém projektu. Horní levá, aplikaci landmarků na 3DMM obličeji. Horní pravá, 3D mesh vrcholy isomapy. Spodní levá ukazuje landmark fitting; spodní-střed, isomapa extrahované obličejové textury; a spodní pravá, výsledné fitting a tvar. Source: http://www.ee.surrey.ac.uk/CVSSP/Publications/papers/Huber-VISAPP-2016.pdf

Ne z nového článku, ale příklad 3D Morphable face Modelu (3DMM) – parametrického prototypu obličeje použitým v novém projektu. Horní levá, aplikaci landmarků na 3DMM obličeji. Horní pravá, 3D mesh vrcholy isomapy. Spodní levá ukazuje landmark fitting; spodní-střed, isomapa extrahované obličejové textury; a spodní pravá, výsledné fitting a tvar. Source: http://www.ee.surrey.ac.uk/CVSSP/Publications/papers/Huber-VISAPP-2016.pdf

Práce nového systému musí zohledňovat případy zakrytí, jako je případ, kdy se subjekt odvrací. To je jedna z největších výzev v deepfake softwaru, protože FAN landmarky mají malou kapacitu pro tyto případy a tendenci k rozkladu kvality, jak se obličej odvrací nebo je zakryt.

Nový systém je schopen se vyhnout této pasti definováním konturové energie, která je schopna odpovídat hranici mezi 3D obličejem (3DMM) a 2D obličejem (jak je definován FAN landmarky).

Optimalizace

Užitečná nasazení takového systému by bylo implementovat reálnou deformaci, například ve video-chat filtrech. Současný rámec to neumožňuje, a výpočetní zdroje by vyžadovaly “živou” deformaci jako významnou výzvu.

Podle článku, a předpokládající 24fps video cíl, operace na snímku v potrubí představují latenci 16,344 sekund pro každou sekundu snímků, s dalšími jednorázovými údery pro identifikační odhad a 3D tvárnou deformaci (321ms a 160ms, resp.).

Proto je optimalizace klíčová pro pokrok směrem k nižší latenci. Protože společná optimalizace napříč všemi snímky by přidala váženou režii procesu, a init-styl optimalizace (předpokládající konzistentní následnou identitu mluvčího z prvního snímku) by mohla vést k anomáliím, autoři přijali řídký schema pro výpočet koeficientů snímků vzorkovaných na praktických intervalech.

Společná optimalizace je poté provedena na tomto podmnožině snímků, vedoucí k hubenějšímu procesu rekonstrukce.

Tvárné

Technika tvárného systému je adaptací autorů práce z roku 2020 Deep Shapely Portraits (DSP).

Deep Shapely Portraits, příspěvek z roku 2020 do ACM Multimedia. Článek je veden výzkumníky z ZJU-Tencent Game a Intelligent Graphics Innovation Technology Joint Lab. Source: http://www.cad.zju.edu.cn/home/jin/mm2020/demo.mp4

Autoři pozorují ‘Rozšiřujeme tuto metodu z přestavby jednoho monokulárního obrazu na přestavbu celé sekvence obrazů.’

Testy

Článek uvádí, že neexistoval žádný srovnatelný předchozí materiál, proti kterému by se nová metoda mohla hodnotit. Proto autoři porovnali snímky svého tvárného video výstupu proti statickému DSP výstupu.

Testování nového systému proti statickým obrazům z Deep Shapely Portraits.

Autoři uvádějí:

‘Výsledky ukazují, že náš přístup může robustně produkovat koherentní přestavby portrétů, zatímco metoda založená na obrazech může snadno vést k nápadným artifactům.’

Viz doprovodné video níže, pro více příkladů:

Poprvé publikováno 9. května 2022. Opraveno 18:00 EET, nahradilo “field” za “function” pro SDF.

Related Topics:deepfake DeepFakes image synthesis research