Umělá inteligence

RigNeRF: Nová metoda Deepfakes, která využívá pole neurálního záření

aktualizováno on 9. prosince 2022

Nový výzkum vyvinutý ve společnosti Adobe nabízí první životaschopnou a efektivní metodu deepfakes založenou na Pole neuronového záření (NeRF) – možná první skutečná inovace v architektuře nebo přístupu za pět let od vzniku deepfakes v roce 2017.

Metoda s názvem RigNeRF, použití 3D morfovatelné modely obličeje (3DMM) jako intersticiální vrstva instrumentality mezi požadovaným vstupem (tj. identitou, která má být vložena do vykreslení NeRF) a nervovým prostorem, což je metoda, která byla v posledních letech široce přijímané od Generative Adversarial Network (GAN) přístupy syntézy obličejů, z nichž žádný dosud nevytvořil funkční a užitečné rámce pro nahrazování obličejů pro video.

Z doplňkového materiálu pro nový článek vidíme, že 3D morfovatelný model obličeje (3DMM) funguje jako rozhraní mezi 70 sekundami skutečného záznamu pořízeného ze smartphonu, který tvoří tréninkovou datovou sadu, a obvykle stoickými parametry pole neuronového záření. vizualizace. Verzi tohoto klipu ve vysokém rozlišení spolu s mnoha dalšími naleznete na stránce projektu nebo ve vložených videích na konci tohoto článku. Zdroj: https://shahrukhathar.github.io/2022/06/06/RigNeRF.html

Na rozdíl od tradičních deepfake videí není absolutně žádný z pohyblivého obsahu zde zobrazený „skutečný“, ale spíše jde o prozkoumatelný nervový prostor, který byl natrénován na krátkých záběrech. Vpravo vidíme 3D morfovatelný model obličeje (3DMM), který funguje jako rozhraní mezi požadovanými manipulacemi ("úsměv", "podívat se doleva", "podívat se nahoru" atd.) a obvykle neovlivnitelnými parametry pole neuronového záření. vizualizace. Verzi tohoto klipu ve vysokém rozlišení spolu s dalšími příklady naleznete na Stránka projektunebo vložená videa na konci tohoto článku. Zdroj: https://shahrukhathar.github.io/2022/06/06/RigNeRF.html

3DMM jsou v podstatě CGI modely tváří, jejichž parametry lze přizpůsobit abstraktnějším systémům syntézy obrazu, jako jsou NeRF a GAN, které se jinak obtížně ovládají.

To, co vidíte na obrázku výše (prostřední obrázek, muž v modré košili), stejně jako obrázek přímo pod ním (levý obrázek, muž v modré košili), není „skutečné“ video, do kterého je vložena malá skvrna „ falešná tvář byla překryta, ale zcela syntetizovaná scéna, která existuje pouze jako objemové nervové vykreslování – včetně těla a pozadí:

V příkladu přímo výše je video ze skutečného života vpravo (žena v červených šatech) použito k „loutce“ zachycené identity (muž v modré košili) vlevo přes RigNeRF, což (autoři tvrdí) je první Systém založený na NeRF pro dosažení oddělení pozice a výrazu a zároveň je schopen provádět nové syntézy pohledu.

Mužská postava vlevo na obrázku výše byla „zachycena“ ze 70sekundového videa ze smartphonu a vstupní data (včetně informací o celé scéně) byla následně trénována přes 4 GPU V100, aby se získala scéna.

Protože parametrické soupravy ve stylu 3DMM jsou k dispozici také jako celotělové parametrické CGI proxy (spíše než jen obličejové rigy), RigNeRF potenciálně otevírá možnost deepfakes celého těla, kde je skutečný lidský pohyb, textura a výraz předáván parametrické vrstvě založené na CGI, která pak převádí akci a výraz do vykreslených NeRF prostředí a videí. .

Pokud jde o RigNeRF – kvalifikuje se jako metoda deepfake v současném smyslu, že titulky tomu termínu rozumí? Nebo je to jen další napůl omráčený, který se také dostal do DeepFaceLab a dalších pracně náročných autoenkodérových deepfake systémů z éry 2017?

Výzkumníci nového článku jsou v tomto bodě jednoznační:

'RigNeRF je metodou, která je schopna oživit tváře, je náchylná ke zneužití špatnými herci k vytváření hlubokých padělků.'

Nový papír je s názvem RigNeRF: Plně ovladatelné neuronové 3D portréty, a pochází od ShahRukh Atha ze Stonybrook University, stážisty v Adobe během vývoje RigNeRF, a čtyř dalších autorů z Adobe Research.

Kromě Deepfakes založených na automatickém kodéru

Většinu virových deepfakeů, které zachytily titulky v posledních několika letech, produkuje automatické kódovánísystémy založené na kódu, který byl zveřejněn na rychle zakázaném subredditu r/deepfakes v roce 2017 – i když ne dříve zkopírován na GitHub, kde byl v současnosti forkován více než tisíckrát, v neposlední řadě do populárního (pokud kontroverzní) DeepFaceLab distribuce a také Výměna tváře projekt.

Kromě GAN a NeRF také rámce autokodéru experimentovaly s 3DMM jako „pokyny“ pro vylepšené rámce pro syntézu obličeje. Příkladem toho je Projekt HifiFace od července 2021. Zdá se však, že se z tohoto přístupu dodnes nevyvinuly žádné použitelné nebo oblíbené iniciativy.

Data pro scény RigNeRF se získávají zachycením krátkých videí smartphonem. Pro projekt použili výzkumníci RigNeRF pro všechny experimenty iPhone XR nebo iPhone 12. V první polovině zachycení je objekt požádán, aby provedl širokou škálu výrazů obličeje a řeči, a přitom držel hlavu v klidu, když se kolem ní pohybuje fotoaparát.

Ve druhé polovině záběru si kamera zachovává pevnou pozici, zatímco objekt musí pohybovat hlavou a přitom vyjadřovat širokou škálu výrazů. Výsledných 40–70 sekund záznamu (kolem 1200–2100 snímků) představuje celý soubor dat, který bude použit k trénování modelu.

Omezení shromažďování dat

Naproti tomu systémy autoencoderů, jako je DeepFaceLab, vyžadují poměrně pracné shromažďování a ošetřování tisíců různorodých fotografií, často pořízených z videí na YouTube a dalších kanálů sociálních médií a také z filmů (v případě deepfakes celebrit).

Výsledné trénované modely autokodéru jsou často určeny k použití v různých situacích. Avšak ti nejnáročnější „celebritní“ deepfakeři mohou trénovat celé modely od nuly pro jediné video, a to navzdory skutečnosti, že školení může trvat týden nebo déle.

Navzdory varovné poznámce od výzkumníků nového článku se zdá, že „patchwork“ a široce sestavené datové sady, které podporují AI porno, stejně jako populární „deepfake recastings“ na YouTube/TikTok, pravděpodobně nepřinesou přijatelné a konzistentní výsledky v systému deepfake, jako je RigNeRF, který má metodologii specifickou pro scénu. Vzhledem k omezením sběru dat nastíněným v nové práci by to mohlo být do určité míry dalším zabezpečením proti náhodnému zpronevěry identity zákeřnými deepfakery.

Přizpůsobení NeRF na Deepfake Video

NeRF je metoda založená na fotogrammetrii, ve které je malý počet zdrojových snímků pořízených z různých úhlů pohledu sestaven do prozkoumatelného 3D neurálního prostoru. Tento přístup se dostal do popředí počátkem tohoto roku, kdy jej společnost NVIDIA představila Okamžitý NeRF systém schopný zkrátit přemrštěné tréninkové časy pro NeRF na minuty nebo dokonce sekundy:

Okamžitý NeRF. Zdroj: https://www.youtube.com/watch?v=DJ2hcC1orc4

Výsledná scéna Neural Radiance Field je v podstatě statické prostředí, které lze prozkoumat, ale které je obtížné upravit. Výzkumníci poznamenávají, že dvě předchozí iniciativy založené na NeRF – HyperNeRF + E/P a NerFACE – pustili se do syntézy obličejového videa a (zřejmě kvůli úplnosti a pečlivosti) postavili RigNeRF proti těmto dvěma rámcům v testovacím kole:

Kvalitativní srovnání mezi RigNeRF, HyperNeRF a NerFACE. Verze ve vyšší kvalitě najdete v odkazovaných zdrojových videích a PDF. Zdroj statického obrázku: https://arxiv.org/pdf/2012.03065.pdf

V tomto případě jsou však výsledky, které upřednostňují RigNeRF, poměrně anomální, a to ze dvou důvodů: za prvé, autoři poznamenávají, že „neexistuje žádná existující práce pro srovnání jablka s jablkem“; za druhé, toto si vyžádalo omezení schopností RigNeRF, aby se alespoň částečně vyrovnaly omezenější funkčnosti předchozích systémů.

Vzhledem k tomu, že výsledky nejsou přírůstkovým vylepšením předchozí práce, ale spíše představují „průlom“ v upravitelnosti a užitečnosti NeRF, necháme testovací kolo stranou a místo toho se podíváme, co RigNeRF dělá jinak než jeho předchůdci.

Kombinované síly

Primárním omezením NerFACE, který může vytvářet kontrolu pozice/výrazu v prostředí NeRF, je to, že předpokládá, že zdrojový záznam bude pořízen statickou kamerou. To efektivně znamená, že nemůže vytvářet nové pohledy, které přesahují její omezení zachycení. To vytváří systém, který dokáže vytvářet „pohyblivé portréty“, ale který je nevhodný pro video ve stylu deepfake.

Na druhé straně HyperNeRF, přestože je schopen generovat nové a hyperreálné pohledy, nemá žádnou instrumentalitu, která by mu umožňovala měnit pozice hlavy nebo výrazy obličeje, což opět nevede k žádnému konkurentovi pro deepfakes založené na autoencoderu.

RigNeRF je schopen zkombinovat tyto dvě izolované funkce vytvořením „kanonického prostoru“, výchozí základní linie, od které lze prostřednictvím vstupu z modulu 3DMM uzákonit odchylky a deformace.

Vytvoření „kanonického prostoru“ (žádná pozice, žádný výraz), na který mohou působit deformace (tj. pozice a výrazy) vytvořené prostřednictvím 3DMM.

Vzhledem k tomu, že systém 3DMM nebude přesně odpovídat snímanému objektu, je důležité to v procesu kompenzovat. RigNeRF toho dosahuje pomocí deformačního pole dříve, které se vypočítá z a Vícevrstvý Perceptron (MLP) odvozené ze zdrojových záběrů.

Parametry kamery potřebné pro výpočet deformací se získají pomocí COLMAP, zatímco parametry výrazu a tvaru pro každý snímek jsou získávány z DEKA.

Polohování je dále optimalizováno mezník kování a parametry kamery COLMAP a kvůli omezením výpočetních zdrojů je video výstup pro trénink převzorkován na rozlišení 256×256 (hardwarově omezený proces zmenšování, který také trápí scénu deepfaking autoencoderu).

Poté je deformační síť trénována na čtyřech V100 – impozantním hardwaru, který pravděpodobně nebude v dosahu příležitostných nadšenců (nicméně pokud jde o trénink strojového učení, je často možné vyměnit náročnost za čas a jednoduše přijmout tento model. trénink bude otázkou dnů nebo dokonce týdnů).

Na závěr výzkumníci konstatují:

"Na rozdíl od jiných metod je RigNeRF díky použití 3DMM řízeného deformačního modulu schopen modelovat pozici hlavy, výrazy obličeje a celou scénu 3D portrétu s vysokou věrností, čímž poskytuje lepší rekonstrukce s ostrými detaily."

Další podrobnosti a záznam výsledků najdete ve vložených videích níže.

RigNeRF: Plně ovladatelné neuronové 3D portréty