Andersons vinkel

RigNeRF: En ny metod för deepfakes som anvÀnder Neural Radiance Fields

mm

Ny forskning som utvecklats på Adobe erbjuder den första livskraftiga och effektiva metoden för deepfakes baserad på Neural Radiance Fields (NeRF) – kanske den första riktiga innovationen i arkitektur eller tillvägagångssätt under de fem år som har gått sedan deepfakes dök upp 2017.

Metoden, som heter RigNeRF, använder 3D-morferbara ansiktsmodeller (3DMMs) som en mellanliggande instrumentell lager mellan önskad indata (dvs. identiteten som ska påföras NeRF-renderingen) och neurala rummet, en metod som har vidtspridds i senare år av Generative Adversarial Network (GAN) ansikts syntes tillvägagångssätt, ingen av dem har ännu producerat fungerande och användbara ansikts utbytes ramverk för video.

Från supplementmaterial för den nya artikeln, ser vi den 3D-morferbara ansiktsmodellen (3DMM) som fungerar som en gränssnitt mellan 70 sekunder av riktiga filmsekvenser tagna från en smartphone, som utgör träningsdataset, och de vanligtvis stoiska parametrarna för en Neural Radiance Field visualisering. För en högupplöst version av denna klipp, tillsammans med många andra, se projektets sida, eller de inbäddade videorna i slutet av den här artikeln. Källa: https://shahrukhathar.github.io/2022/06/06/RigNeRF.html

Till skillnad från traditionella deepfake-videor, är absolut ingen av den rörliga innehållet som visas här “verklig”, utan snarare en utforskbar neural rum som tränades på kort filmsekvens. På höger sida ser vi den 3D-morferbara ansiktsmodellen (3DMM) som fungerar som en gränssnitt mellan önskad manipulation (‘le’, ‘titta vänster’, ‘titta upp’, etc.) och de vanligtvis oformliga parametrarna för en Neural Radiance Field visualisering. För en högupplöst version av denna klipp, tillsammans med andra exempel, se projektets sida, eller de inbäddade videorna i slutet av den här artikeln. Källa: https://shahrukhathar.github.io/2022/06/06/RigNeRF.html

3DMMs är i princip CGI-modeller av ansikten, vars parametrar kan anpassas till mer abstrakta bildsyntes system, såsom NeRF och GAN, som annars är svåra att kontrollera.

Vad du ser i bilden ovan (mittenbilden, mannen i blå skjorta), samt bilden direkt under (vänsterbilden, mannen i blå skjorta), är inte en “verklig” video som en liten fläck av “falskt” ansikte har lagts till, utan en helt syntetiserad scen som enbart existerar som ett volymetriskt neuralt render – inklusive kropp och bakgrund:

I exemplet ovan används den riktiga videon på höger sida (kvinnan i röd klänning) för att “marionett” den infångade identiteten (mannen i blå skjorta) på vänster sida via RigNeRF, som (författarna hävdar) är det första NeRF-baserade systemet som uppnår separation av pose och uttryck samtidigt som det kan utföra nya vy synteser.

Den manliga figuren på vänster sida i bilden ovan “fångades” från en 70-sekunders smartphonevideo, och indata (inklusive hela sceninformationen) tränades sedan över 4 V100 GPU:er för att erhålla scenen.

Sedan 3DMM-stil parametriska riggar också finns tillgängliga som hela kroppen parametriska CGI-proxys (snarare än bara ansiktsriggar), öppnar RigNeRF potentiellt möjligheten för fullständiga deepfakes där riktiga mänskliga rörelser, textur och uttryck överförs till den CGI-baserade parametriska lagern, som sedan skulle översätta handling och uttryck till renderade NeRF-miljöer och videor.

Så vad gäller RigNeRF – kvalificerar det som en deepfake-metod i den nuvarande betydelsen som rubrikerna förstår termen? Eller är det bara en annan halvhjärtad också-ran till DeepFaceLab och andra arbetsintensiva, 2017-års autoencoder deepfake system?

Forskarna bakom den nya artikeln är otydliga på denna punkt:

‘Att vara en metod som kan återanvända ansikten, är RigNeRF benägen att missbrukas av illvilliga aktörer för att generera deepfakes.’

Den nya artikeln heter RigNeRF: Fullständigt kontrollerbara neurala 3D-porträtt, och kommer från ShahRukh Atha från Stonybrook University, en praktikant på Adobe under RigNeRF:s utveckling, och fyra andra författare från Adobe Research.

Bortom Autoencoder-baserade Deepfakes

Majoriteten av de virala deepfakes som har fångat rubriker under de senaste åren är producerade av autoencoder-baserade system, som härstammar från koden som publicerades på det snabbt förbjudna r/deepfakes subreddit 2017 – fast inte förrän den hade kopierats till GitHub, där den för närvarande har över ett tusen grenar, inte minst in i den populära (om kontroversiella) DeepFaceLab distributionen, och också FaceSwap projektet.

Förutom GAN och NeRF har autoencoder-ramverk också experimenterat med 3DMMs som “riktlinjer” för förbättrad ansikts syntes ramverk. Ett exempel på detta är HifiFace projektet från juli 2021. Men ingen användbar eller populär initiativ verkar ha utvecklats från detta tillvägagångssätt hittills.

Data för RigNeRF-scener erhålls genom att fånga korta smartphone-videor. För projektet använde RigNeRF-forskarna en iPhone XR eller en iPhone 12 för alla experiment. För den första halvan av inspelningen, uppmanas föremålet att utföra en stor mängd ansiktsuttryck och tal medan de håller huvudet stilla medan kameran flyttas runt dem.

För den andra halvan av inspelningen, håller kameran en fast position medan föremålet måste flytta huvudet runt medan de visar en stor mängd uttryck. De resulterande 40-70 sekunder av filmsekvenser (cirka 1200-2100 ramar) representerar hela dataset som kommer att användas för att träna modellen.

Skärning av Datainsamling

I kontrast, kräver autoencoder-system som DeepFaceLab den relativt mödosamma insamlingen och kureringen av tusentals olika foton, ofta tagna från YouTube-videor och andra sociala mediekanaler, samt från filmer (i fallet med celebrity deepfakes).

De resulterande tränade autoencoder-modellerna är ofta avsedda att användas i en mängd olika situationer. Men de mest noggranna “kändis” deepfakers kan träna hela modeller från scratch för en enda video, trots att träningen kan ta en vecka eller mer.

Trots varningsnoten från den nya artikeln forskare, verkar de “patchwork” och breda sammansatta dataset som driver AI-porr som också populära YouTube/TikTok “deepfake omkastningar” osannolika att producera acceptabla och konsekventa resultat i ett deepfake-system som RigNeRF, som har en scen-specifik metodik. Med hänsyn till begränsningarna för datainsamling som anges i den nya artikeln, kan detta visa sig vara en ytterligare säkerhetsåtgärd mot oaktsam identitetsmissbruk av illvilliga deepfakers.

Anpassning av NeRF till Deepfake Video

NeRF är en fotogrammetri-baserad metod där ett litet antal källbilder tagna från olika vinklar sätts samman till ett utforskbar 3D neuralt rum. Detta tillvägagångssätt kom till framträdande tidigare i år när NVIDIA avslöjade sitt Instant NeRF system, som kan skära ner de exorbitanta tränings tiderna för NeRF till minuter, eller till och med sekunder:

Instant NeRF. Källa: https://www.youtube.com/watch?v=DJ2hcC1orc4

Det resulterande Neural Radiance Field-scenen är i princip en statisk miljö som kan utforskas, men som är svår att redigera. Forskarna noterar att två tidigare NeRF-baserade initiativ – HyperNeRF + E/P och NerFACE – har tagit ett försök att ansiktsvideo syntes, och (apparent för att vara komplett och noggrann) har ställt RigNeRF mot dessa två ramverk i en testrunda:

Instant NeRF. Källa: https://www.youtube.com/watch?v=DJ2hcC1orc4

En kvalitativ jÀmförelse mellan RigNeRF, HyperNeRF och NerFACE. Se de lÀnkade kÀllvideorna och PDF för högkvalitativa versioner. Statisk bildkÀlla: https://arxiv.org/pdf/2012.03065.pdf

En kvalitativ jämförelse mellan RigNeRF, HyperNeRF och NerFACE. Se de länkade källvideorna och PDF för högkvalitativa versioner. Statisk bildkälla: https://arxiv.org/pdf/2012.03065.pdf

Men i detta fall är resultaten, som gynnar RigNeRF, ganska anomala, av två skäl: först noterar författarna att ‘det finns ingen befintlig arbete för en äpple-till-äpple-jämförelse’; för det andra har detta nödvändiggjort begränsningen av RigNeRF:s funktioner för att åtminstone delvis matcha den mer begränsade funktionaliteten hos de tidigare systemen.

Eftersom resultaten inte är en inkrementell förbättring av tidigare arbete, utan snarare representerar ett “genombrott” i NeRF-redigerbarhet och användbarhet, kommer vi att lämna testrundan åt sidan, och istället se vad RigNeRF gör annorlunda än sina föregångare.

Kombinerade Styrkor

Den primära begränsningen av NerFACE, som kan skapa pose/uttryckskontroll i en NeRF-miljö, är att det antar att källfilmer kommer att spelas in med en statisk kamera. Detta innebär i princip att det inte kan producera nya vyer som går utöver dess inspelning begränsningar. Detta resulterar i ett system som kan skapa “rörliga porträtt”, men som är olämpligt för deepfake-stil video.

HyperNeRF, å andra sidan, kan generera nya och hyperrealistiska vyer, men har inga instrument som tillåter det att ändra huvudposen eller ansiktsuttrycken, vilket inte heller resulterar i någon sorts konkurrent till autoencoder-baserade deepfakes.

RigNeRF kan kombinera dessa två isolerade funktioner genom att skapa en “kanonisk rum”, en standardbaslinje från vilken avvikelser och deformationer kan utföras via indata från 3DMM-modulen.

Skapar en 'kanonisk rum' (ingen pose, inget uttryck), pÄ vilken deformationerna (dvs. poser och uttryck) som produceras via 3DMM kan agera.

Skapar en ‘kanonisk rum’ (ingen pose, inget uttryck), på vilken deformationerna (dvs. poser och uttryck) som produceras via 3DMM kan agera.

Eftersom 3DMM-systemet inte kommer att matchas exakt med den infångade föremålet, är det viktigt att kompensera för detta i processen. RigNeRF åstadkommer detta med en deformation fält före som beräknas från en Multilayer Perceptron (MLP) som härstammar från källfilmen.

Kameraparametrarna som behövs för att beräkna deformationer erhålls via COLMAP, medan uttryck och formparametrar för varje ram erhålls från DECA.

Positioneringen optimeras ytterligare genom landmärke passning och COLMAP:s kameraparametrar, och, på grund av begränsningar i beräkningsresurser, är videoutmatningen ned sampad till 256×256 upplösning för träning (en hårdvaru-begränsad krympningsprocess som också plågar autoencoder deepfake scenen).

Efter detta tränas deformation nätverket på de fyra V100:orna – imponerande hårdvara som inte sannolikt kommer att vara inom räckhåll för entusiaster (men där maskinlärningsträning är det ofta möjligt att handla med kraft för tid, och helt enkelt acceptera att modellträning kommer att vara en fråga om dagar eller till och med veckor).

I slutsatsen hävdar forskarna:

‘Till skillnad från andra metoder, är RigNeRF, tack vare användningen av en 3DMM-styrd deformation modul, i stånd att modellera huvudpose, ansiktsuttryck och hela 3D-porträttscenen med hög trohet, vilket ger bättre rekonstruktioner med skarpa detaljer.’

Se de inbäddade videorna nedan för ytterligare information och resultatformat.

 

 

Publicerad första gången 15 juni 2022.

Författare pÄ maskinlÀrande, domÀnspecialist inom mÀnsklig bildsyntes. Före detta chef för forskningsinnehÄll pÄ Metaphysic.ai.