Kunstmatige intelligentie
RigNeRF: Een nieuwe Deepfakes-methode die Neural Radiance Fields gebruikt

Nieuw onderzoek dat is ontwikkeld bij Adobe biedt de eerste haalbare en effectieve deepfakes-methode op basis van Neural Radiance Fields (NeRF) – misschien wel de eerste echte innovatie in architectuur of benadering in de vijf jaar sinds het ontstaan van deepfakes in 2017.
De methode, getiteld RigNeRF, gebruikt 3D-morphable gezichtsmodellen (3DMMs) als een tussenlaag van instrumentatie tussen de gewenste invoer (d.w.z. de identiteit die moet worden opgelegd in de NeRF-render) en de neurale ruimte, een methode die in recente jaren wijdverbreid is geadopteerd door Generative Adversarial Network (GAN) gezichtssynthese-benaderingen, waarvan geen enkele tot functionele en bruikbare gezichtsvervanging-kaders voor video heeft geleid.

Anders dan traditionele deepfake-video’s, is geen enkel van de bewegende inhoud hier ‘echt’, maar eerder een te verkennen neurale ruimte die is getraind op korte beelden. Aan de rechterzijde zien we het 3D-morphable gezichtsmodel (3DMM) dat fungeert als interface tussen de gewenste manipulaties (‘glimlach’, ‘naar links kijken’, ‘omhoog kijken’, etc.) en de meestal onbeheersbare parameters van een Neural Radiance Field-visualisatie. Voor een high-resolution-versie van deze clip, evenals andere voorbeelden, zie de projectpagina, of de ingesloten video’s aan het einde van dit artikel. Bron: https://shahrukhathar.github.io/2022/06/06/RigNeRF.html
3DMMs zijn effectief CGI-modellen van gezichten, waarvan de parameters kunnen worden aangepast aan meer abstracte beeldsynthesesystemen, zoals NeRF en GAN, die anders moeilijk te controleren zijn.
Wat u ziet in de afbeelding hierboven (middenafbeelding, man in blauw shirt), evenals de afbeelding recht hieronder (linkerafbeelding, man in blauw shirt), is geen ‘echte’ video waarin een klein stukje ‘nep’ gezicht is opgelegd, maar een geheel gesynthetiseerde scène die alleen bestaat als een volumetrische neurale rendering – inclusief het lichaam en de achtergrond:

In het voorbeeld recht hierboven, wordt de echte video aan de rechterzijde (vrouw in rode jurk) gebruikt om de vastgelegde identiteit (man in blauw shirt) aan de linkerkant via RigNeRF te ‘poppen’, wat (volgens de auteurs) de eerste NeRF-gebaseerde systeem is die scheiding van pose en expressie bereikt en in staat is om nieuwe weergaven te synthetiseren.
De mannelijke figuur aan de linkerkant in de afbeelding hierboven werd ‘vastgelegd’ vanuit een 70-seconden smartphone-video, en de invoergegevens (inclusief de gehele scène-informatie) werden vervolgens getraind over 4 V100 GPUs om de scène te verkrijgen.
Aangezien 3DMM-stijl parametriseerbare rigs ook beschikbaar zijn als gehele lichaam parametriseerbare CGI-proxies (in plaats van alleen gezichtsrigs), opent RigNeRF mogelijk de mogelijkheid van full-body deepfakes waar echte menselijke beweging, textuur en expressie wordt doorgegeven aan de CGI-gebaseerde parametriseerde laag, die vervolgens actie en expressie zou vertalen in gerenderde NeRF-omgevingen en video’s.
Wat betreft RigNeRF – kwalificeert het als een deepfakes-methode in de huidige zin dat de headlines het begrip begrijpen? Of is het gewoon een andere semi-gehinderde also-ran voor DeepFaceLab en andere arbeidsintensieve, 2017-era autoencoder deepfake-systemen?










