stomp Deepfakes voor het hele lichaam maken door meerdere NeRF's te combineren - Unite.AI
Verbind je met ons

Artificial Intelligence

Deepfakes voor het hele lichaam maken door meerdere NeRF's te combineren

mm
Bijgewerkt on

De onderzoekssector voor beeldsynthese is bezaaid met nieuwe voorstellen voor systemen die in staat zijn om full-body video's en foto's te maken van jonge mensen - voornamelijk jonge vrouwen - in verschillende soorten kleding. Meestal de gegenereerde afbeeldingen zijn statisch; af en toe bewegen de voorstellingen zelfs, hoewel meestal niet erg goed.

Het tempo van deze specifieke onderzoekslijn is glaciaal in vergelijking met het huidige duizelingwekkende niveau van vooruitgang op aanverwante gebieden zoals latente diffusiemodellen; toch blijven de onderzoeksgroepen, de meerderheid in Azië, meedogenloos aan het probleem knagen.

Een van de tientallen, zo niet honderden voorgestelde of semi-gelanceerde 'virtuele pas'-systemen van de afgelopen 10-15 jaar, waarbij lichamen worden geëvalueerd door middel van op machine learning gebaseerde objectherkenning en worden aangepast aan de voorgestelde kledingstukken. Bron: https://www.youtube.com/watch?v=0ZXrgGyhbak

Een van de tientallen, zo niet honderden voorgestelde of semi-gelanceerde 'virtuele pas'-systemen van de afgelopen 10-15 jaar, waarbij lichamen worden geëvalueerd door middel van op machine learning gebaseerde objectherkenning en aangepast aan de voorgestelde kledingstukken. Bron: https://www.youtube.com/watch?v=2ZXrgGyhbak

Het doel is om nieuwe systemen te creëren die 'virtuele try-ons' mogelijk maken voor de mode- en kledingmarkt - systemen die zich zowel kunnen aanpassen aan de klant als aan het specifieke product dat momenteel beschikbaar is of binnenkort wordt uitgebracht, zonder de onhandigheid van echte -tijd superpositie of kleding, of de noodzaak om klanten te vragen stuur enigszins NSFW-foto's voor op ML gebaseerde weergavepijplijnen.

Geen van de populaire synthese-architecturen lijkt gemakkelijk aan deze taak aan te passen: de latente ruimte van Generative Adversarial Networks (GAN's) is niet geschikt voor het produceren van overtuigende temporele beweging (of zelfs om te bewerken in het algemeen); hoewel goed in staat van het genereren van realistische menselijke beweging, Neurale stralingsvelden (NeRF) zijn meestal natuurlijk bestand tegen tot het soort montage dat nodig zou zijn om mensen of kleding naar believen te 'verwisselen'; auto-encoders zouden lastige persoons-/kledingspecifieke training vereisen; en latente diffusiemodellen, zoals GAN's, hebben geen eigen temporele mechanismen voor het genereren van video.

EVA3D

Desalniettemin gaan de papers en voorstellen door. Het nieuwste is van ongebruikelijk belang in een verder onopvallende en uitsluitend bedrijfsgerichte onderzoekslijn.

EVA3D, van de Nanyang Technological University in Singapore, is de eerste indicatie van een aanpak die al lang op zich laat wachten – het gebruik van meervoudig Neural Radiance Field-netwerken, die elk zijn gewijd aan een afzonderlijk deel van het lichaam, en die vervolgens worden samengesteld tot een geassembleerde en samenhangende visualisatie.

Een mobiele jonge vrouw samengesteld uit meerdere NeRF-netwerken, voor EVA3D. Bron: https://hongfz16.github.io/projects/EVA3D.html

Een mobiele jonge vrouw samengesteld uit meerdere NeRF-netwerken, voor EVA3D. Bron: https://hongfz16.github.io/projects/EVA3D.html

De resultaten, in termen van beweging, zijn ... oké. Hoewel de visualisatie van EVA3D niet uit de griezelige vallei komt, kunnen ze in ieder geval de afrit zien van waar ze staan.

Wat EVA3D bijzonder maakt, is dat de onderzoekers erachter, bijna uniek in de sector van full-body beeldsynthese, hebben gerealiseerd dat een enkel netwerk (GAN, NeRF of anderszins) niet in staat zal zijn om bewerkbare en flexibele menselijke full- body generatie voor enkele jaren - deels vanwege het tempo van onderzoek, en deels vanwege hardware en andere logistieke beperkingen.

Daarom heeft het Nanyang-team de taak onderverdeeld in 16 netwerken en meerdere technologieën - een aanpak die al is toegepast voor neurale weergave van stedelijke omgevingen in Blok-NeRF en StadNeRF, en dat waarschijnlijk een steeds interessantere en potentieel vruchtbaardere tussenmaatregel lijkt te worden om in de komende vijf jaar full-body deepfakes te realiseren, in afwachting van nieuwe conceptuele of hardware-ontwikkelingen.

Niet alle uitdagingen bij het creëren van dit soort ‘virtuele try-ons’ zijn van technische of logistieke aard, en het artikel schetst een aantal dataproblemen, vooral met betrekking tot leren zonder toezicht:

' [Mode] datasets hebben meestal zeer beperkte menselijke houdingen (de meeste zijn vergelijkbare staande houdingen) en zeer onevenwichtige kijkhoeken (de meeste zijn vooraanzichten). Deze onevenwichtige distributie van 2D-gegevens kan het ongecontroleerd leren van 3D-GAN's belemmeren, wat leidt tot moeilijkheden bij de synthese van nieuwe weergaven/posities. Daarom is een goede trainingsstrategie nodig om het probleem te verlichten.'

De EVA3D-workflow segmenteert het menselijk lichaam in 16 verschillende delen, die elk worden gegenereerd via hun eigen NeRF-netwerk. Dit creëert uiteraard voldoende 'niet-bevroren' secties om de figuur te stimuleren door middel van motion capture of andere soorten bewegingsgegevens. Naast dit voordeel stelt het het systeem echter ook in staat om maximale middelen toe te wijzen aan de delen van het lichaam die de algehele indruk 'verkopen'.

Menselijke voeten hebben bijvoorbeeld een zeer beperkt articulatiebereik, terwijl de authenticiteit van het gezicht en het hoofd, naast de kwaliteit van de beweging van het hele lichaam in het algemeen, waarschijnlijk het brandpunt van authenticiteit voor de weergave is.

Een kwalitatieve vergelijking tussen EVA3D en eerdere methoden. De auteurs claimen SOTA-resultaten in dit opzicht.

Een kwalitatieve vergelijking tussen EVA3D en eerdere methoden. De auteurs claimen SOTA-resultaten in dit opzicht.

De aanpak verschilt radicaal van het NeRF-centrische project waaraan het conceptueel gerelateerd is - 2021's A-NeRF, van de University of British Columbia en Reality Labs Research, die probeerden een intern controlerend skelet toe te voegen aan een anders conventioneel 'één stuk' NeRF-representatie, waardoor het moeilijker werd om verwerkingsbronnen toe te wijzen aan verschillende delen van het lichaam op basis van behoefte .

Voorafgaande bewegingen - A-NeRF rust een 'gebakken' NeRF uit met hetzelfde soort ductiele en gearticuleerde centrale tuigage die de VFX-industrie zo lang heeft gebruikt om CGI-personages te animeren. Bron: https://lemonatsu.github.io/anerf/

Eerdere bewegingen - A-NeRF rust een 'gebakken' NeRF uit met dezelfde soort ductiele en gearticuleerde centrale tuigage die de VFX-industrie al lang gebruikt om CGI-personages te animeren. Bron: https://lemonatsu.github.io/anerf/

Net als bij de meeste vergelijkbare mensgerichte projecten die de latente ruimte van de verschillende populaire benaderingen proberen te benutten, gebruikt EVA3D een Skinned Multi-Person Linear Model (SMPL), een 'traditionele' op CGI gebaseerde methode om instrumentaliteit toe te voegen aan de algemene abstractie van huidige synthesemethoden. Eerder dit jaar gebruikte een ander artikel, dit keer van de Zhejiang University in Hangzhou, en de School of Creative Media van de City University of Hong Kong, dergelijke methoden om neuraal lichaam hervormen.

EVA3D's kwalitatieve resultaten op DeepFashion.

EVA3D's kwalitatieve resultaten op DeepFashion.

Methode

Het SMPL-model dat in het proces wordt gebruikt, is afgestemd op de menselijke 'prior' - de persoon die in wezen vrijwillig wordt ge-deepfakt door EVA3D, en de skinning-gewichten onderhandelen over de verschillen tussen de canonieke ruimte (dwz de 'in rust' of ' neutrale' pose van een SMPL-model) en de manier waarop het uiteindelijke uiterlijk wordt weergegeven.

De conceptuele workflow voor EVA3D. Bron: https://arxiv.org/pdf/2210.04888.pdf

De conceptuele workflow voor EVA3D. Bron: https://arxiv.org/pdf/2210.04888.pdf

Zoals te zien is in de bovenstaande afbeelding, worden de begrenzingsvakken van SMPL gebruikt als de grensdefinities voor de 16 netwerken die uiteindelijk het lichaam zullen vormen. Omgekeerd Lineaire Blend Skinning (LBS) algoritme van SMPL wordt vervolgens gebruikt om zichtbare bemonsterde stralen over te brengen naar de canonieke (passieve pose) ruimte. Vervolgens worden de 16 subnetwerken bevraagd op basis van deze configuraties en uiteindelijk omgezet in een definitieve weergave.

De volledige NeRF-composiet wordt vervolgens gebruikt om een ​​3D menselijk GAN-raamwerk te construeren.

De weergaven van het GAN-framework van de tweede fase zullen uiteindelijk worden getraind tegen echte 2D-beeldcollecties van mensen/mode.

De weergaven van het GAN-framework van de tweede fase zullen uiteindelijk worden getraind tegen echte 2D-beeldcollecties van mensen/mode.

Elk subnetwerk dat een deel van het menselijk lichaam vertegenwoordigt, is samengesteld uit gestapelde Multi-Layer Perceptrons (MLP's) met SIREN (Sinusoidal Representation Networks) activering. Hoewel SIREN veel problemen oplost in een workflow als deze, en in vergelijkbare projecten, heeft het de neiging eerder te overpassen dan te generaliseren, en de onderzoekers suggereren dat in de toekomst alternatieve bibliotheken kunnen worden gebruikt (zie einde van het artikel).

Gegevens, training en tests

EVA3D wordt geconfronteerd met ongebruikelijke gegevensproblemen, vanwege de beperkingen en sjabloonstijl van de poses die beschikbaar zijn in op mode gebaseerde datasets, die de neiging hebben om alternatieve of nieuwe opvattingen te missen, en die, misschien opzettelijk, repetitief zijn om de aandacht te vestigen op de kleding in plaats van de mens die ze draagt.

Vanwege deze onevenwichtige houdingsverdeling gebruikt EVA3D menselijke priors (zie hierboven) op basis van de SMPL-sjabloongeometrie en voorspelt vervolgens een Signed Distance Field (SDF) offset van deze houding, in plaats van een eenvoudige doelhouding.

Voor de ondersteunende experimenten gebruikten de onderzoekers vier datasets: Diepe mode; SHHQ; UBC Mode; en de AIST Dansvideo-database (AIST DansDB).

De laatste twee bevatten meer gevarieerde poses dan de eerste twee, maar stellen herhaaldelijk dezelfde individuen voor, wat deze anderszins nuttige diversiteit tenietdoet; kortom, de data is meer dan uitdagend, gezien de taak.

Voorbeelden uit SSHQ. Bron: https://arxiv.org/pdf/2204.11823.pdf

Voorbeelden uit SSHQ. Bron: https://arxiv.org/pdf/2204.11823.pdf

De gebruikte baselines waren ENARF-GAN, het eerste project om NeRF-beelden weer te geven op basis van 2D-beelddatasets; Stanford en NVIDIA EG3Dund StijlSDF, een samenwerking tussen de University of Washington, Adobe Research en Stanford University – allemaal methoden die bibliotheken met superresolutie vereisen om op te schalen van native naar hoge resolutie.

De toegepaste statistieken waren de controversieel Frechet-aanvangsafstand (FID) en Kernel Inception Distance (KIND), samen met Percentage juiste kernpunten ([e-mail beveiligd]).

In kwantitatieve evaluaties leidde EVA3D op alle statistieken in vier datasets:

Kwantitatieve resultaten.

Kwantitatieve resultaten.

De onderzoekers merken op dat EVA3D het laagste foutenpercentage behaalt voor geometrieweergave, een kritieke factor in een project van dit type. Ze merken ook op dat hun systeem de gegenereerde houding kan beheersen en hoger kan bereiken [e-mail beveiligd] scoort, in tegenstelling tot EG3D, de enige concurrerende methode die hoger scoorde, in één categorie.

EVA3D werkt native met de inmiddels standaard resolutie van 512x512px, hoewel het gemakkelijk en effectief kan worden opgeschaald naar HD-resolutie door hogere lagen aan te brengen, zoals Google onlangs heeft gedaan met zijn tekst-naar-video-aanbod met een resolutie van 1024 Afbeeldingsvideo.

De methode is niet zonder grenzen. Het artikel merkt op dat de activering van de SIREN cirkelvormige artefacten kan veroorzaken, die in toekomstige versies kunnen worden verholpen door een alternatieve basisweergave te gebruiken, zoals EG3D, in combinatie met een 2D-decoder. Bovendien is het moeilijk om SMPL nauwkeurig aan te passen aan de modegegevensbronnen.

Ten slotte kan het systeem niet gemakkelijk grotere en meer vloeiende kledingstukken, zoals grote jurken, herbergen; kledingstukken van dit type vertonen dezelfde soort vloeistofdynamiek die ervoor zorgt dat neuraal gerenderd haar ontstaat zo'n uitdaging. Vermoedelijk zou een passende oplossing kunnen helpen om beide problemen aan te pakken.

Demovideo voor EVA3D: Samengestelde 3D menselijke generatie uit 2D-beeldcollecties

 

Voor het eerst gepubliceerd op 12 oktober 2022.