Connect with us

Kunstmatige intelligentie

Waarom Deepfakes Op Dit Moment Geen Subtiliteit van Emotie Kunnen Overbrengen

mm
The Book of Boba Fett - Disney

De première van aflevering 6 van de Star Wars-spin-off The Book of Boba Fett van gisteren lijkt de mening van fans te hebben verdeeld. Het algemene goedkeuring, er is een algemene veronderstelling op sociale netwerken dat de sterk verbeterde reanimatie van een verjongde Mark Hamill (in vergelijking met het personage eerder optreden in de seizoens 2-finale van The Mandalorian in 2020) een direct resultaat is van Industrial Light and Magic het inhuren van de amateur deepfakes-beoefenaar Shamook (die radicaal verbeterd had op hun werk met open source software); en dat de weergaven van het personage een combinatie moeten zijn van deepfake-technologie, misschien opgeschoond met CGI.

Er is momenteel beperkte bevestiging van dit, hoewel Shamook weinig heeft gezegd tegen de wereld sinds de ILM-contractuele NDA is neergedaald. Niettemin is het werk een buitengewone verbetering ten opzichte van de CGI van 2020; vertoont enkele van de ‘glans’ die geassocieerd wordt met deepfake-modellen afgeleid van archiefwerken; en komt in het algemeen overeen met de beste huidige visuele standaard voor deepfakes.

Het andere deel van de mening van fans is dat de nieuwe poging tot ‘Jonge Luke’ een ander set van fouten heeft dan de vorige. Misschien wel het meest sprekend, het ontbreken van expressiviteit en subtiele, passende emoties in de zeer lange sequenties met de nieuwe Skywalker-recreatie zijn meer typerend voor deepfakes dan CGI; The Verge heeft beschreven de Boba Fett-simulatie in termen van de ‘onbehaaglijke, lege uitdrukking van Mark Hamill’s bevroren gezicht van 1983’.

Ongeacht de technologieën achter de nieuwe ILM-recreatie, hebben deepfake-transformaties een fundamenteel probleem met subtiliteit van emotie dat moeilijk te adresseren is, ofwel door veranderingen in de architectuur of door het verbeteren van de brontrainingsmateriaal, en dat typisch wordt vermeden door de zorgvuldige keuzes die virale deepfakers maken bij het selecteren van een doelvideo.

Beperkingen van Gezichtsuitlijning

De twee deepfake FOSS-repositories die het meest worden gebruikt zijn DeepFaceLab (DFL) en FaceSwap, beide afgeleid van de anonieme en omstreden broncode van 2017, met DFL een enorme voorsprong in de VFX-industrie, ondanks zijn beperkte instrumentatie.

Elk van deze pakketten wordt aanvankelijk belast met het extraheren van gezichtskenmerken uit de gezichten die het heeft kunnen identificeren uit de bronmateriaal (d.w.z. frames van video’s en / of afbeeldingen).

Adrian Bulat's Facial Alignment Network (FAN) in actie, vanuit het officiële repository. Bron: https://github.com/1adrianb/face-alignment

De Facial Alignment Network (FAN) in actie, vanuit het officiële repository. Bron: https://github.com/1adrianb/face-alignment

Beide DFL en FaceSwap gebruiken de Facial Alignment Network (FAN) -bibliotheek. FAN kan 2D- en 3D- (zie bovenstaande afbeelding) kenmerken maken voor geëxtraheerde gezichten. 3D-kenmerken kunnen uitgebreid rekening houden met de waargenomen oriëntatie van het gezicht, tot extreme profielen en relatief acute hoeken.

Schrijver over machine learning, domeinspecialist in menselijke beeldsynthese. Voormalig hoofd onderzoekscontent bij Metaphysic.ai.