Artificial Intelligence

Nieuwe Deepfake-methode lost het 'Face Host'-probleem op

Bijgewerkt on 9 december 2022

Ondanks meerdere jaren van overdrijving in de media over het potentieel van deepfake-afbeeldingen om ons lang gekoesterde vertrouwen in de authenticiteit van videobeelden te ondermijnen, zijn alle momenteel populaire methoden gebaseerd op het vinden van 'face hosts' die in grote lijnen vergelijkbaar zijn met het doelgezicht.

Waar de originele beelden een breed gezicht vertonen, maar het doelonderwerp een smal gezicht heeft, zijn de resultaten altijd problematisch geweest, omdat bij een dergelijke overdracht een deel van het originele gezicht wordt weggesneden en de nu belichte achtergrond wordt gereconstrueerd. Huidige pakketten zoals DeepFaceLab en FaceSwap kunnen beperkte resultaten opleveren wanneer de configuratie omgekeerd is (smal>breed), maar hebben geen mogelijkheid om dit scenario overtuigend aan te pakken.

Nu heeft een samenwerking tussen Tencent en de Chinese Universiteit van Xiamen een nieuwe aanpak, getiteld HifiFace, ontworpen om dit tekort te verhelpen.

Twee HifiFace-deepfakes, de eerste van Anne Hathaway, waar een goede gelijkenis wordt verkregen ondanks de onverenigbare gezichtsvorm van de gastheer. HifiFace presteert ook goed op doelwitten met een bril, traditioneel een struikelblok bij deepfakes. Bron: https://arxiv.org/pdf/2106.09965.pdf

Twee deepfakes van HifiFace, de eerste van Anne Hathaway, waarbij een goede gelijkenis wordt verkregen ondanks de incompatibele gezichtsvorm van de gastheer. HifiFace presteert ook goed op doelwitten met een bril, traditioneel een struikelblok bij deepfakes. Bron: https://arxiv.org/pdf/2106.09965.pdf

Een deepfake gezicht hermodelleren

Eerdere benaderingen, zoals die van 2019 Onderwerp Agnostische gezichtswisseling en re-enactment (FSGAN), afhankelijk van waren 3DMM-fitting (3D Morphable Models) of andere methodologieën gebaseerd op herkenning of transformatie van gezichtsherkenningspunten, waarbij de gezichtslijnen van het te 'overschrijven' gezicht vrijwel de grenzen van de verwisseling bepalen:

3DMM gezichtsoriëntatiepuntdetectie. Bron: https://github.com/Yinghao-Li/3DMM-fitting

Hoewel concurrerende methoden zijn gebaseerd op kenmerken die zijn afgeleid van gezichtsherkenningsnetwerken, zijn deze in de eerste plaats gericht op het herstellen van textuur in plaats van structuur, en produceren ze op dezelfde manier een 'maskerachtig' effect in gevallen waarin het gezicht van de gastheer niet helemaal compatibel is (dwz de limieten en vorm van haarlijn, kaaklijn en jukbeenderen).

Om deze problemen aan te pakken, ontwikkelden de Chinese onderzoekers, gevestigd in het Media Analytics and Computing Lab van de afdeling Kunstmatige Intelligentie van de universiteit, een end-to-end netwerk dat de coëfficiënten van het doel en het brongezicht regresseert met behulp van een 3D-reconstructiemodel. die vervolgens opnieuw wordt gecombineerd als vorminformatie en wordt samengevoegd met identiteitsvectorinformatie van een gezichtsherkenningsnetwerk.

Deze geometrische gegevens worden vervolgens ingevoerd in een encoder-decodermodel als structurele informatie, vermengd met de uitdrukking en dispositie van het doelgezicht, die worden gebruikt als aanvullende bronnen voor nauwkeurige overdracht.

Semantische gezichtsfusie

Bovendien bevat HifiFace een Semantic Facial Fusion (SFF)-component, die een low-level-functie in de encoder gebruikt om ruimtelijke en textuurinformatie te behouden, zonder de identiteit van het doelbeeld op te offeren. Functies van de encoder en decoder worden geïntegreerd in een aangeleerd adaptief masker en de achtergrondinformatie wordt gemengd in de uitvoer door middel van het aangeleerde gezichtsmasker.

HifiFace in actie. Bron: https://johann.wang/HifiFace/

Op deze manier wijkt HifiFace af van het gebruik van origineel-materiaal-gezichtsgrenzen als een harde limiet, door verwijde gezichtssemantische segmentatie te gebruiken, waarbij het model een betere adaptieve fusie kan uitvoeren op de randgrenzen van het gezicht.

Twee eerdere benaderingen (linksboven en linksonder) en de nieuwe HifiFace-architectuur, die bestaat uit een encoder, decoder, 3D-vormbewuste identiteitsextractor en SFF-module.

In vergelijking met eerdere methoden FSGAN, SimSwap en FaceShifter, demonstreert HifiFace een superieure reconstructie van de gezichtsvorm, aangezien het geen benadering is van 'spook'-elementen waar de gezichtsafbakeningen de identiteit>identiteitsmapping verwarren, maar ze definitief reconstrueert.

Testen

De onderzoekers implementeerden het systeem met behulp van de VGGGezicht2 en de DeepGlint Aziatisch-Celeb datasets. Gezichten werden uitgelijnd via 5 uiterlijke oriëntatiepunten en opnieuw bijgesneden tot 256 × 256 pixels. Er werd ook een netwerk voor portretverbetering gebruikt om een versie van 512 × 512 pixels te genereren, voor een extra model met hogere resolutie. Het model is onder getraind Adam.

Hoewel FaceShifter de identiteit goed behoudt, kan het problemen zoals expressie, kleur en occlusie niet zo effectief aanpakken als HifiFace, en heeft het een complexere netwerkstructuur. FSGAN heeft problemen bij het overbrengen van de verlichting van bron naar doel.

De onderzoekers gebruiken FaceForensics ++ voor kwantitatieve vergelijkingen, het bemonsteren van elk tien frames in een reeks geconverteerde video's over de concurrerende methoden, en het vinden dat HifiFace een superieure ID-ophaalscore behaalde. Bij het testen van een reeks andere factoren, zoals de beeldkwaliteit, ontdekten de onderzoekers ook dat hun methode beter presteerde dan de concurrerende methoden.

De gelaatstrekken van Benedict Cumberbatch worden getrouw weergegeven.

Het werk vertegenwoordigt een verdere stap in de richting van het abstraheren van het bronmateriaal, zodat het slechts een ruwe sjabloon is waarin nauwkeurige identiteiten kunnen worden overgedragen. Sommige van de huidige FOSS-pakketten, waaronder DeepFaceLab, hebben ontluikende functionaliteit voor vervanging van het volledige hoofd, maar, net als HifiFace, houden deze geen rekening met haar, en ze zijn effectiever in het 'uitbouwen' van een gezicht dan in het wegbeitelen ervan om bij elkaar te passen een gewenste doelbron.

Gerelateerde onderwerpen:deepfake DeepFakes beeld synthese onderzoek

Neurale delen: primitieven afbreken voor zinvolle afgeleide geometrie

Mis het niet

Synthetische gegevens: de occlusiekloof overbruggen met Grand Theft Auto

Martin Anderson

Schrijver over machine learning, kunstmatige intelligentie en big data.
Persoonlijke site: martinanderson.ai
Contact: [e-mail beveiligd]
Twitter: @manders_ai

Verenig.AI

Nieuwe Deepfake-methode lost het 'Face Host'-probleem op

Artificial Intelligence