Artificial Intelligence
Een nieuwe en eenvoudigere deepfake-methode die eerdere benaderingen overtreft

Een samenwerking tussen een Chinese AI-onderzoeksgroep en Amerikaanse onderzoekers heeft geleid tot wat misschien wel de eerste echte innovatie op het gebied van deepfakes-technologie is sinds het fenomeen vier jaar geleden opdook.
De nieuwe methode kan face-swaps uitvoeren die beter presteren dan alle andere bestaande frameworks op standaard perceptuele tests, zonder dat het nodig is om grote speciale datasets uitputtend te verzamelen en te beheren en deze tot een week lang te trainen voor slechts één enkele identiteit. Voor de voorbeelden die in het nieuwe artikel worden gepresenteerd, werden modellen getraind op de geheel van twee populaire datasets van beroemdheden, op één NVIDIA Tesla P40 GPU gedurende ongeveer drie dagen.

Volledige video beschikbaar aan het einde van dit artikel. In dit voorbeeld van een video in aanvullend materiaal van een van de auteurs van het nieuwe artikel, wordt het gezicht van Scarlett Johansson overgebracht op de bronvideo. CihaNet verwijdert het probleem van edge-masking bij het uitvoeren van een swap, door diepere relaties tussen de bron- en doelidentiteiten te vormen en tot stand te brengen, wat een einde betekent aan 'voor de hand liggende grenzen' en andere overlappingsstoringen die optreden bij traditionele deepfake-benaderingen. Bron: Bron: https://mitchellx.github.io/#video
De nieuwe aanpak maakt het overbodig om de getransplanteerde identiteit ruw in de doelvideo te 'plakken', wat vaak leidt tot veelbetekenende artefacten die verschijnen waar het nepgezicht eindigt en het echte, onderliggende gezicht begint. In plaats daarvan worden 'hallucinatiekaarten' gebruikt om een ​​diepere vermenging van visuele facetten uit te voeren, omdat het systeem identiteit veel effectiever van context scheidt dan de huidige methoden, en daardoor de doelidentiteit op een dieper niveau kan vermengen.

Van het papier. CihaNet-transformaties worden gefaciliteerd door middel van hallucinatiekaarten (onderste rij). Het systeem gebruikt contextinformatie (dwz gezichtsrichting, haar, bril en andere occlusies, enz.) volledig van het beeld waarop de nieuwe identiteit zal worden geplaatst, en gezichtsidentiteitsinformatie volledig van de persoon die in het beeld moet worden ingevoegd. Dit vermogen om gezicht van context te scheiden is cruciaal voor het succes van het systeem. Bron: https://dl.acm.org/doi/pdf/10.1145/3474085.3475257
In feite biedt de nieuwe hallucinatiekaart een completere context voor de ruil, in tegenstelling tot de harde maskers die vaak uitgebreide curatie vereisen (en in het geval van DeepFaceLab, aparte opleiding) terwijl het beperkte flexibiliteit biedt in termen van echte integratie van de twee identiteiten.

Van voorbeelden in de aanvullende materialen, met behulp van zowel de FFHQ- als de Celeb-A HQ-datasets, over VGGFace en Forensics++. De eerste twee kolommen tonen de willekeurig geselecteerde (echte) afbeeldingen die moeten worden verwisseld. De volgende vier kolommen tonen de resultaten van de swap met behulp van de vier meest effectieve methoden die momenteel beschikbaar zijn, terwijl de laatste kolom het resultaat van CihaNet weergeeft. De FaceSwap-repository is gebruikt in plaats van het meer populaire DeepFaceLab, aangezien beide projecten forks zijn van de originele Deepfakes-code uit 2017 op GitHub. Hoewel elk project sindsdien modellen, technieken, diverse gebruikersinterfaces en aanvullende tools heeft toegevoegd, is de onderliggende code die deepfakes mogelijk maakt nooit veranderd en blijft deze voor beide hetzelfde. Bron: https://dl.acm.org/action/downloadSupplement?doi=10.1145%2F3474085.3475257&file=mfp0519aux.zip
Ocuco's Medewerkers papier, getiteld Context- en identiteitshallucinatienetwerk in één fase, is geschreven door onderzoekers verbonden aan JD AI Research en de University of Massachusetts Amherst, en werd ondersteund door het National Key R&D Program of China onder Grant No. 2020AAA0103800. Het werd geïntroduceerd op de 29e ACM International Conference on Multimedia, op 20 en 24 oktober in Chengdu, China.
Geen noodzaak voor 'Face-On'-pariteit
Zowel de meest populaire deepfake-software van dit moment, DeepFaceLab, als de concurrerende vork FaceSwap, voeren kronkelige en vaak met de hand samengestelde workflows uit om te bepalen in welke richting een gezicht neigt, welke obstakels in de weg staan ​​en waarmee rekening moet worden gehouden (alweer handmatig). , en moeten omgaan met vele andere irritante belemmeringen (waaronder verlichting) die het gebruik ervan ver verwijderd maken van de 'aanwijzen-en-klikken'-ervaring die onnauwkeurig in de media wordt weergegeven sinds de komst van deepfakes.
CihaNet vereist daarentegen niet dat twee beelden rechtstreeks naar de camera gericht zijn om nuttige identiteitsinformatie uit één enkel beeld te halen en te benutten.

In deze voorbeelden wordt een reeks deepfake-softwarekandidaten uitgedaagd om gezichten te verwisselen die niet alleen een verschillende identiteit hebben, maar die ook niet dezelfde kant op kijken. Software die is afgeleid van de originele deepfakes-repository (zoals het immens populaire DeepFaceLab en FaceSwap, hierboven afgebeeld) kan de ongelijkheid in hoeken tussen de twee te verwisselen afbeeldingen niet aan (zie derde kolom). Ondertussen kan CihaNet de identiteit correct abstraheren, aangezien de 'pose' van het gezicht niet intrinsiek deel uitmaakt van de identiteitsinformatie.
Architectuur
Het CihaNet-project is volgens de auteurs geïnspireerd door de samenwerking in 2019 tussen Microsoft Research en Peking University, genaamd FaceShifter, hoewel het enkele opmerkelijke en kritische wijzigingen aanbrengt in de kernarchitectuur van de oudere methode.
FaceShifter gebruikt twee Adaptive Instance Normalization (AdaIN) netwerken om identiteitsinformatie te verwerken, welke gegevens vervolgens via een masker in het doelbeeld worden getransponeerd, op een manier die vergelijkbaar is met de huidige populaire deepfake-software (en met alle bijbehorende beperkingen), met behulp van een extra HOOR-Net (waaronder een afzonderlijk getraind subnet dat is getraind op occlusieobstakels - een extra laag van complexiteit).
In plaats daarvan gebruikt de nieuwe architectuur deze 'contextuele' informatie rechtstreeks voor het transformatieproces zelf, via een tweestaps enkele Cascading Adaptive Instance Normalization (C-AdaIN)-bewerking, die zorgt voor consistentie van de context (dwz gezichtshuid en occlusies) van ID- relevante gebieden.
Het tweede subnet dat cruciaal is voor het systeem wordt Swapping Block (SwapBlk) genoemd, dat een geïntegreerd kenmerk genereert uit de context van het referentiebeeld en de ingebedde 'identiteits'-informatie van het bronbeeld, waarbij de meerdere fasen worden omzeild die nodig zijn om dit te bereiken door conventionele huidige middelen.
Om onderscheid te maken tussen context en identiteit, a hallucinatie kaart wordt voor elk niveau gegenereerd, vervangt een zacht-segmentatiemasker en werkt op een breder scala aan functies voor dit kritieke onderdeel van het deepfake-proces.

Naarmate de waarde van de hallucinatiekaart (rechtsonder afgebeeld) groeit, ontstaat er een duidelijker pad tussen identiteiten.
Op deze manier wordt het hele ruilproces in één keer en zonder nabewerking uitgevoerd.
Gegevens en testen
Om het systeem uit te proberen, trainden de onderzoekers vier modellen op twee zeer populaire en gevarieerde open beelddatasets: CelebA-hoofdkantoor en NVIDIA's Flickr-Faces-HQ-gegevensset (FFHQ), elk met respectievelijk 30,000 en 70,000 afbeeldingen.
Er is geen snoei of filtering uitgevoerd op deze basisgegevenssets. In elk geval trainden de onderzoekers de volledige dataset gedurende drie dagen op de enkele Tesla GPU, met een leersnelheid van 0.0002 op Adam-optimalisatie.
Vervolgens voerden ze een reeks willekeurige uitwisselingen uit tussen de duizenden persoonlijkheden die in de datasets voorkomen, zonder rekening te houden met het feit of de gezichten al dan niet op elkaar leken of zelfs op geslacht overeenkwamen, en vergeleken de resultaten van CihaNet met de output van vier toonaangevende deepfake-frameworks: gezicht wisselen (wat staat voor de meer populaire DeepFaceLab, omdat het een root-codebase deelt in de originele opslagplaats uit 2017 dat deepfakes naar de wereld bracht); de eerder genoemde FaceShifter; FSGANund SimSwap.
Bij het vergelijken van de resultaten via VGG-gezicht, FFHQ, CelebA-HQ en FaceForensics ++, ontdekten de auteurs dat hun nieuwe model beter presteerde dan alle eerdere modellen, zoals aangegeven in de onderstaande tabel.
De drie maatstaven die werden gebruikt bij het evalueren van de resultaten waren structurele gelijkenis (SSIM), pose schattingsfout en Nauwkeurigheid van het ophalen van ID's, die wordt berekend op basis van het percentage succesvol opgehaalde paren.
De onderzoekers beweren dat CihaNet een superieure aanpak vertegenwoordigt in termen van kwalitatieve resultaten, en een opmerkelijke vooruitgang ten opzichte van de huidige stand van zaken op het gebied van deepfake-technologieën, door de last van uitgebreide en arbeidsintensieve maskeerarchitecturen en -methodologieën weg te nemen en een nuttiger en bruikbare scheiding van identiteit en context.
Bekijk hieronder meer videovoorbeelden van de nieuwe techniek. Je kunt de volledige video vinden hier.
Van aanvullend materiaal voor de nieuwe krant voert CihaNet face-swapping uit op verschillende identiteiten. Bron: https://mitchellx.github.io/#video