Artificial Intelligence
Ontwarring is de volgende deepfake-revolutie
CGI-gegevensaugmentatie wordt gebruikt in een nieuw project om meer controle te krijgen over deepfake-beelden. Hoewel je CGI-hoofden nog steeds niet effectief kunt gebruiken om de ontbrekende hiaten in deepfake-gezichtsdatasets op te vullen, betekent een nieuwe golf van onderzoek naar het ontwarren van identiteit en context dat je dat binnenkort misschien niet meer hoeft te doen.
De makers van enkele van de meest succesvolle virale deepfake-video's van de afgelopen jaren selecteren hun bronvideo's zeer zorgvuldig, waarbij ze aanhoudende profielfoto's vermijden (d.w.z. het soort side-on mugshots dat populair is bij arrestatieprocedures van de politie), scherpe hoeken en ongebruikelijke of overdreven uitdrukkingen . De demonstratievideo's die door virale deepfakers worden geproduceerd, zijn steeds vaker bewerkte compilaties die de 'gemakkelijkste' invalshoeken en uitdrukkingen selecteren om te deepfaken.
In feite is de meest meegaande doelvideo om een deepfaked-beroemdheid in te voegen, er een waarin de oorspronkelijke persoon (wiens identiteit door de deepfake wordt gewist) recht in de camera kijkt, met een minimaal aantal uitdrukkingen.
Omdat deepfake-technologieën zoals DeepFaceLab en gezicht wisselen deze eenvoudigere swaps heel goed uitvoeren, zijn we voldoende verblind door wat ze bereiken om niet op te merken waartoe ze niet in staat zijn, en – vaak – zelfs niet proberen:
Nieuw onderzoek uit Israël stelt een nieuwe methode voor om synthetische data, zoals CGI-hoofden, te gebruiken om deepfaking naar de jaren 2020 te brengen, door gezichtsidentiteiten (dwz de essentiële gezichtskenmerken van 'Tom Cruise', vanuit alle hoeken) echt te scheiden van hun context (dwz opzoeken, opzij kijken, fronsend, fronsend in het donker, wenkbrauwen gefronst, ogen dicht, Enz.).
Dit is niet zomaar deepfake poppenspel, een techniek die geschikter is voor avatars en lipsynchronisatie van gedeeltelijke gezichten, en die een beperkt potentieel heeft voor volwaardige deepfake-videotransformaties.
Dit vertegenwoordigt eerder een weg voorwaarts voor een fundamentele scheiding van instrumentaliteit (zoals 'verander de hoek van het hoofd', 'maak een frons') van identiteit, en biedt een pad naar een op hoog niveau in plaats van 'afgeleid' op beeldsynthese gebaseerd deepfake-framework.
De nieuwe krant heeft de titel Delta-GAN-Encoder: codering van semantische wijzigingen voor expliciete beeldbewerking, met behulp van enkele synthetische voorbeelden, en is afkomstig van onderzoekers van Technion – Israel Institute of Technology.
Om te begrijpen wat het werk inhoudt, laten we eens kijken hoe deepfakes momenteel overal worden geproduceerd, van deepfake pornosites tot Industrieel licht en magie (aangezien de open source-repository van DeepFaceLab momenteel dominant is in zowel 'amateur' als professionele deepfaking).
Wat houdt de huidige deepfake-technologie tegen?
Deepfakes worden momenteel gemaakt door het trainen van een encoder/decoder machine learning-model op twee mappen met gezichtsafbeeldingen: de persoon die u wilt 'overschilderen' (in het eerdere voorbeeld is dat Arnie) en de persoon die u in de beelden wilt plaatsen (Sly).
Het encoder/decoder systeem dan vergelijkt elk afzonderlijk beeld in elke map naar elkaar, waarbij deze bewerking honderdduizenden iteraties (vaak wel een week) wordt ondersteund, verbeterd en herhaald, totdat het de essentiële kenmerken van beide identiteiten goed genoeg begrijpt om ze naar believen te verwisselen.
Voor elk van de twee mensen die tijdens het proces worden verwisseld, is wat de deepfake-architectuur leert over identiteit verstrikt in de context. Het kan geen principes leren en toepassen over een generieke pose 'voor altijd', maar heeft overvloedige voorbeelden nodig in de trainingsdataset, voor elke identiteit die betrokken gaat worden bij het wisselen van gezicht.
Dus als je twee identiteiten wilt ruilen die iets ongewoons doen dan alleen glimlachen of recht in de camera kijken, heb je nodig veel voorbeelden van die bepaalde pose/identiteit over de twee face-sets:
Als set A de ongebruikelijke pose bevat, maar set B deze niet heeft, heb je vrijwel geen geluk; hoe lang je het model ook traint, het zal nooit leren om die pose tussen de identiteiten goed te reproduceren, omdat het maar de helft van de benodigde informatie had toen het werd getraind.
Zelfs als je bijpassende afbeeldingen hebt, is het misschien niet genoeg: als set A de bijpassende pose heeft, maar met harde zijverlichting, vergeleken met de equivalente pose met vlak licht in de andere face-set, is de kwaliteit van de gewonnen ruil niet zo goed zijn alsof ze allemaal gemeenschappelijke verlichtingskenmerken hebben.
Waarom de gegevens schaars zijn
Tenzij je regelmatig wordt gearresteerd, heb je waarschijnlijk niet zoveel zijprofielfoto's van jezelf. Alles wat naar boven kwam, heb je waarschijnlijk weggegooid. Aangezien fotobureaus hetzelfde doen, zijn profielfoto's van gezichten moeilijk te vinden.
Deepfakers nemen vaak meerdere kopieën op van de beperkte zijaanzichtprofielgegevens die ze hebben voor een identiteit in een face-set, zodat de pose op zijn minst een Elke kleine stap levert grote resultaten op! aandacht en tijd tijdens de training, in plaats van te worden verdisconteerd als een uitbijter.
Maar er zijn veel meer mogelijke soorten gezichtsfoto's in zijaanzicht dan er waarschijnlijk beschikbaar zijn voor opname in een dataset - glimlachen, fronsend, schreeuwen, huilen, donker verlicht, minachtend, vervelen, vrolijk, flitslicht, opzoeken, naar beneden kijken, ogen open, ogen dicht…enzovoort. Elk van deze poses, in meerdere combinaties, kan nodig zijn in een beoogde deepfake-doelvideo.
En dat zijn slechts profielen. Hoeveel foto's heb je van jezelf terwijl je kijkt? rechtop? Heb je genoeg om de 10,000 mogelijke uitdrukkingen je zou kunnen dragen terwijl je die exacte pose vasthoudt vanuit die exacte camerahoek, waarbij je tenminste een deel van de een miljoen mogelijke verlichtingsomgevingen?
De kans is groot dat je het niet eens hebt een foto van jezelf terwijl je omhoog kijkt. En dat zijn slechts twee hoeken van de honderd of meer die nodig zijn voor volledige dekking.
Zelfs als het mogelijk zou zijn om een gezicht vanuit alle hoeken onder verschillende lichtomstandigheden volledig te bedekken, zou de resulterende dataset veel te groot zijn om te trainen, in de orde van honderdduizenden foto's; en zelfs als het kon worden getraind, zou de aard van het trainingsproces voor de huidige deepfake-frameworks de overgrote meerderheid van die extra gegevens weggooien ten gunste van een beperkt aantal afgeleide functies, omdat de huidige frameworks reductionistisch en niet erg schaalbaar zijn.
Synthetische vervanging
Sinds het begin van deepfakes hebben deepfakers geëxperimenteerd met het gebruik van CGI-achtige beelden, hoofden gemaakt in 3D-toepassingen zoals Cinema4D en Maya, om die 'ontbrekende poses' te genereren.
Deze methode wordt over het algemeen vroegtijdig verlaten door nieuwe deepfake-beoefenaars, omdat hoewel het poses en uitdrukkingen kan bieden die anders niet beschikbaar zijn, het synthetische uiterlijk van de CGI-gezichten meestal doorloopt in de swaps als gevolg van de verstrengeling van ID en contextuele / semantische informatie.
Dit kan leiden tot het plotseling flitsen van 'uncanny valley'-gezichten in een anderszins overtuigende deepfake-video, aangezien het algoritme begint te putten uit de enige gegevens die het mogelijk heeft voor een ongebruikelijke pose of uitdrukking: duidelijk nepgezichten.
CGI-gezichten als vrijstaande, conceptuele richtlijnen
In plaats daarvan is de nieuwe Delta-GAN Encoder (DGE)-methode van de Israëlische onderzoekers effectiever, omdat de pose- en contextinformatie van de CGI-beelden volledig gescheiden zijn van de 'identiteit'-informatie van het doelwit.
We kunnen dit principe in actie zien in de onderstaande afbeelding, waar verschillende hoofdoriëntaties zijn verkregen door de CGI-beelden als richtlijn te gebruiken. Aangezien de identiteitskenmerken geen verband houden met de contextuele kenmerken, is er geen doorbloeding van het nep ogende synthetische uiterlijk van het CGI-gezicht, noch van de identiteit die erin wordt afgebeeld:
Deze scheiding van identiteit en context wordt bereikt in de trainingsfase. De pijplijn voor de nieuwe deepfake-architectuur zoekt naar de latente vector in een vooraf getraind Generative Adversarial Network (GAN) dat overeenkomt met het beeld dat moet worden getransformeerd - een Sim2Real-methodologie die voortbouwt op een 2018 project van IBM's AI-onderzoekssectie.
De onderzoekers observeren:
'Met slechts een paar voorbeelden, die verschillen door een specifiek attribuut, kun je het ontwarde gedrag van een vooraf getraind verstrengeld generatief model leren. Er zijn geen exacte voorbeelden uit de echte wereld nodig om dat doel te bereiken, wat niet noodzakelijkerwijs haalbaar is.
'Door niet-realistische datamonsters te gebruiken, kan hetzelfde doel worden bereikt dankzij de semantiek van de gecodeerde latente vectoren. Het toepassen van gewenste wijzigingen op bestaande gegevensmonsters kan worden gedaan zonder expliciet onderzoek naar latent ruimtegedrag.'
De onderzoekers verwachten dat de kernprincipes van ontvlechting die in het project worden onderzocht, kunnen worden overgedragen naar andere domeinen, zoals simulaties van interieurarchitectuur, en dat de Sim2Real-methode die is toegepast voor Delta-GAN-Encoder uiteindelijk deepfake-instrumentaliteit mogelijk kan maken op basis van louter schetsen, in plaats van Invoer in CGI-stijl.
Men zou kunnen stellen dat de mate waarin het nieuwe Israëlische systeem al dan niet in staat is om deepfake-video's te synthetiseren veel minder belangrijk is dan de vooruitgang die het onderzoek heeft geboekt bij het ontwarren van context en identiteit, waarbij het proces meer controle krijgt over de latente ruimte. van een GA.
Ontwarring is een actief onderzoeksgebied in beeldsynthese; in januari 2021, een door Amazon geleid onderzoek papier vertoonde vergelijkbare houdingscontrole en ontwarring, en in 2018 a papier van de Shenzhen Institutes of Advanced Technology aan de Chinese Academie van Wetenschappen vooruitgang geboekt bij het genereren van willekeurige standpunten in een GAN.