stomp Ontvlechting is de volgende deepfake-revolutie - Unite.AI
Verbind je met ons

Artificial Intelligence

Ontwarring is de volgende deepfake-revolutie

mm
Bijgewerkt on

CGI-gegevensaugmentatie wordt gebruikt in een nieuw project om meer controle te krijgen over deepfake-beelden. Hoewel je CGI-hoofden nog steeds niet effectief kunt gebruiken om de ontbrekende hiaten in deepfake-gezichtsdatasets op te vullen, betekent een nieuwe golf van onderzoek naar het ontwarren van identiteit en context dat je dat binnenkort misschien niet meer hoeft te doen.

De makers van enkele van de meest succesvolle virale deepfake-video's van de afgelopen jaren selecteren hun bronvideo's zeer zorgvuldig, waarbij ze aanhoudende profielfoto's vermijden (d.w.z. het soort side-on mugshots dat populair is bij arrestatieprocedures van de politie), scherpe hoeken en ongebruikelijke of overdreven uitdrukkingen . De demonstratievideo's die door virale deepfakers worden geproduceerd, zijn steeds vaker bewerkte compilaties die de 'gemakkelijkste' invalshoeken en uitdrukkingen selecteren om te deepfaken.

In feite is de meest meegaande doelvideo om een ​​deepfaked-beroemdheid in te voegen, er een waarin de oorspronkelijke persoon (wiens identiteit door de deepfake wordt gewist) recht in de camera kijkt, met een minimaal aantal uitdrukkingen.

De meeste populaire deepfakes van de afgelopen jaren toonden onderwerpen die recht in de camera keken en ofwel alleen populaire uitdrukkingen droegen (zoals glimlachen), die gemakkelijk kunnen worden geëxtraheerd uit de uitvoer van paparazzi op de rode loper, of (zoals bij de nep van Sylvester Stallone uit 2019 zoals de Terminator, links afgebeeld), idealiter zonder enige uitdrukking, aangezien neutrale uitdrukkingen heel gewoon zijn, waardoor ze gemakkelijk kunnen worden opgenomen in deepfake-modellen.

De meeste populaire deepfakes van de afgelopen jaren toonden onderwerpen die recht in de camera keken en ofwel alleen populaire uitdrukkingen droegen (zoals glimlachen), die gemakkelijk kunnen worden geëxtraheerd uit de uitvoer van paparazzi op de rode loper, of (zoals bij de nep van Sylvester Stallone uit 2019 zoals de Terminator, links afgebeeld), idealiter zonder enige uitdrukking, aangezien neutrale uitdrukkingen heel gewoon zijn, waardoor ze gemakkelijk kunnen worden opgenomen in deepfake-modellen.

Omdat deepfake-technologieën zoals DeepFaceLab en gezicht wisselen deze eenvoudigere swaps heel goed uitvoeren, zijn we voldoende verblind door wat ze bereiken om niet op te merken waartoe ze niet in staat zijn, en – vaak – zelfs niet proberen:

Grijpt uit een veelgeprezen deepfake-video waarin Arnold Schwarzenegger wordt getransformeerd in Sylvester Stallone - tenzij de hoeken te lastig zijn. Profielen blijven een blijvend probleem met de huidige deepfake-benaderingen, deels omdat de open source-software die wordt gebruikt om gezichtshoudingen in deepfake-frameworks te definiëren niet is geoptimaliseerd voor zijaanzichten, maar vooral vanwege het gebrek aan geschikt bronmateriaal in een of beide noodzakelijke datasets. Bron: https://www.youtube.com/watch?v=AQvCmQFScMA

Grijpt uit een veelgeprezen deepfake-video waarin Arnold Schwarzenegger wordt getransformeerd in Sylvester Stallone - tenzij de hoeken te lastig zijn. Profielen blijven een blijvend probleem met de huidige deepfake-benaderingen, deels omdat de open source-software die wordt gebruikt om gezichtshoudingen in deepfake-frameworks te definiëren niet is geoptimaliseerd voor zijaanzichten, maar vooral vanwege het gebrek aan geschikt bronmateriaal in een of beide noodzakelijke datasets. Bron: https://www.youtube.com/watch?v=AQvCmQFScMA

Nieuw onderzoek uit Israël stelt een nieuwe methode voor om synthetische data, zoals CGI-hoofden, te gebruiken om deepfaking naar de jaren 2020 te brengen, door gezichtsidentiteiten (dwz de essentiële gezichtskenmerken van 'Tom Cruise', vanuit alle hoeken) echt te scheiden van hun context (dwz opzoeken, opzij kijken, fronsend, fronsend in het donker, wenkbrauwen gefronst, ogen dicht, Enz.).

Het nieuwe systeem scheidt op discrete wijze pose en context (dwz knipogen) van de identiteitscodering van het individu, met behulp van niet-gerelateerde synthetische gezichtsgegevens (links afgebeeld). In de bovenste rij zien we een 'knipoog' overgebracht naar de identiteit van Barack Obama, ingegeven door het aangeleerde niet-lineaire pad van de latente ruimte van een GAN, vertegenwoordigd door de CGI-afbeelding aan de linkerkant. In de rij eronder zien we het gestrekte mondhoekfacet overgezet op de oud-president. Rechtsonder zien we beide kenmerken gelijktijdig toegepast. Bron: https://arxiv.org/pdf/2111.08419.pdf

Het nieuwe systeem scheidt op discrete wijze pose en context (dwz knipogen) van de identiteitscodering van het individu, met behulp van niet-gerelateerde synthetische gezichtsgegevens (links afgebeeld). In de bovenste rij zien we een 'knipoog' overgebracht naar de identiteit van Barack Obama, ingegeven door het aangeleerde niet-lineaire pad van de latente ruimte van een GAN, vertegenwoordigd door de CGI-afbeelding aan de linkerkant. In de rij eronder zien we het gestrekte facet van de mondhoek overgezet op de oud-president. Rechtsonder zien we beide kenmerken gelijktijdig toegepast. Bron: https://arxiv.org/pdf/2111.08419.pdf

Dit is niet zomaar deepfake poppenspel, een techniek die geschikter is voor avatars en lipsynchronisatie van gedeeltelijke gezichten, en die een beperkt potentieel heeft voor volwaardige deepfake-videotransformaties.

Dit vertegenwoordigt eerder een weg voorwaarts voor een fundamentele scheiding van instrumentaliteit (zoals 'verander de hoek van het hoofd', 'maak een frons') van identiteit, en biedt een pad naar een op hoog niveau in plaats van 'afgeleid' op beeldsynthese gebaseerd deepfake-framework.

De nieuwe krant heeft de titel Delta-GAN-Encoder: codering van semantische wijzigingen voor expliciete beeldbewerking, met behulp van enkele synthetische voorbeelden, en is afkomstig van onderzoekers van Technion – Israel Institute of Technology.

Om te begrijpen wat het werk inhoudt, laten we eens kijken hoe deepfakes momenteel overal worden geproduceerd, van deepfake pornosites tot Industrieel licht en magie (aangezien de open source-repository van DeepFaceLab momenteel dominant is in zowel 'amateur' als professionele deepfaking).

Wat houdt de huidige deepfake-technologie tegen?

Deepfakes worden momenteel gemaakt door het trainen van een encoder/decoder machine learning-model op twee mappen met gezichtsafbeeldingen: de persoon die u wilt 'overschilderen' (in het eerdere voorbeeld is dat Arnie) en de persoon die u in de beelden wilt plaatsen (Sly).

Voorbeelden van verschillende poses en lichtomstandigheden bij twee verschillende gezichtssets. Let op de onderscheidende uitdrukking aan het einde van de derde rij in kolom A, die waarschijnlijk geen vergelijkbaar equivalent heeft in de andere dataset.

Voorbeelden van verschillende poses en lichtomstandigheden bij twee verschillende gezichtssets. Let op de onderscheidende uitdrukking aan het einde van de derde rij in kolom A, die waarschijnlijk geen vergelijkbaar equivalent heeft in de andere dataset.

Het encoder/decoder systeem dan vergelijkt elk afzonderlijk beeld in elke map naar elkaar, waarbij deze bewerking honderdduizenden iteraties (vaak wel een week) wordt ondersteund, verbeterd en herhaald, totdat het de essentiële kenmerken van beide identiteiten goed genoeg begrijpt om ze naar believen te verwisselen.

Voor elk van de twee mensen die tijdens het proces worden verwisseld, is wat de deepfake-architectuur leert over identiteit verstrikt in de context. Het kan geen principes leren en toepassen over een generieke pose 'voor altijd', maar heeft overvloedige voorbeelden nodig in de trainingsdataset, voor elke identiteit die betrokken gaat worden bij het wisselen van gezicht.

Dus als je twee identiteiten wilt ruilen die iets ongewoons doen dan alleen glimlachen of recht in de camera kijken, heb je nodig veel voorbeelden van die bepaalde pose/identiteit over de twee face-sets:

Omdat gezichts-ID en houdingskenmerken momenteel zo met elkaar verweven zijn, is een brede pariteit van uitdrukking, hoofdhouding en (in mindere mate) belichting nodig in twee gezichtsdatasets om een ​​effectief deepfake-model te trainen op systemen zoals DeepFaceLab. Hoe minder een bepaalde configuratie (zoals 'zijaanzicht/glimlach/zonovergoten') voorkomt in beide face-sets, hoe minder nauwkeurig deze wordt weergegeven in een deepfake-video, indien nodig.

Omdat gezichts-ID en houdingskenmerken momenteel zo met elkaar verweven zijn, is een brede pariteit van uitdrukking, hoofdhouding en (in mindere mate) belichting nodig over twee gezichtsdatasets om een ​​effectief deepfake-model te trainen op systemen zoals DeepFaceLab. Hoe minder een bepaalde configuratie (zoals 'zijaanzicht/glimlach/zonovergoten') voorkomt in beide face-sets, hoe minder nauwkeurig deze wordt weergegeven in een deepfake-video, indien nodig.

Als set A de ongebruikelijke pose bevat, maar set B deze niet heeft, heb je vrijwel geen geluk; hoe lang je het model ook traint, het zal nooit leren om die pose tussen de identiteiten goed te reproduceren, omdat het maar de helft van de benodigde informatie had toen het werd getraind.

Zelfs als je bijpassende afbeeldingen hebt, is het misschien niet genoeg: als set A de bijpassende pose heeft, maar met harde zijverlichting, vergeleken met de equivalente pose met vlak licht in de andere face-set, is de kwaliteit van de gewonnen ruil niet zo goed zijn alsof ze allemaal gemeenschappelijke verlichtingskenmerken hebben.

Waarom de gegevens schaars zijn

Tenzij je regelmatig wordt gearresteerd, heb je waarschijnlijk niet zoveel zijprofielfoto's van jezelf. Alles wat naar boven kwam, heb je waarschijnlijk weggegooid. Aangezien fotobureaus hetzelfde doen, zijn profielfoto's van gezichten moeilijk te vinden.

Deepfakers nemen vaak meerdere kopieën op van de beperkte zijaanzichtprofielgegevens die ze hebben voor een identiteit in een face-set, zodat de pose op zijn minst een Elke kleine stap levert grote resultaten op! aandacht en tijd tijdens de training, in plaats van te worden verdisconteerd als een uitbijter.

Maar er zijn veel meer mogelijke soorten gezichtsfoto's in zijaanzicht dan er waarschijnlijk beschikbaar zijn voor opname in een dataset - glimlachen, fronsend, schreeuwen, huilen, donker verlicht, minachtend, vervelen, vrolijk, flitslicht, opzoeken, naar beneden kijken, ogen open, ogen dicht…enzovoort. Elk van deze poses, in meerdere combinaties, kan nodig zijn in een beoogde deepfake-doelvideo.

En dat zijn slechts profielen. Hoeveel foto's heb je van jezelf terwijl je kijkt? rechtop? Heb je genoeg om de 10,000 mogelijke uitdrukkingen je zou kunnen dragen terwijl je die exacte pose vasthoudt vanuit die exacte camerahoek, waarbij je tenminste een deel van de een miljoen mogelijke verlichtingsomgevingen?

De kans is groot dat je het niet eens hebt een foto van jezelf terwijl je omhoog kijkt. En dat zijn slechts twee hoeken van de honderd of meer die nodig zijn voor volledige dekking.

Zelfs als het mogelijk zou zijn om een ​​gezicht vanuit alle hoeken onder verschillende lichtomstandigheden volledig te bedekken, zou de resulterende dataset veel te groot zijn om te trainen, in de orde van honderdduizenden foto's; en zelfs als het kon worden getraind, zou de aard van het trainingsproces voor de huidige deepfake-frameworks de overgrote meerderheid van die extra gegevens weggooien ten gunste van een beperkt aantal afgeleide functies, omdat de huidige frameworks reductionistisch en niet erg schaalbaar zijn.

Synthetische vervanging

Sinds het begin van deepfakes hebben deepfakers geëxperimenteerd met het gebruik van CGI-achtige beelden, hoofden gemaakt in 3D-toepassingen zoals Cinema4D en Maya, om die 'ontbrekende poses' te genereren.

Geen AI nodig; een actrice wordt nagebootst in een traditioneel CGI-programma, Cinema 4D, met behulp van mazen en bitmap-structuren - technologie die dateert uit de jaren zestig, maar die pas vanaf de jaren negentig wijdverbreid werd gebruikt. In theorie zou dit gezichtsmodel kunnen worden gebruikt om deepfake-brongegevens te genereren voor ongebruikelijke poses, lichtstijlen en gezichtsuitdrukkingen. In werkelijkheid heeft het weinig of geen nut gehad bij deepfaking, aangezien de 'fakeness' van de weergaven de neiging heeft om door te bloeden in verwisselde video's. Bron: afbeelding van de auteur van dit artikel op https://rossdawson.com/futurist/implications-of-ai/comprehensive-guide-ai-artificial-intelligence-visual-effects-vfx/

Geen AI nodig; een actrice wordt nagebootst in een traditioneel CGI-programma, Cinema 4D, met behulp van meshes en bitmap-texturen - technologie die dateert uit de jaren zestig, maar die pas vanaf de jaren negentig wijdverbreid werd gebruikt. In theorie zou dit gezichtsmodel kunnen worden gebruikt om deepfake-brongegevens te genereren voor ongebruikelijke poses, lichtstijlen en gezichtsuitdrukkingen. In werkelijkheid heeft het weinig of geen nut gehad bij deepfaking, aangezien de 'nepheid' van de weergaven de neiging heeft om door te bloeden in verwisselde video's. Bron: afbeelding van de auteur van dit artikel op https://rossdawson.com/futurist/implications-of-ai/comprehensive-guide-ai-artificial-intelligence-visual-effects-vfx/

Deze methode wordt over het algemeen vroegtijdig verlaten door nieuwe deepfake-beoefenaars, omdat hoewel het poses en uitdrukkingen kan bieden die anders niet beschikbaar zijn, het synthetische uiterlijk van de CGI-gezichten meestal doorloopt in de swaps als gevolg van de verstrengeling van ID en contextuele / semantische informatie.

Dit kan leiden tot het plotseling flitsen van 'uncanny valley'-gezichten in een anderszins overtuigende deepfake-video, aangezien het algoritme begint te putten uit de enige gegevens die het mogelijk heeft voor een ongebruikelijke pose of uitdrukking: duidelijk nepgezichten.

Onder de meest populaire onderwerpen voor deepfakers is een 3D-deepfake-algoritme voor de Australische actrice Margot Robbie opgenomen in de standaardinstallatie van DeepFaceLive, een versie van DeepFaceLab die deepfakes kan uitvoeren in een livestream, zoals een webcamsessie. Een CGI-versie, zoals hierboven afgebeeld, kan worden gebruikt om ongebruikelijke 'ontbrekende' hoeken in deepfake datasets te verkrijgen. Bron: https://sketchfab.com/3d-models/margot-robbie-bust-for-full-color-3d-printing-98d15fe0403b4e64902332be9cfb0ace

Een van de meest populaire onderwerpen voor deepfakers is een 3D-deepfake-algoritme voor de Australische actrice Margot Robbie inclusief in de standaardinstallatie van DeepFaceLive, een versie van DeepFaceLab die deepfakes kan uitvoeren in een livestream, zoals een webcamsessie. Een CGI-versie, zoals hierboven afgebeeld, kan worden gebruikt om ongebruikelijke 'ontbrekende' hoeken in deepfake datasets te verkrijgen. Source: https://sketchfab.com/3d-models/margot-robbie-bust-for-full-color-3d-printing-98d15fe0403b4e64902332be9cfb0ace

CGI-gezichten als vrijstaande, conceptuele richtlijnen

In plaats daarvan is de nieuwe Delta-GAN Encoder (DGE)-methode van de Israëlische onderzoekers effectiever, omdat de pose- en contextinformatie van de CGI-beelden volledig gescheiden zijn van de 'identiteit'-informatie van het doelwit.

We kunnen dit principe in actie zien in de onderstaande afbeelding, waar verschillende hoofdoriëntaties zijn verkregen door de CGI-beelden als richtlijn te gebruiken. Aangezien de identiteitskenmerken geen verband houden met de contextuele kenmerken, is er geen doorbloeding van het nep ogende synthetische uiterlijk van het CGI-gezicht, noch van de identiteit die erin wordt afgebeeld:

Met de nieuwe methode hoef je niet drie afzonderlijke real-life bronafbeeldingen te vinden om een ​​deepfake vanuit meerdere hoeken uit te voeren - je kunt gewoon de CGI-kop draaien, waarvan de abstracte kenmerken op hoog niveau op de identiteit worden opgelegd zonder een ID te lekken informatie.

Met de nieuwe methode hoef je niet drie afzonderlijke real-life bronafbeeldingen te vinden om een ​​deepfake vanuit meerdere hoeken uit te voeren - je kunt gewoon de CGI-kop draaien, waarvan de abstracte kenmerken op hoog niveau op de identiteit worden opgelegd zonder een ID te lekken informatie.

Delta-GAN-encoder. Groep linksboven: de hoek van een bronafbeelding kan in een seconde worden gewijzigd om een ​​nieuwe bronafbeelding weer te geven, die wordt weerspiegeld in de uitvoer; groep rechtsboven: verlichting wordt ook losgekoppeld van identiteit, waardoor verlichtingsstijlen kunnen worden gesuperponeerd; groep linksonder: meerdere gezichtsdetails zijn gewijzigd om een ​​'droevige' uitdrukking te creëren; groep rechtsonder: een enkel gezichtsuitdrukkingsdetail is veranderd, zodat de ogen samengeknepen worden.

Delta-GAN-encoder. Groep linksboven: de hoek van een bronafbeelding kan in een seconde worden gewijzigd om een ​​nieuwe bronafbeelding weer te geven, die wordt weerspiegeld in de uitvoer; groep rechtsboven: verlichting wordt ook losgekoppeld van identiteit, waardoor verlichtingsstijlen kunnen worden gesuperponeerd; groep linksonder: meerdere gezichtsdetails zijn gewijzigd om een ​​'droevige' uitdrukking te creëren; groep rechtsonder: een enkel gezichtsuitdrukkingsdetail is veranderd, zodat de ogen samengeknepen worden.

Deze scheiding van identiteit en context wordt bereikt in de trainingsfase. De pijplijn voor de nieuwe deepfake-architectuur zoekt naar de latente vector in een vooraf getraind Generative Adversarial Network (GAN) dat overeenkomt met het beeld dat moet worden getransformeerd - een Sim2Real-methodologie die voortbouwt op een 2018 project van IBM's AI-onderzoekssectie.

De onderzoekers observeren:

'Met slechts een paar voorbeelden, die verschillen door een specifiek attribuut, kun je het ontwarde gedrag van een vooraf getraind verstrengeld generatief model leren. Er zijn geen exacte voorbeelden uit de echte wereld nodig om dat doel te bereiken, wat niet noodzakelijkerwijs haalbaar is.

'Door niet-realistische datamonsters te gebruiken, kan hetzelfde doel worden bereikt dankzij de semantiek van de gecodeerde latente vectoren. Het toepassen van gewenste wijzigingen op bestaande gegevensmonsters kan worden gedaan zonder expliciet onderzoek naar latent ruimtegedrag.'

De onderzoekers verwachten dat de kernprincipes van ontvlechting die in het project worden onderzocht, kunnen worden overgedragen naar andere domeinen, zoals simulaties van interieurarchitectuur, en dat de Sim2Real-methode die is toegepast voor Delta-GAN-Encoder uiteindelijk deepfake-instrumentaliteit mogelijk kan maken op basis van louter schetsen, in plaats van Invoer in CGI-stijl.

Men zou kunnen stellen dat de mate waarin het nieuwe Israëlische systeem al dan niet in staat is om deepfake-video's te synthetiseren veel minder belangrijk is dan de vooruitgang die het onderzoek heeft geboekt bij het ontwarren van context en identiteit, waarbij het proces meer controle krijgt over de latente ruimte. van een GA.

Ontwarring is een actief onderzoeksgebied in beeldsynthese; in januari 2021, een door Amazon geleid onderzoek papier vertoonde vergelijkbare houdingscontrole en ontwarring, en in 2018 a papier van de Shenzhen Institutes of Advanced Technology aan de Chinese Academie van Wetenschappen vooruitgang geboekt bij het genereren van willekeurige standpunten in een GAN.