Kunstmatige intelligentie

Echte identiteiten kunnen worden hersteld uit synthetische datasets

Published November 6, 2024

Updated April 27, 2026

Martin Anderson

Sample comparison images from the paper 'Unveiling Synthetic Faces: How Synthetic Datasets Can Expose Real Identities', including original images (top), and inferred images (bottom).

Als 2022 het moment markeerde waarop de disruptieve potentie van generatieve AI voor het eerst de brede aandacht van het publiek trok, is 2024 het jaar waarin vragen over de legaliteit van de onderliggende gegevens centraal staan voor bedrijven die hun kracht willen benutten.

De fair use-doctrine van de VS, evenals de impliciete academische licentie die lange tijd toeliet dat de academische en commerciële onderzoekssectoren generatieve AI verkenden, werden steeds meer onhoudbaar naarmate er meer bewijs van plagiaat naar voren kwam. Vervolgens heeft de VS voorlopig AI-gegenereerde inhoud niet langer toegestaan om auteursrechtelijk beschermd te worden.

Deze kwesties zijn verre van opgelost en verre van een spoedige oplossing; in 2023, mede vanwege de groeiende media- en publieke bezorgdheid over de juridische status van AI-gegenereerde output, lanceerde het Amerikaanse auteursrechtbureau een onderzoek van meerdere jaren naar dit aspect van generatieve AI, waarvan het eerste deel (over digitale replica’s) in juli 2024 werd gepubliceerd.

Ondertussen blijven bedrijfsbelangen gefrustreerd door de mogelijkheid dat de dure modellen die ze willen exploiteren hen aan juridische gevolgen kunnen blootstellen wanneer definitieve wetgeving en definities uiteindelijk naar voren komen.

De dure korte-termijnoplossing is om generatieve modellen te legitimeren door ze te trainen op gegevens waar bedrijven het recht hebben om te exploiteren. Adobe’s tekst-naar-afbeelding (en nu tekst-naar-video) Firefly-architectuur wordt voornamelijk aangedreven door zijn aankoop van de Fotolia-voorbeeldafbeeldingsdataset in 2014, aangevuld met het gebruik van auteursrechtelijk verlopen openbare domeingegevens*. Tegelijkertijd hebben gevestigde aandelenfotoleveranciers zoals Getty en Shutterstock van de nieuwe waarde van hun gelicenceerde gegevens geprofiteerd, met een groeiend aantal deals om inhoud te licentiëren of hun eigen IP-compliant GenAI-systemen te ontwikkelen.

Synthetische oplossingen

Aangezien het verwijderen van auteursrechtelijk beschermd materiaal uit de getrainde latent space van een AI-model problematisch is, kunnen fouten in dit opzicht mogelijk zeer kostbaar zijn voor bedrijven die experimenteren met consumenten- en bedrijfsoplossingen die machine learning gebruiken.

Een alternatief, en veel goedkopere oplossing voor computervisiemodellen (en ook Large Language Models, of LLM’s), is het gebruik van synthetische gegevens, waarbij de dataset bestaat uit willekeurig gegenereerde voorbeelden van het doeldomein (zoals gezichten, katten, kerken, of zelfs een meer gegeneraliseerde dataset).

Sites zoals thispersondoesnotexist.com hebben lang geleden al het idee populair gemaakt dat authentiek uitziende foto’s van ‘niet-reële’ mensen konden worden gesynthetiseerd (in dat specifieke geval door middel van Generatieve Adversarial Networks, of GAN’s) zonder enige relatie te hebben met mensen die echt bestaan in de echte wereld.

Dus, als je een gezichtsherkenningssysteem of een generatief systeem traint op dergelijke abstracte en niet-reële voorbeelden, kun je in theorie een fotorealistisch productieniveau voor een AI-model bereiken zonder te hoeven overwegen of de gegevens auteursrechtelijk bruikbaar zijn.

Evenwichtsoefening

Het probleem is dat de systemen die synthetische gegevens produceren, zelf getraind zijn op reële gegevens. Als sporen van die gegevens doorsijpelen in de synthetische gegevens, kan dit mogelijk bewijs leveren dat beperkt of anderszins niet-geautoriseerd materiaal is geëxploiteerd voor financieel gewin.

Om dit te voorkomen, en om echt ‘willekeurige’ beelden te produceren, moeten dergelijke modellen ervoor zorgen dat ze goed-generaliseerd zijn. Generalisatie is de maatstaf voor de mogelijkheid van een getraind AI-model om intrinsiek hoogwaardige concepten (zoals ‘gezicht’, ‘man’, of ‘vrouw’) te begrijpen zonder de daadwerkelijke trainingsgegevens te kopiëren.

Helaas kan het moeilijk zijn voor getrainde systemen om (of te herkennen) granulair detail te produceren, tenzij ze uitgebreid getraind worden op een dataset. Dit brengt het systeem in gevaar van memorisatie: een neiging om, in zekere mate, voorbeelden van de daadwerkelijke trainingsgegevens te reproduceren.

Dit kan worden gemitigeerd door een meer ontspannen leerratio in te stellen, of door de training te beëindigen op een stadium waarop de kernconcepten nog steeds ductiel zijn en niet geassocieerd worden met een specifiek gegevenspunt (zoals een specifiek beeld van een persoon, in het geval van een gezichtsdataset).

Helaas zullen beide van deze remedies waarschijnlijk leiden tot modellen met minder fijne details, aangezien het systeem niet de kans kreeg om verder te gaan dan de ‘basisbeginselen’ van het doeldomein, en omlaag naar de specifieke details.

Daarom worden in de wetenschappelijke literatuur over het algemeen zeer hoge leerratio’s en uitgebreide trainschema’s toegepast. Hoewel onderzoekers meestal proberen een compromis te vinden tussen brede toepasbaarheid en granulariteit in het eindmodel, kunnen zelfs licht ‘gememoriseerde’ systemen zich vaak voordoen als goed-generaliseerd – zelfs in initiële tests.

Gezicht onthullen

Dit brengt ons bij een interessant nieuw onderzoek uit Zwitserland, dat beweert de eerste te zijn die aantoont dat de oorspronkelijke, reële beelden die de synthetische gegevens aandrijven, kunnen worden hersteld uit gegenereerde beelden die in theorie geheel willekeurig zouden moeten zijn:

Voorbeelden van gezichtsbeelden die uit de trainingsgegevens zijn gelekt. In de rij bovenaan zien we de oorspronkelijke (reële) beelden; in de rij eronder zien we beelden die willekeurig zijn gegenereerd, die aanzienlijk overeenkomen met de reële beelden. Bron: https://arxiv.org/pdf/2410.24015

De resultaten, zo betogen de auteurs, geven aan dat ‘synthetische’ generators inderdaad een groot aantal van de trainingsgegevenspunten hebben gememoriseerd in hun zoektocht naar grotere granulariteit. Ze geven ook aan dat systemen die afhankelijk zijn van synthetische gegevens om AI-producers te beschermen tegen juridische gevolgen, mogelijk zeer onbetrouwbaar zijn in dit opzicht.

De onderzoekers voerden een uitgebreide studie uit op zes state-of-the-art synthetische datasets, waaruit bleek dat in alle gevallen oorspronkelijke (mogelijk auteursrechtelijk beschermd of beschermd) gegevens kunnen worden hersteld. Zij merken op:

‘Onze experimenten laten zien dat state-of-the-art synthetische gezichtsherkenningdatasets voorbeelden bevatten die zeer dicht bij voorbeelden in de trainingsgegevens van hun generatormodellen liggen. In sommige gevallen bevatten de synthetische voorbeelden kleine veranderingen ten opzichte van het oorspronkelijke beeld, maar we kunnen ook zien dat in sommige gevallen het gegenereerde voorbeeld meer variatie bevat (bijv. andere pose, lichtconditie, enz.) terwijl de identiteit behouden blijft.

‘Dit suggereert dat de generatormodellen de identiteit-gerelateerde informatie uit de trainingsgegevens leren en memoriseren en mogelijk soortgelijke identiteiten kunnen genereren. Dit creëert kritische zorgen met betrekking tot de toepassing van synthetische gegevens in privacy-gevoelige taken, zoals biometrie en gezichtsherkenning.’

Het artikel heeft als titel Onthullen van synthetische gezichten: hoe synthetische datasets echte identiteiten kunnen onthullen, en komt van twee onderzoekers van het Idiap Research Institute in Martigny, de École Polytechnique Fédérale de Lausanne (EPFL), en de Université de Lausanne (UNIL) in Lausanne.

Methode, gegevens en resultaten

De gememoriseerde gezichten in de studie werden onthuld door Membership Inference Attack. Hoewel het concept ingewikkeld klinkt, is het relatief eenvoudig: het afleiden van het lidmaatschap verwijst in dit geval naar het proces van het ondervragen van een systeem totdat het gegevens onthult die overeenkomen met de gegevens die u zoekt, of die er aanzienlijk op lijken.

Verdere voorbeelden van afgeleide gegevensbronnen uit de studie. In dit geval zijn de bron-synthetische beelden uit de DCFace-dataset.

De onderzoekers bestudeerden zes synthetische datasets waarvan de (reële) datasetbron bekend was. Aangezien zowel de reële als de valse datasets in kwestie allemaal een zeer groot volume aan beelden bevatten, is dit effectief zoeken naar een speld in een hooiberg.

Daarom gebruikten de auteurs een standaardfacial recognition model^† met een ResNet100 backbone getraind op de AdaFace loss functie (op de WebFace12M dataset).

De zes synthetische datasets die werden gebruikt, waren: DCFace (een latent diffusiemodel); IDiff-Face (Uniform – een diffusiemodel op basis van FFHQ); IDiff-Face (Two-stage – een variant met een andere steekproefmethode); GANDiffFace (gebaseerd op Generatieve Adversarial Networks en Diffusiemodellen, met StyleGAN3 om initiële identiteiten te genereren, en vervolgens DreamBooth om gevarieerde voorbeelden te creëren); IDNet (een GAN-methode, gebaseerd op StyleGAN-ADA); en SFace (een identiteitsbeschermingskader).

Aangezien GANDiffFace zowel GAN- als diffusiemethoden gebruikt, werd het vergeleken met de trainingsdataset van StyleGAN – de dichtstbijzijnde ‘echt-gezicht’-oorsprong die dit netwerk biedt.

De auteurs sloten synthetische datasets uit die CGI gebruiken in plaats van AI-methoden, en bij het evalueren van de resultaten werden overeenkomsten voor kinderen uitgesloten vanwege distributie-anomalieën in dit opzicht, evenals niet-gezichtsbeelden (die frequent kunnen voorkomen in gezichtsdatasets, waar web-scraping-systemen valse positieven produceren voor objecten of artefacten met gezichts-achtige kwaliteiten).

Cosine-similariteit werd berekend voor alle opgehaalde paren, en samengevoegd in histogrammen, zoals hieronder weergegeven:

Een histogramweergave voor cosine-similariteitsscores berekend over de diverse datasets, samen met hun verwante waarden van similariteit voor de top-k-paren (gestreepte verticale lijnen).

Het aantal overeenkomsten wordt weergegeven in de pieken in de grafiek hierboven. Het artikel bevat ook voorbeeldvergelijkingen uit de zes datasets, en hun overeenkomstige geschatte beelden in de oorspronkelijke (reële) datasets, waarvan enkele selecties hieronder worden weergegeven:

Voorbeelden uit de vele instanties die in het bronartikel worden gereproduceerd, waarvoor de lezer wordt verwezen voor een meer uitgebreide selectie.

Het artikel merkt op:

‘[De] gegenereerde synthetische datasets bevatten zeer vergelijkbare beelden met de trainingsset van hun generatormodel, wat zorgen baart over de generatie van dergelijke identiteiten.’

De auteurs merken verder op dat voor deze specifieke aanpak het opschalen naar grotere datasets waarschijnlijk inefficiënt zal zijn, aangezien de noodzakelijke berekening extreem belastend zou zijn. Zij observeren verder dat visuele vergelijking noodzakelijk was om overeenkomsten af te leiden, en dat automatische gezichtsherkenning alleen waarschijnlijk niet voldoende zou zijn voor een grotere taak.

Met betrekking tot de implicaties van het onderzoek, en met het oog op toekomstige ontwikkelingen, stelt het artikel:

‘[Wij] willen benadrukken dat de belangrijkste motivatie voor het genereren van synthetische datasets is om privacyproblemen aan te pakken bij het gebruik van grote web-gecrawlde gezichtsdatasets.

‘Daarom kan het lekken van enige gevoelige informatie (zoals identiteiten van reële beelden in de trainingsgegevens) in de synthetische dataset kritische zorgen oproepen over de toepassing van synthetische gegevens voor privacy-gevoelige taken, zoals biometrie. Onze studie werpt licht op de privacyvalkuilen in de generatie van synthetische gezichtsherkenningdatasets en baant de weg voor toekomstig onderzoek naar het genereren van verantwoorde synthetische gezichtsdatasets.’

Hoewel de auteurs beloven dat de code voor dit werk op de projectpagina zal worden vrijgegeven, is er op dit moment geen repository-link.

Conclusie

Onlangs heeft media-aandacht de afnemende rendementen benadrukt die worden behaald door AI-modellen te trainen op AI-gegenereerde gegevens.

Het nieuwe Zwitserse onderzoek brengt echter een overweging naar voren die mogelijk nog dringender is voor het groeiende aantal bedrijven dat generatieve AI wil benutten en exploiteren – het behoud van IP-beschermd of niet-geautoriseerd datapatronen, zelfs in datasets die zijn ontworpen om deze praktijk te bestrijden. Als we het een definitie zouden moeten geven, zou het in dit geval mogelijk ‘gezichtswassen’ genoemd kunnen worden.

* Adobe’s beslissing om door de gebruiker geüploade AI-gegenereerde beelden toe te staan in Adobe Stock, heeft echter effectief de juridische ‘zuiverheid’ van deze gegevens ondermijnd. Bloomberg betoogde in april 2024 dat door de gebruiker geleverde beelden van het generatieve AI-systeem MidJourney waren opgenomen in de mogelijkheden van Firefly.

^† Dit model wordt niet geïdentificeerd in het artikel.

Eerst gepubliceerd op woensdag 6 november 2024