Connect with us

AI kan afbeeldingen geheim rangschikken op basis van apparaatmerk, niet inhoud

Andersons hoek

AI kan afbeeldingen geheim rangschikken op basis van apparaatmerk, niet inhoud

mm
A robot preferring a Mac over other junked laptops in the blurred background. Flux 1D and Firefly, via Krita.

Nieuw onderzoek toont aan dat populaire beeldgerichte AI-systemen niet alleen kijken naar de inhoud van een foto, maar ook naar hoe de foto is gemaakt. Verborgen details zoals cameratype of beeldkwaliteit kunnen stilzwijgend de resultaten van de AI beïnvloeden, waardoor verkeerde resultaten ontstaan – alleen omdat de foto van een ander apparaat kwam.

 

In 2012 werd onthuld dat een reiswebsite hogere prijzen liet zien aan gebruikers die het bedrijf kon afleiden dat ze een Apple-apparaat gebruikten, waarbij het Apple-merk gelijkgesteld werd met een hogere bestedingscapaciteit. Later onderzoek concludeerde dat deze apparaatgerichte ‘portemonnee-snuffeling’ bijna routine was geworden voor e-commerce-sites.

Soortgelijk kan de smartphone of opnameapparaat dat een bepaalde foto heeft gemaakt, worden afgeleid met behulp van forensische middelen, op basis van de bekende kenmerken van een beperkt aantal lenzen in de modellen. In dergelijke gevallen wordt het model van een opnameapparaat meestal geschat door visuele sporen; en, net als in het incident van 2012, kan het kennen van het type camera dat een afbeelding heeft gemaakt een potentieel uitbuitbare karakteristiek zijn.

Hoewel opnameapparaten de neiging hebben om significante metadata in een afbeelding te embedden, kan deze functie vaak door gebruikers worden uitgeschakeld; zelfs waar het aan staat, kunnen distributieplatforms zoals sociale medianetwerken sommige of alle metadata verwijderen, hetzij om logistieke, hetzij om privacyredenen, of beide.

Desondanks wordt metadata in door gebruikers geüploade afbeeldingen vaak herschreven/geïnterpreteerd (in plaats van verwijderd) of intact gelaten, als een secundaire bron van informatie, niet over wat er in de afbeelding zit, maar over hoe de afbeelding is gemaakt. Zoals het geval van 2012 onthulde, kan informatie van deze soort waardevol zijn – niet alleen voor commerciële platforms, maar ook, potentieel, voor hackers en slechte actoren.

Twee gezichtspunten

Een nieuwe onderzoeks samenwerking tussen Japan en Tsjechië heeft aangetoond dat de sporen die door camerahardware en beeldverwerking (zoals JPEG-kwaliteit of lensscherpstelling) worden achtergelaten, niet alleen door forensische tools kunnen worden gedetecteerd, maar ook stilzwijgend worden gecodeerd in de ‘globale begrip’ van toonaangevende AI-visiemodellen.

Dit omvat CLIP en andere grote visuele encoders, die op grote schaal worden gebruikt in alles, van zoekmachines tot inhoudsmoderatie. Het nieuwe onderzoek toont aan dat deze modellen niet alleen interpreteren wat er in een foto zit, maar ook kunnen leren hoe de foto is gemaakt; en dat deze verborgen signaal soms de zichtbare inhoud kan overweldigen.

Voorbeeldafbeeldingsparen uit de PairCams-dataset van de auteurs, gemaakt om te testen hoe cameratype AI-afbeeldingsmodellen beïnvloedt. Elk paar toont hetzelfde object of scène gefotografeerd op hetzelfde moment met een niet-smartphone (links) en een smartphone (rechts). Bron: https://arxiv.org/pdf/2508.10637

Voorbeeldafbeeldingsparen uit de PairCams-dataset van de auteurs, gemaakt om te testen hoe cameratype AI-afbeeldingsmodellen beïnvloedt. Elk paar toont hetzelfde object of scène gefotografeerd op hetzelfde moment met een niet-smartphone (links) en een smartphone (rechts). Bron: https://arxiv.org/pdf/2508.10637

Het onderzoek stelt dat zelfs wanneer AI-modellen zwaar gemaskeerde of bijgesneden versies van de afbeelding krijgen, ze nog steeds de make en het model van de camera kunnen raden met verrassende nauwkeurigheid. Dit betekent dat de representatieruimte die deze systemen gebruiken om beeldovereenkomst te beoordelen, verward kan raken met irrelevante factoren, zoals het apparaat van de gebruiker, met onvoorspelbare gevolgen.

Bijvoorbeeld, in downstream-taken zoals classificatie of beeldopname, kan deze ongewenste ‘gewicht’ ertoe leiden dat het systeem bepaalde cameratypen bevoordeelt, ongeacht wat de afbeelding eigenlijk laat zien.

Het artikel zegt:

‘Metadata-etiketten die sporen achterlaten in visuele encoders tot het punt van overschaduwing van semantische informatie, kunnen leiden tot onvoorspelbare resultaten, waardoor de generaliseerbaarheid, robuustheid en potentieel de betrouwbaarheid van de modellen in het gedrang komen.

‘Nog kritischer, kan dit effect kwaadwillig worden uitgebuit; bijvoorbeeld, een tegenwerkende aanval kan metadata manipuleren om een model opzettelijk te misleiden of te bedriegen, waardoor risico’s ontstaan in gevoelige domeinen zoals gezondheidszorg, surveillance of autonome systemen.’

Het artikel vindt dat Contrastive Visual-Language (CVL)-systemen zoals CLIP, nu een van de meest invloedrijke encoders in computerzicht, bijzonder geneigd zijn om dergelijke inferenties uit de gegevens te verkrijgen:

Zoekresultaten voor een queryafbeelding, waarin wordt getoond hoe basismodellen soortgelijke afbeeldingen rangschikken op basis van niet alleen visuele inhoud maar ook verborgen metadata zoals JPEG-compressie of cameramodel. De figuur weerspiegelt de bewering van de auteurs dat zowel semantische als metadata-etiketten de representatieruimte van het model vormen, soms de opname-uitkomsten veranderend.

Zoekresultaten voor een queryafbeelding, waarin wordt getoond hoe basismodellen soortgelijke afbeeldingen rangschikken op basis van niet alleen visuele inhoud maar ook verborgen metadata zoals JPEG-compressie of cameramodel.

Het nieuwe artikel heet Verwerking en acquisitie-sporen in visuele encoders: Wat weet CLIP over uw camera?, en komt van zes onderzoekers van de Universiteit van Osaka en de Tsjechische Technische Universiteit in Praag.

Methode en gegevens*

Om de invloed van verborgen metadata op visuele encoders zoals CLIP te testen, werkten de auteurs met twee categorieën metadata: beeldverwerkingsparameters (zoals JPEG-compressie of scherpstelling) en acquisitieparameters (zoals cameramodel of belichtingsinstellingen).

In plaats van nieuwe modellen te trainen, evalueerden de onderzoekers 47 breed gebruikt visuele encoders in hun bevroren, voorgetrainde staat, waaronder contrastieve visuele taalmodellen zoals CLIP, zelfsuperviserende modellen zoals DINO, en conventionele superviserende netwerken.

Voor verwerkingsparameters pasten de onderzoekers gecontroleerde transformaties toe op de ImageNet en iNaturalist 2018-datasets, waaronder zes niveaus van JPEG-compressie, drie scherpstellingen, drie schaalvergrotingen en vier interpolatiemethoden.

Voorbeelden van afbeeldingen en bijbehorende annotaties uit de iNaturalist-dataset. Bron: https://arxiv.org/pdf/1707.06642

Voorbeelden van afbeeldingen en bijbehorende annotaties uit de iNaturalist-dataset. Bron: https://arxiv.org/pdf/1707.06642

De modellen werden getest op hun vermogen om elke transformatie-instelling te herstellen met behulp van alleen de afbeeldingsinhoud, waarbij succesvolle voorspellingen aangaven dat de encoder informatie over deze verwerkingskeuzes in zijn interne representatie behoudt.

Om acquisitieparameters te onderzoeken, compileerden de onderzoekers een dataset van 356.459 afbeeldingen genaamd FlickrExif, met behouden Exif-metadata, en construeerden een tweede dataset genaamd PairCams, bestaande uit 730 afbeeldingsparen die tegelijkertijd werden vastgelegd met een smartphone en een niet-smartphonecamera.

De FlickrExif-dataset werd gebouwd met behulp van de Flickr API om afbeeldingen met bijbehorende Exif-metadata te downloaden. Tussen 2.000 en 4.000 veilige afbeeldingen werden per maand verzameld, gedateerd van begin 2000 tot half 2024, en gefilterd om alleen afbeeldingen met permissive licenties te includeren. Om oververtegenwoordiging door productieve gebruikers te voorkomen, werd elke individuele bijdrager beperkt tot tien afbeeldingen per maand voor elk jaar.

Voor de PairCams-dataset werd elke foto genomen met automatische instellingen en zonder flitser, waardoor een vergelijking mogelijk was van de manier waarop visuele encoders reageren op verschillen in camerahardware alleen, ongeacht de afbeeldingsinhoud:

Verdere voorbeelden uit de PairCams-dataset samengesteld door de auteurs.

Verdere voorbeelden uit de PairCams-dataset samengesteld door de auteurs.

De auteurs testten voor twee sets parameters: beeldverwerkingsparameters, zoals compressie en kleurtransformaties; en acquisitieparameters, zoals cameramerk of belichtingsinstellingen:

Beeldverwerkings- en acquisitieparameters geanalyseerd, met het aantal klassen voor elk.

Beeldverwerkings- en acquisitieparameters geanalyseerd, met het aantal klassen voor elk.

Tests

Om te bepalen of informatie over beeldverwerking en cameratype in visuele encoder-embeddings wordt bewaard, trainden de auteurs een classificator om metadata-etiketten rechtstreeks uit deze embeddings te voorspellen. Als de classificator niet beter presteerde dan willekeurig raden, zou dit suggereren dat details over verwerking of apparaat niet door het model worden vastgelegd.

Echter, elke prestatie boven toeval zou aangeven dat deze technische sporen wel degelijk worden gecodeerd en downstream-taken kunnen beïnvloeden.

Om verwerkings-sporen te testen, wezen de auteurs elke trainingsafbeelding een willekeurige verwerkingsinstelling toe, zoals een specifiek JPEG-compressieniveau, terwijl alle testafbeeldingen in een batch dezelfde instelling deelden.

De gemiddelde classificatie-accuratie over alle instellingen werd vervolgens gecombineerd met herhaalde proeven onder verschillende willekeurige zaden, zodat kon worden bepaald of technische details van beeldverwerking consistent in de interne representatie van het model werden vastgelegd:

Classificatie-accuratie voor het voorspellen van beeldverwerkingsparameters uit encoder-embeddings, met behulp van een lineaire classificator toegepast op bevroren modellen. Resultaten worden getoond voor JPEG-compressie, scherpstelling, schaalvergroting en interpolatie, met drie modelcategorieën, contrastieve visuele taal (oranje), superviserend (groen) en zelfsuperviserend (blauw), geëvalueerd op ImageNet (bovenste rij) en iNaturalist 2018 (onderste rij). Willekeurige basislijnen worden gemarkeerd met gestreepte lijnen.

Classificatie-accuratie voor het voorspellen van beeldverwerkingsparameters uit encoder-embeddings, met behulp van een lineaire classificator toegepast op bevroren modellen. Resultaten worden getoond voor JPEG-compressie, scherpstelling, schaalvergroting en interpolatie, met drie modelcategorieën, contrastieve visuele taal (oranje), superviserend (groen) en zelfsuperviserend (blauw), geëvalueerd op ImageNet (bovenste rij) en iNaturalist 2018 (onderste rij). Willekeurige basislijnen worden gemarkeerd met gestreepte lijnen.

Over alle vier verwerkingsparameters toonden contrastieve visuele taalmodellen de hoogste capaciteit om verborgen beeldmanipulaties te herkennen. Sommige modellen bereikten meer dan 80% accuratie bij het voorspellen van JPEG-compressie-, scherpstelling- en schaalvergrotinginstellingen uit ImageNet-embeddings.

Superviserende encoders, met name die gebaseerd op ConvNeXt, presteerden ook sterk, terwijl zelfsuperviserende modellen consistent zwakker waren.

Interpolatie was de moeilijkste parameter om te detecteren, maar de top-CVL- en superviserende modellen bereikten nog steeds resultaten ver boven de willekeurige basislijn van 25% op beide datasets.

Vervolgens, om te testen of camera-gerelateerde informatie in modelrepresentaties wordt ingebed, creëerden de auteurs afzonderlijke trainings- en testsets voor elke acquisitieparameter (zoals cameramerk, cameramodel, belichting, diafragma, ISO en brandpuntsafstand).

Voor de meeste parameters werden alleen klassen met ten minste 5.000 voorbeelden gebruikt; 500 afbeeldingen werden willekeurig opzij gezet voor testen, en de resterende voorbeelden werden ondersteekerd zodat elke klasse 200 trainingsvoorbeelden had. Voor de ‘model (alle)’- en ‘model (smart)’-parameters, die minder gegevens per klasse hadden, gebruikten de auteurs in plaats daarvan klassen met ten minste 500 afbeeldingen, en splitsten elke klasse in train en test subsets in een verhouding van vier tot één.

Fotografen werden gescheiden gehouden over trainings-, validatie- en testsets, en een eenvoudige classificator werd getraind om camera-informatie te voorspellen op basis van de afbeeldingskenmerken.

Om ervoor te zorgen dat de classificator niet werd beïnvloed door de semantische inhoud van de afbeeldingen, werd 90% van elke afbeelding gemaskeerd (zie onderstaande voorbeelden). De auteurs beweren dat op dit niveau van masking alle visuele encoders presteren nabij toeval op ImageNet, waardoor de semantische signaal effectief wordt onderdrukt:

ImageNet-validatie-accuratie als functie van masking-verhouding. Bij 90% masking dalen alle modellen af tot nabij-toevalprestaties op semantische labelvoorspelling, waardoor semantische hints effectief worden verwijderd. De onderstaande voorbeelden illustreren de masking-niveaus.

ImageNet-validatie-accuratie als functie van masking-verhouding. Bij 90% masking dalen alle modellen af tot nabij-toevalprestaties op semantische labelvoorspelling, waardoor semantische hints effectief worden verwijderd. De onderstaande voorbeelden illustreren de masking-niveaus.

Zelfs met 90% van elke afbeelding gemaskeerd, presteerden de meeste contrastieve visuele taalmodellen en de superviserende ConvNeXt-encoders nog steeds camera-gerelateerde labels met een veel hogere nauwkeurigheid dan toeval. Veel CVL-modellen overschreden 70% accuratie bij het onderscheiden van smartphone- en niet-smartphone-afbeeldingen.

Andere superviserende encoders, SigLIP, en alle zelfsuperviserende modellen presteerden veel slechter. Wanneer geen masking werd toegepast, toonden CVL-modellen opnieuw de sterkste clustering door cameratype, waardoor werd bevestigd dat deze modellen acquisitie-informatie dieper embedden dan de anderen:

t-SNE visualisaties voor twee visuele encoders, met kleuren die aangeven of elke afbeelding is gemaakt met een smartphone of een niet-smartphonecamera.

t-SNE visualisaties voor twee visuele encoders, met kleuren die aangeven of elke afbeelding is gemaakt met een smartphone of een niet-smartphonecamera.

Downstream-betekenis

Nu is aangetoond dat metadata de modellen op deze manier beïnvloedt, werd de neiging van verborgen verwerkings-sporen om beeldinterpretatie te verstoren, vervolgens geëvalueerd.

Wanneer twee versies van dezelfde afbeelding op verschillende manieren werden verwerkt, werden embeddings vaak georganiseerd volgens de verwerkingsstijl in plaats van de inhoud. In verschillende gevallen werd een sterk gecomprimeerde foto van een hond behandeld als meer vergelijkbaar met een ongerelateerde afbeelding met dezelfde compressie-instelling dan met zijn eigen ongecomprimeerde versie:

Impact van verwerkingsparameters op semantische voorspelling, met semantische classificatie-accuratie voor ImageNet (boven) en iNaturalist (onder) onder vijf verwerkingsopstellingen. In de basislijn delen alle trainings- en testafbeeldingen dezelfde verwerkingslabel; in de all-diff-instelling gebruikt de testafbeelding een verwerkingswaarde die niet in de trainingsset aanwezig is; in pos-same en neg-same wordt het verwerkingslabel uitgelijnd met respectievelijk semantisch vergelijkbare of onvergelijkbare afbeeldingen; in de uniforme instelling worden verwerkingslabels willekeurig toegewezen over de trainingsset. Resultaten worden gerapporteerd met k = 10 voor ImageNet, en k = 1 voor iNaturalist.

Impact van verwerkingsparameters op semantische voorspelling, met semantische classificatie-accuratie voor ImageNet (boven) en iNaturalist (onder) onder vijf verwerkingsopstellingen. In de basislijn delen alle trainings- en testafbeeldingen dezelfde verwerkingslabel; in de all-diff-instelling gebruikt de testafbeelding een verwerkingswaarde die niet in de trainingsset aanwezig is; in pos-same en neg-same wordt het verwerkingslabel uitgelijnd met respectievelijk semantisch vergelijkbare of onvergelijkbare afbeeldingen; in de uniforme instelling worden verwerkingslabels willekeurig toegewezen over de trainingsset. Resultaten worden gerapporteerd met k = 10 voor ImageNet, en k = 1 voor iNaturalist.

De sterkste vertekeningen werden veroorzaakt door JPEG-compressie, gevolgd door scherpstelling en schaalvergroting, terwijl interpolatie slechts een kleine invloed had. De auteurs beweren dat deze resultaten aantonen dat verwerkings-sporen semantische informatie kunnen overschrijven en dicteren hoe een afbeelding wordt begrepen.

In conclusie waarschuwen ze:

‘Hoewel we hebben vastgesteld dat metadata-etiketten in fundamentele visuele encoders worden gecodeerd en hints hebben gegeven over potentiële oorzaken, kunnen we de oorsprong van het probleem niet definitief aangeven. Verder onderzoek naar dit onderwerp is moeilijk vanwege de kosten van het opnieuw trainen van dergelijke modellen en het frequente gebruik van privé-datasets en onbekende implementatiedetails.

‘Hoewel we geen specifieke mitigatietechnieken voorstellen, benadrukken we het probleem als een belangrijk gebied voor toekomstig onderzoek.’

Conclusie

In de literatuur is er een groeiende forensische interesse met betrekking tot de sporen en tekens van ‘methode boven inhoud’; hoe gemakkelijker het is om een kaderdomein of een specifieke dataset te identificeren, hoe gemakkelijker het is om deze informatie te benutten in de vorm van – bijvoorbeeld – deepfake-detectors, of systemen ontworpen om de herkomst of leeftijd van gegevens en modellen te categoriseren.

Dit gaat tegen de kernintentie van het trainen van AI-modellen, die is dat centrale gedistilleerde concepten onafhankelijk van de productiemiddelen moeten worden gecurateerd en geen spoor van deze middelen mogen dragen. In feite hebben datasets en opnameapparaten kenmerken en domeineigenschappen die effectief niet te scheiden zijn van de inhoud, omdat ze zelf ook een ‘historisch perspectief’ vertegenwoordigen.

 

* Het artikel is ongebruikelijk opgemaakt, en we zullen ons best doen om aan te passen aan de ongebruikelijke opmaak en presentatie. Een groot deel van het materiaal dat in een (niet-bestaande) ‘Methode’-sectie had moeten staan, is verplaatst naar diverse delen van de bijlage, vermoedelijk om de hoofdtekst te beperken tot acht pagina’s – hoewel ten koste van duidelijkheid. Als we enige kans hebben gemist om dit te verbeteren vanwege tijdgebrek, verontschuldigen we ons.

Eerst gepubliceerd op woensdag 20 augustus 2025

Schrijver over machine learning, domeinspecialist in menselijke beeldsynthese. Voormalig hoofd onderzoekscontent bij Metaphysic.ai.