Andersons hoek
AI kan mogelijk afbeeldingen rangschikken op basis van apparaatmerk, niet inhoud

Nieuw onderzoek toont aan dat populaire beeldgerichte AI-systemen niet alleen kijken naar wat er in een foto zit, maar ook naar hoe de foto is gemaakt. Verborgen details zoals cameratype of beeldkwaliteit kunnen stilletjes de resultaten van de AI beïnvloeden, waardoor verkeerde resultaten ontstaan – alleen omdat de foto van een ander apparaat kwam.
In 2012 werd onthuld dat een reiswebsite routinematig hogere prijzen liet zien aan gebruikers die op Apple-apparaten browsen, waarbij de Apple-merk werd geassocieerd met een hoger bestedingsvermogen. Later onderzoek concludeerde dat deze apparaatgerichte ‘wallet-sniffing’ bijna routine was geworden voor e-commerce-sites.
Soortgelijk kan de smartphone of opnameapparaat die een bepaalde foto heeft gemaakt, worden afgeleid met behulp van forensische middelen, op basis van de bekende kenmerken van een beperkt aantal lenzen in de modellen. In dergelijke gevallen wordt het model van een opnameapparaat meestal geschat door visuele sporen; en, net als in het incident van 2012, kan het kennen van het type camera dat een afbeelding heeft gemaakt, een potentieel uitbuitbare karakteristiek zijn
Hoewel opnameapparaten de neiging hebben om significante metadata in een afbeelding te embedden, kan deze functie vaak door gebruikers worden uitgeschakeld; zelfs als deze ingeschakeld is, kunnen distributieplatforms zoals sociale medianetwerken sommige of alle metadata verwijderen, hetzij om logistieke of privacyredenen, of beide.
Nonetheless, metadata in gebruikersgeüploade afbeeldingen wordt vaak ofwel herschreven/geïnterpreteerd (in plaats van verwijderd) ofwel intact gelaten, als een tweede bron van informatie, niet over wat er in de afbeelding zit, maar over hoe de afbeelding is gemaakt. Zoals het incident van 2012 aantoonde, kan informatie van deze soort waardevol zijn – niet alleen voor commerciële platforms, maar ook, potentieel, voor hackers en kwaadwilligen.
Twee perspectieven
Een nieuwe onderzoeks samenwerking tussen Japan en Tsjechië heeft aangetoond dat de sporen die door camerahardware en beeldverwerking (zoals JPEG-kwaliteit of lensscherpstelling) worden achtergelaten, niet alleen door forensische tools kunnen worden gedetecteerd, maar ook stilzwijgend worden gecodeerd in de ‘globale begrip’ van toonaangevende AI-visiemodellen.
Dit omvat CLIP en andere grote visuele encoders, die breed worden gebruikt in alles van zoekmachines tot inhoudsmoderatie. Het nieuwe onderzoek toont aan dat deze modellen niet alleen interpreteren wat er in een foto zit, maar ook kunnen leren hoe de foto is gemaakt; en deze verborgen signaal kan soms de zichtbare inhoud overweldigen.

Voorbeeldafbeeldingsparen uit de PairCams-dataset van de auteurs, gemaakt om te testen hoe cameratype AI-afbeeldingsmodellen beïnvloedt. Elk paar toont hetzelfde object of scène gefotografeerd op hetzelfde moment met een niet-smartphone (links) en een smartphone (rechts). Bron: https://arxiv.org/pdf/2508.10637
Het onderzoek stelt dat zelfs wanneer AI-modellen zwaar gemaskeerde of geknipte versies van de afbeelding krijgen, ze nog steeds de make en het model van de camera kunnen raden met verrassende nauwkeurigheid. Dit betekent dat de representatieruimte die deze systemen gebruiken om afbeeldingsgelijkenis te beoordelen, kan worden verward met irrelevante factoren, zoals het apparaat van de gebruiker, met onvoorspelbare gevolgen.
Om bijvoorbeeld in downstream-taken zoals classificatie of afbeeldingopname, kan deze ongewenste ‘gewicht’ ervoor zorgen dat het systeem bepaalde cameratypen verkiest, ongeacht wat de afbeelding eigenlijk laat zien.
Het artikel zegt:
‘Metadata-etiketten die sporen achterlaten in visuele encoders tot het punt waarop semantische informatie overschaduwd wordt, kunnen leiden tot onvoorspelbare resultaten, waardoor de generaliseerbaarheid, robuustheid en potentieel de betrouwbaarheid van de modellen in gevaar komen.
‘Nog kritischer, kan dit effect kwaadwillig worden uitgebuit; bijvoorbeeld, een tegenwerkende aanval kan metadata manipuleren om een model opzettelijk te misleiden of te bedriegen, waardoor risico’s ontstaan in gevoelige domeinen zoals gezondheidszorg, surveillance of autonome systemen.’
Het artikel concludeert dat Contrastive Visual-Language (CVL)-systemen zoals CLIP, nu een van de meest invloedrijke encoders in computerzicht, bijzonder geneigd zijn om dergelijke inferenties uit de data te verkrijgen:

Zoekresultaten voor een vraagafbeelding, waarin wordt getoond hoe basismodellen soortgelijke afbeeldingen rangschikken op basis van niet alleen visuele inhoud maar ook op verborgen metadata zoals JPEG-compressie of cameramodel.
Het nieuwe artikel heeft als titel Verwerking en acquisitie-sporen in visuele encoders: Wat weet CLIP over uw camera?, en komt van zes onderzoekers van de Universiteit van Osaka en de Tsjechische Technische Universiteit in Praag.
Methode en data*
Om de invloed van verborgen metadata op visuele encoders zoals CLIP te testen, werkten de auteurs met twee categorieën metadata: beeldverwerkingparameters (zoals JPEG-compressie of scherpstelling) en acquisitieparameters (zoals cameramodel of blootstelling).
In plaats van nieuwe modellen te trainen, evalueerden de onderzoekers 47 breed gebruikte visuele encoders in hun bevroren, voorgetrainde staat, waaronder contrastieve visuele taalmodellen zoals CLIP, zelfsuperviserende modellen zoals DINO, en conventionele superviserende netwerken.
Om beeldverwerkingparameters te testen, pasten de onderzoekers gecontroleerde transformaties toe op de ImageNet en iNaturalist 2018-datasets, waaronder zes niveaus van JPEG-compressie, drie scherpstellinginstellingen, drie herschalingsschalen en vier interpolatiemethoden.

Voorbeelden van afbeeldingen en bijbehorende annotaties uit de iNaturalist-dataset. Bron: https://arxiv.org/pdf/1707.06642
De modellen werden getest op hun vermogen om elke transformatie-instelling te herstellen met behulp van alleen de afbeeldingsinhoud, met succesvolle voorspellingen die aangaven dat de encoder informatie over deze verwerking keuzes in zijn interne representatie behoudt.
Om acquisitieparameters te onderzoeken, compileerden de onderzoekers een dataset van 356.459 afbeeldingen genaamd FlickrExif, met behouden Exif-metadata, en construeerden een tweede dataset genaamd PairCams, bestaande uit 730 afbeeldingsparen die gelijktijdig werden vastgelegd met een smartphone en een niet-smartphonecamera.
De FlickrExif-dataset werd gebouwd met behulp van de Flickr-API om afbeeldingen met bijbehorende Exif-metadata te downloaden. Tussen 2.000 en 4.000 veilige afbeeldingen werden per maand verzameld, gedateerd van begin 2000 tot half 2024, en gefilterd om alleen afbeeldingen met permissive licenties te includeren. Om oververtegenwoordiging door productieve gebruikers te voorkomen, werd elke individuele bijdrager beperkt tot tien afbeeldingen per maand voor elk jaar.
Om de PairCams-dataset te testen, werd elke foto genomen met automatische instellingen en zonder flits, waardoor een vergelijking mogelijk was van de manier waarop visuele encoders reageren op verschillen in camerahardware alleen, ongeacht de afbeeldingsinhoud:

Verdere voorbeelden uit de PairCams-dataset van de auteurs.
De auteurs testten twee sets parameters: beeldverwerkingparameters, zoals compressie en kleurtransformaties; en acquisitieparameters, zoals cameramerk of model:

Beeldverwerking en acquisitieparameters geanalyseerd, met het aantal klassen voor elk.
Tests
Om te bepalen of informatie over beeldverwerking en cameratype in visuele encoder-embeddings wordt behouden, trainden de auteurs een classificator om metadata-etiketten rechtstreeks uit deze embeddings te voorspellen. Als de classificator niet beter presteerde dan willekeurig gokken, zou dit suggereren dat details over verwerking of apparaat niet door het model worden vastgelegd.
Om beeldverwerkingparameters te testen, kregen alle trainingsafbeeldingen een willekeurige verwerkinginstelling, zoals een bepaald JPEG-compressieniveau, terwijl alle testafbeeldingen in een batch hetzelfde instelling deelden.
Gemiddelde classificatie-accuraatheid over alle instellingen werd vervolgens gecombineerd met herhaalde proeven onder verschillende willekeurige zaden, zodat kon worden bepaald of technische details van beeldverwerking consistent in de interne representatie van het model werden vastgelegd:

Classificatie-accuraatheid voor het voorspellen van beeldverwerkingparameters uit encoder-embeddings, met behulp van een lineaire classificator toegepast op bevroren modellen. Resultaten worden getoond voor JPEG-compressie, scherpstelling, herschaling en interpolatie, met drie modelcategorieën, contrastieve visuele taal (oranje), superviserend (groen) en zelfsuperviserend (blauw), geëvalueerd op ImageNet (bovenste rij) en iNaturalist 2018 (onderste rij). Willekeurige-gokken-baselines worden gemarkeerd met gestreepte lijnen.
Over alle vier beeldverwerkingparameters heen, toonden contrastieve visuele taalmodellen de hoogste capaciteit om verborgen beeldmanipulaties te herkennen. Sommige modellen bereikten meer dan 80% accuraatheid bij het voorspellen van JPEG-compressie, scherpstelling en herschaling van ImageNet-embeddings.
Superviserende encoders, met name die gebaseerd op ConvNeXt, presteerden ook sterk, terwijl zelfsuperviserende modellen consistent zwakker waren.
Interpolatie was de moeilijkste parameter om te detecteren, maar de top-CVL- en superviserende modellen bereikten nog steeds resultaten ver boven de willekeurige baseline van 25% op beide datasets.
Vervolgens, om te testen of camera-gerelateerde informatie in modelrepresentaties wordt opgenomen, creëerden de auteurs afzonderlijke trainings- en testsets voor elke acquisitieparameter (zoals cameramerk, cameramodel, blootstelling, diafragma, ISO en brandpuntsafstand).
Om te zorgen dat de classificator niet werd beïnvloed door de semantische inhoud van de afbeeldingen, werd 90% van elke afbeelding gemaskeerd (zie onderstaande voorbeelden). De auteurs beweren dat op dit niveau van masking, alle visuele encoders presteren nabij toeval op ImageNet, waardoor de semantische signaal effectief wordt onderdrukt:

ImageNet-validatie-accuraatheid als functie van masking-verhouding. Bij 90% masking dalen alle modellen af tot nabij-toevalsprestaties op semantische labelvoorspelling, waardoor semantische hints effectief worden verwijderd. De onderstaande voorbeeldafbeeldingen illustreren de masking-niveaus.
Selfsuperviserende modellen en alle andere superviserende encoders presteerden veel slechter. Wanneer geen masking werd toegepast, toonden CVL-modellen opnieuw de sterkste clustering door cameratype, waardoor werd bevestigd dat deze modellen acquisitie-informatie dieper embedden dan de anderen:

t-SNE visualisaties voor twee visuele encoders, met kleuren die aangeven of elke afbeelding is vastgelegd met een smartphone of een niet-smartphonecamera.
Downstream significantie
Nadat was vastgesteld dat metadata de modellen op deze manier beïnvloedt, werd de neiging van verborgen verwerkingssporen om de afbeeldingsinterpretatie te beïnvloeden, geëvalueerd.
Wanneer twee versies van dezelfde afbeelding op verschillende manieren werden verwerkt, werden embeddings vaak georganiseerd volgens de verwerkingstijl in plaats van de inhoud. In verschillende gevallen werd een zwaar gecomprimeerde foto van een hond behandeld als meer gelijkend op een ongerelateerde afbeelding met dezelfde compressie-instelling dan op zijn ongecomprimeerde versie:

Impact van verwerkingparameters op semantische voorspelling, met semantische classificatie-accuraatheid voor ImageNet (boven) en iNaturalist (onder) onder vijf verwerkinginstellingen. In de baseline delen alle trainings- en testafbeeldingen dezelfde verwerkingsetiket; in de all-diff-instelling gebruikt de testafbeelding een verwerkingsetiket dat niet in de trainingsset aanwezig is; in pos-same en neg-same wordt de verwerkingsetiket gealigneerd met semantisch soortgelijke of ongelijksoortige afbeeldingen; in de uniform-instelling worden verwerkingsetiketten willekeurig toegewezen over de trainingsset. Resultaten worden gerapporteerd met k = 10 voor ImageNet, en k = 1 voor iNaturalist.
De sterkste vertekeningen werden veroorzaakt door JPEG-compressie, gevolgd door scherpstelling en herschaling, terwijl interpolatie slechts een gering effect had. De auteurs beweren dat deze resultaten aantonen dat verwerkingssporen semantische informatie kunnen overweldigen en dicteren hoe een afbeelding wordt begrepen.
In conclusie waarschuwen zij:
‘Hoewel we hebben vastgesteld dat metadata-etiketten in fundamentele visuele encoders worden opgenomen en hints hebben gegeven over mogelijke oorzaken, kunnen we de oorsprong van het probleem niet definitief identificeren. Verder onderzoek naar dit onderwerp is moeilijk vanwege de kosten van het opnieuw trainen van dergelijke modellen en het frequente gebruik van privé-datasets en onbekende implementatiedetails.
‘Hoewel we geen specifieke mitigatie-technieken voorstellen, benadrukken we het probleem als een belangrijk gebied voor toekomstig onderzoek.’
Conclusie
In de literatuur is er een groeiende forensische interesse in de sporen en tekens van ‘methode boven inhoud’; hoe gemakkelijker het is om een kaderdomein of een specifieke dataset te identificeren, hoe gemakkelijker het is om deze informatie te gebruiken in de vorm van – bijvoorbeeld – deepfake-detectoren, of systemen die zijn ontworpen om de herkomst of leeftijd van data en modellen te categoriseren.
Dit gaat tegen de kernintentie van het trainen van AI-modellen in, die is dat centrale gedistilleerde concepten onafhankelijk van de productiemiddelen moeten worden gecurateerd en geen spoor van deze middelen mogen dragen. In feite hebben datasets en opnameapparaten kenmerken en domein-eigenschappen die effectief onmogelijk zijn te scheiden van de inhoud, omdat ze zelf een ‘historisch perspectief’ vertegenwoordigen.
* Het artikel is onconventioneel opgemaakt, en we zullen ons zo goed mogelijk aanpassen aan de ongebruikelijke opmaak en presentatie. Een groot deel van het materiaal dat in een (niet-bestaande) ‘Methode’-sectie had moeten staan, is doorgeschoven naar diverse delen van de bijlage, vermoedelijk om de hoofdtekst te beperken tot acht pagina’s – hoewel ten koste van een aanzienlijke daling van de duidelijkheid. Als we enige kans hebben gemist om dit te verbeteren vanwege een gebrek aan tijd, bieden we onze excuses aan.
First published woensdag, 20 augustus 2025












