Andersons vinkel

AI kan hemmeligt rangere billeder efter enhedsfabrikat, ikke indhold

Published August 20, 2025

Updated May 18, 2026

Martin Anderson

A robot preferring a Mac over other junked laptops in the blurred background. Flux 1D and Firefly, via Krita.

Nyt forskning viser, at populære billed-centrerede AI-systemer ikke kun ser på, hvad der er i et billede, men også opdager, hvordan billedet er taget. Skjulte detaljer som kamera-type eller billedkvalitet kan stille og roligt påvirke, hvad AI’en mener, det ser, hvilket kan føre til forkerte resultater – blot fordi billedet kommer fra en anden enhed.

I 2012 blev det afsløret, at en rejsewebsite rutinemæssigt viste højere priser til brugere, som det kunne slutte, at de browsede på Apple-enheder, og sammenlignede Apple-mærket med højere købekraft. Senere undersøgelse konkluderede, at denne enheds-fokuserede ‘wallet-sniffing’ var blevet næsten rutine for e-commerce-sites.

Ligeledes kan det, hvilket smartphone eller optageenhed, der har taget et bestemt billede, være afledt ved hjælp af retsmedicinske midler, baseret på de kendte karakteristika af et begrænset antal linser i modellerne. I sådanne tilfælde estimeres modellen af en optageenhed normalt ved visuelle spor; og som i 2012-tilfældet er det at kende, hvilken type kamera, der har taget et billede, en potentielt udnyttelig karakteristik

Selvom optageenheder tenderer til at indlejre betydelig metadata i et billede, kan denne funktion ofte deaktiveres af brugere; selv hvor den er aktiveret, kan distributionsplatforme som sociale medie-netværk fjerne nogen eller alle metadata, enten af logistiske eller privatlivsårsager, eller begge.

Nonetheless, metadata i brugeruploadede billeder er ofte enten omskrevet/fortolket (i stedet for slettet) eller efterladt intakt, som en sekundær kilde til information ikke om, hvad der er i billedet, men hvordan billedet er taget. Som 2012-sagen afslørede, kan information af denne type være værdifuld – ikke kun til kommercielle platforme, men også potentielt til hackere og dårlige aktører.

Tvillinge-perspektiver

Et nyt forskningssamarbejde mellem Japan og Tjekkiet har fundet, at spor, der er efterladt af kamera-hardware og billedbehandling (såsom JPEG-kvalitet eller linse-skærpning), ikke kun er detekterbare ved hjælp af retsmedicinske værktøjer, men også stille indkodet i ‘den globale forståelse’ af førende AI-vision-modeller.

Dette inkluderer CLIP og andre store skala-visuelle encodere, som er bredt anvendt i alt fra søgemaskiner til indholdsmoderation. Det nye arbejde demonstrerer, at disse modeller ikke kun fortolker, hvad der er i et billede, men også kan lære, hvordan billedet er lavet; og denne skjulte signal kan nogen gange overmagte den synlige indhold.

Eksempel på billedpar fra forfatternes PairCams-datasæt, oprettet for at teste, hvordan kamera-type påvirker AI-billedmodeller. Hver par viser det samme objekt eller scene fotograferet på samme tidspunkt ved hjælp af en ikke-smartphone (venstre) og en smartphone (højre). Kilde: https://arxiv.org/pdf/2508.10637

Studiet påstår, at selv når AI-modeller får tungt maskerede eller beskåret versioner af billedet, kan de stadig gætte kameraets mærke og model med overraskende nøjagtighed. Dette betyder, at repræsentationsrummet, disse systemer bruger til at dømme billedlighed, kan blive sammenflettet med irrelevante faktorer, såsom brugerens enhed, med uforudsigelige konsekvenser.

For eksempel kan denne uønskede ‘vægning’ i downstream-opgaver såsom klassificering eller billedhenting få systemet til at favorisere bestemte kamera-typer, uanset hvad billedet faktisk viser.

Papiret siger:

‘Metadata-etiketter, der efterlader spor i visuelle encodere til punktet, hvor de overskygger semantisk information, kan føre til uforudsigelige resultater, som kan true generaliserbarheden, robustheden og potentielt undergrave tillid til modellerne.

‘Endnu mere kritisk kan denne effekt udnyttes ondsindet; for eksempel kan en modbydelig angreb manipulere metadata for at mislede eller bedrage en model, hvilket udgør risici i følsomme domæner som sundhedspleje, overvågning eller autonome systemer.’

Papiret finder, at Contrastive Visual-Language (CVL)-systemer såsom CLIP, nu en af de mest indflydelsesrige encodere i computer-vision, er særligt tilbøjelige til at få sådanne slutninger fra dataene:

Søgeresultater for et billedspørgsmål, der viser, hvordan grundmodeller rangerer lignende billeder ikke kun efter visuelt indhold, men også efter skjult metadata såsom JPEG-komprimering eller kamera-model.

Den nye papir er titlen Behandling og erhvervs-spor i visuelle encodere: Hvad ved CLIP om din kamera?, og kommer fra seks forskere på The University of Osaka og Czech Technical University i Prag.

Metode og Data*

For at teste indflydelsen af skjult metadata på visuelle encodere såsom CLIP, arbejdede forfatterne med to kategorier af metadata: billedbehandlingsparametre (såsom JPEG-komprimering eller skærpning) og erhvervsparametre (såsom kamera-model eller eksponeringsindstillinger).

I stedet for at træne nye modeller, evaluerede forskerne 47 bredt anvendte visuelle encodere i deres frosne, forudtrænede tilstand, herunder kontrastive vision-sprog-modeller såsom CLIP, selv-supervisede modeller såsom DINO, og konventionelt supervisede netværk.

For billedbehandlingsparametre anvendte forskerne kontrollerede transformationer på ImageNet og iNaturalist 2018-datasættene, herunder seks niveauer af JPEG-komprimering, tre skærpningssætninger, tre omstørrelses-skalaer og fire interpolationsmetoder.

Eksempler på billeder og tilhørende annoteringer fra iNaturalist-datasættet. Kilde: https://arxiv.org/pdf/1707.06642

Modellerne blev testet på deres evne til at genskabe hver transformationsindstilling ved hjælp af kun billedindholdet, med succesfulde forudsigelser, der indikerer, at encoderen bevarede information om disse billedbehandlingsvalg i sin interne repræsentation.

For at undersøge erhvervsparametre samlede forskerne en 356.459-billed-datasæt kaldet FlickrExif, der indeholdt bevarede Exif-metadata, og opbyggede en anden datasæt kaldet PairCams, bestående af 730 billedpar, der blev taget samtidigt med en smartphone og en ikke-smartphone-kamera.

FlickrExif-datasættet blev opbygget ved hjælp af Flickr-API’en til at downloade billeder med tilhørende Exif-metadata. Mellem 2.000 og 4.000 billeder blev samlet pr. måned, dateret fra begyndelsen af 2000 til midten af 2024, og filtreret til kun at inkludere billeder med tilladte licenser. For at forhindre overrepræsentation af produktive brugere, blev hver enkelt bidragsyder begrænset til ti billeder pr. måned for hvert år.

For PairCams-datasættet blev hvert billede taget ved hjælp af automatiske indstillinger og uden flash, hvilket muliggjorde en sammenligning af, hvordan visuelle encodere responderer på forskelle i kamera-hardware alene, uanset billedindholdet:

Yderligere eksempler fra PairCams-datasættet, kurateret af forfatterne.

Forfatterne testede for to sæt parametre: billedbehandlingsparametre, såsom komprimering og farve-transformationer; og erhvervsparametre, såsom kamera-mærke eller model:

Billedbehandling og erhvervsparametre, der er analyseret, med antal klasser for hver.

Tests

For at bestemme, om information om billedbehandling og kamera-type er indkodet i model-repræsentationer, trænede forfatterne en klassifikator til at forudsige metadata-etiketter direkte fra disse repræsentationer. Hvis klassifikatoren ikke kunne gøre bedre end tilfældigt gætning, ville det antyde, at detaljer om billedbehandling eller enhed ikke er fanget af modellen.

Imidlertid ville enhver præstation over tilfældigt antyde, at disse tekniske spor er indkodet, og kunne påvirke downstream-opgaver.

For at teste billedbehandlings-spor tildelte forfatterne hver træningsbillede en tilfældig billedbehandlingsindstilling, såsom en bestemt JPEG-komprimeringsniveau, mens alle test-billeder i en batch delte den samme indstilling.

Gennemsnitlig klassifikationsnøjagtighed over alle indstillinger blev kombineret med gentagne forsøg under forskellige tilfældige frø, så det kunne bestemmes, om tekniske detaljer om billedbehandling konsekvent var fanget i modellens interne repræsentation:

Klassifikationsnøjagtighed for at forudsige billedbehandlingsparametre fra encoder-repræsentationer, ved hjælp af en lineær klassifikator anvendt på frosne modeller. Resultaterne vises for JPEG-komprimering, skærpning, omstørrelse og interpolation, med tre model-kategorier, kontrastive vision-sprog (orange), supervised (grøn) og selv-supervised (blå), evaluering på ImageNet (øverste række) og iNaturalist 2018 (nederste række). Tilfældigt gætning-baselines er markeret med stiplede linjer.

Over alle fire billedbehandlingsparametre viste kontrastive vision-sprog-modeller den højeste evne til at genkende skjulte billedmanipulationer. Nogle af modellerne opnåede mere end 80% nøjagtighed, når de forudsagde JPEG-komprimerings-, skærpnings- og omstørrelsesindstillinger fra ImageNet-repræsentationer.

Supervised encodere, især de baseret på ConvNeXt, opførte sig også stærkt, hvorimod selv-supervisede modeller var konsekvent svagere.

Interpolation var den sværeste parameter at detektere, men de bedste CVL- og supervisede modeller opnåede alligevel resultater langt over den tilfældige baseline på 25% på begge datasæt.

Herefter testede forfatterne, om kamera-relateret information er indkodet i model-repræsentationer, ved at opbygge separate trænings- og test-sæt for hver erhvervsparameter (såsom kamera-mærke, kamera-model, eksponering, blænde, ISO og brændvidde).

For de fleste parametre blev kun klasser med mindst 5.000 eksempler brugt; 500 billeder blev tilfældigt sat til side til test, og de resterende eksempler blev nedsamplet, så hver klasse havde 200 trænings-eksempler. For ‘model (all)’- og ‘model (smart)’-parametrene, som havde mindre data pr. klasse, brugte forfatterne i stedet klasser med mindst 500 billeder, og delte hver klasse i trænings- og test-undergrupper i en fire-til-en forhold.

Fotografer blev holdt adskilt over trænings-, validerings- og test-sæt, og en enkel klassifikator blev trænet til at forudsige kamera-information baseret på billed-funktioner.

For at sikre, at klassifikatoren ikke blev påvirket af billedets semantiske indhold, blev 90% af hvert billede center-maskeret (se eksempler nedenfor). Forfatterne påstår, at på dette niveau af maskering udgør alle visuelle encodere en præstation tæt på tilfældigt på ImageNet, hvilket indikerer, at den semantiske signal er blevet effektivt undertrykt:

ImageNet-valideringsnøjagtighed som en funktion af maskeringsforhold. Ved 90% maskering falder alle modeller til nær-tilfældig præstation på semantisk label-forudsigelse, hvilket indikerer, at semantiske hints er blevet effektivt fjernet. Eksempel-billederne nedenfor illustrerer maskeringsniveauerne.

Even med 90% af hvert billede maskeret, opnåede de fleste kontrastive vision-sprog-modeller og de supervisede ConvNeXt-encodere stadig kamera-relaterede etiketter med langt over tilfældigt niveau. Mange CVL-modeller overgik 70% nøjagtighed i at skelne mellem smartphone- og ikke-smartphone-billeder.

Andre supervisede encodere, SigLIP, og alle selv-supervisede modeller opførte sig langt dårligere. Når der ikke var maskering, viste CVL-modellerne igen den stærkeste klustering efter kamera-type, hvilket bekræfter, at disse modeller indkoder erhvervsinformation dybere end de andre:

t-SNE-visualiseringer for to visuelle encodere, med farver, der indikerer, om hvert billede er taget med en smartphone eller en ikke-smartphone-kamera.

Nedstrøms-betydning

Efter at have etableret, at metadata påvirker modellerne på denne måde, blev tendensen til, at skjulte billedbehandlings-spor kan forstyrre billed-tolkning, herefter evalueret.

Når to versioner af det samme billede blev behandlet forskelligt, blev repræsentationer ofte organiseret efter billedbehandlings-stil snarere end indhold. I flere tilfælde blev et kraftigt komprimeret billede af en hund behandlet som mere lignende et ubeslægtet billede med samme komprimeringsindstilling end sin egen ukomprimerede version:

Indvirkning af billedbehandlingsparametre på semantisk forudsigelse, med semantisk klassifikationsnøjagtighed for ImageNet (øverst) og iNaturalist (nederst) under fem billedbehandlingsopsætninger. I baseline-delen deler alle trænings- og test-billeder den samme billedbehandlings-etiket; i ‘all-diff’-opsætningen bruger test-billedet en billedbehandlingsværdi, der ikke er til stede i trænings-sættet; i ‘pos-same’ og ‘neg-same’ er billedbehandlings-etiketten enten sammenfaldende med semantisk lignende eller ulignende billeder; i ‘uniform’-opsætningen tildeles billedbehandlings-etiketter tilfældigt på tværs af trænings-sættet. Resultaterne rapporteres ved brug af k = 10 for ImageNet og k = 1 for iNaturalist.

De stærkeste forvrængninger blev forårsaget af JPEG-komprimering, efterfulgt af skærpning og omstørrelse, hvorimod interpolation kun havde en minimal effekt. Forfatterne påstår, at disse resultater demonstrerer, at billedbehandlings-spor kan overmagte semantisk information og diktere, hvordan et billede forstås.

I konklusion advarer de:

‘Selvom vi har identificeret, at metadata-etiketter er indkodet i grundlæggende visuelle encodere, og har givet hints om potentielle årsager, kan vi ikke definitivt pege på årsagen til problemet. At undersøge dette yderligere er udfordrende på grund af omkostningerne ved at gen-træne sådanne modeller og den hyppige brug af private datasæt og ukendte implementeringsdetaljer.

‘Selvom vi ikke foreslår specifikke mitigations-teknikker, fremhæver vi problemet som et vigtigt område for fremtidig forskning.’

Konklusion

I litteraturen er der en voksende forensisk interesse med hensyn til spor og tegn på ‘metode over indhold’; jo lettere det er at identificere en ramme-domæne eller et bestemt datasæt, jo lettere er det at udnytte denne information i form af – for eksempel – deepfake-detektion, eller systemer designet til at kategorisere proveniens eller alder af data og modeller.

Dette går imod den centrale intention med at træne AI-modeller, som er, at centrale destillerede begreber skal kurateres uafhængigt af produktionsmidlerne, og ikke bør bære nogen spor af disse. I virkeligheden har datasæt og optage-enheder karakteristika og domæne-træk, som er effektivt umulige at adskille fra indhold, fordi de i sig selv også repræsenterer en ‘historisk perspektiv’.

* Papiret er layoutet usædvanligt, og vi vil tilpasse os så godt som muligt til dets usædvanlige formatering og præsentation. En stor del af materialet, der burde have været i en (ikke-eksisterende) ‘Metode’-sektion, er blevet flyttet til diverse dele af appendikset, formodentlig for at begrænse hoved-papiret til otte sider – selvom det er til en betydelig omkostning af klarhed. Hvis vi har overset nogen mulighed for at forbedre dette, på grund af mangel på tid, undskylder vi. Først offentliggjort onsdag, 20. august 2025

Først offentliggjort onsdag, 20. august 2025