Andersons vinkel

AI kan hemmelig rangere bilder etter enhetsmerke, ikke innhold

Published August 20, 2025

Updated April 26, 2026

Martin Anderson

A robot preferring a Mac over other junked laptops in the blurred background. Flux 1D and Firefly, via Krita.

Ny forskning viser at populære bilde-sentriske AI-systemer ikke bare ser på hva som er i et bilde, men også plukker opp hvordan bildet ble tatt. Skjulte detaljer som kamera-type eller bilde kvalitet kan stille og quietly påvirke hva AI-en tror den ser, og føre til feil resultater – bare fordi bildet kom fra en annen enhet.

I 2012 ble det avdekket at en reise-nettsted jevnt viser høyere priser til brukere som det kunne slutte seg til at de bla på Apple-enheter, og likte Apple-merket med høyere kjøpekraft. Senere etterforskning konkluderte at denne enhets-fokuserte ‘wallet-sniffing’ hadde blitt nesten rutinemessig for e-handels-nettsteder.

Tilsvarende kan det å bestemme hvilken smarttelefon eller innkapslingsenhet som tok et bestemt bilde, bli avledet ved hjelp av rettsmedisinske midler, basert på kjente karakteristika av et begrenset antall linser i modellene. I slike tilfeller er modellen av en innkapslingsenhet vanligvis estimert ved visuelle spor; og, som i 2012-episoden, å vite hvilken type kamera som tok et bilde, er en potensielt utnyttbar karakteristika.

Selv om innkapslingsenheter vanligvis innlemmer betydelig metadata i et bilde, kan denne funksjonen ofte bli slått av av brukerne; selv der den er aktivert, kan distribusjonsplattformer som sosiale medier-nettsteder fjerne noen eller alle metadata, enten for logistiske eller personvernshensyn, eller begge.

Likevel er metadata i brukerlastede bilder ofte enten omskrevet/tolket (i stedet for slettet) eller beholdt intakt, som en sekundær kilde til informasjon, ikke om hva som er i bildet, men hvordan bildet ble tatt. Som 2012-episoden avdekket, kan informasjon av denne typen være verdifull – ikke bare for kommersielle plattformer, men også, potensielt, for hackere og dårlige aktører.

Tvillingssynspunkter

En ny forsknings-samarbeid mellom Japan og Tsjekkia har funnet at sporene etter kamera-hardware og bilde-behandling (slik som JPEG-kvalitet eller linse-skjerping) ikke bare er påviselige ved hjelp av rettsmedisinske verktøy, men også stille kodet i ‘global forståelse’ av ledende AI-synsmodeller.

Dette inkluderer CLIP og andre store visuelle kodere, som er vidt brukt i alt fra søke-motorer til innhold-moderasjon. Den nye studien demonstrerer at disse modellene ikke bare tolker hva som er i et bilde, men også kan lære hvordan bildet ble laget; og denne skjulte signalen kan noen ganger overvinne det synlige innholdet.

Eksempel-bildepar fra forfatternes PairCams-dataset, laget for å teste hvordan kamera-type påvirker AI-bilde-modeller. Hver par viser samme objekt eller scene fotografert på samme tidspunkt ved hjelp av en ikke-smarttelefon (venstre) og en smarttelefon (høyre). Kilde: https://arxiv.org/pdf/2508.10637

Studien hevder at selv når AI-modellene får sterkt maskerte eller beskåret versjoner av bildet, kan de likevel gjetting kamera-merke og modell med overraskende nøyaktighet. Dette betyr at representasjonsrommet disse systemene bruker til å dømme bilde-lignende kan bli sammenflettet med irrelevante faktorer, som brukerens enhet, med uforutsigbare konsekvenser.

For eksempel, i nedstrøms-oppgaver som klassifisering eller bilde-utvinning, kan denne uønskede ‘vektleggingen’ føre til at systemet favoriserer bestemte kamera-typer, uavhengig av hva bildet faktisk viser.

Papiret sier:

‘Metadata-merker som etterlater spor i visuelle kodere til punktet hvor de overskygger semantisk informasjon, kan føre til uforutsigbare resultater, og kompromittere generaliserbarhet, robusthet og potensielt undergrave tillitsverdigheten til modellene.

‘Enda mer kritisk, kan denne effekten bli utnyttet på en malisøs måte; for eksempel, kan en motstridig angrep manipulere metadata for å forvilla eller bedra en modell, og utgjøre risiko i følsomme domener som helse, overvåking eller autonome systemer.’

Papiret finner at Contrastive Visual-Language (CVL)-systemer som CLIP, nå en av de mest innflytelsesrike koderne i datavisjon, er spesielt sannsynlige til å få slike slutninger fra dataene:

Søke-resultater for et spøringsbilde, som viser hvordan grunn-modellene rangerer lignende bilder basert ikke bare på visuelt innhold, men også på skjult metadata som JPEG-komprimering eller kamera-modell.

Den nye papiret er tittel Behandling og anskaffelse-spor i visuelle kodere: Hva vet CLIP om kameraet ditt?, og kommer fra seks forskere over The University of Osaka og Czech Technical University i Praha.

Metode og Data*

For å teste påvirkningen av skjult metadata på visuelle kodere som CLIP, arbeidet forfatterne med to kategorier av metadata: bilde-behandling-parametere (slik som JPEG-komprimering eller skjerping) og anskaffelse-parametere (slik som kamera-merke eller eksponerings-innstillinger).

I stedet for å trene nye modeller, evaluerte forskerne 47 vidt brukte visuelle kodere i deres frosne, forhåndstrengte tilstand, inkludert kontrastive visuell-språk-modeller som CLIP, selv-tilsyn-modeller som DINO, og konvensjonelt overvåket nettverk.

For behandling-parametere, anvendte forskerne kontrollerte transformasjoner til ImageNet og iNaturalist 2018-datasett, inkludert seks nivåer av JPEG-komprimering, tre skjerping-innstillinger, tre omstørrelse-skalaer og fire interpolerings-metoder.

Eksempler på bilder og tilhørende annotasjoner fra iNaturalist-datasett. Kilde: https://arxiv.org/pdf/1707.06642

Modellene ble testet på deres evne til å gjenopprette hver transformasjons-innstilling ved hjelp av bare bilde-innholdet, med vellykkede prediksjoner som indikerte at koderen beholder informasjon om disse behandling-valgene i sin interne representasjon.

For å undersøke anskaffelse-parametere, samlet forskerne en 356 459-bilde-datasett kalt FlickrExif, som inneholder bevarte Exif-metadata, og konstruerte en annen datasett kalt PairCams, bestående av 730 bilde-par tatt samtidig med en smarttelefon og en ikke-smarttelefon-kamera.

FlickrExif-datasett ble bygget ved hjelp av Flickr-API til å laste ned bilder med tilhørende Exif-metadata. Mellom 2 000 og 4 000 sikre-for-arbeid-bilder ble samlet per måned, datert fra tidlig 2000 til midten av 2024, og filtrert for å inkludere bare de med tillatelser. For å forhindre overrepresentasjon av flittige brukere, ble hver enkelt bidragsyter begrenset til ti bilder per måned for noen gitt år.

For PairCams-datasett, ble hvert bilde tatt ved hjelp av automatisk innstilling og ingen blitz, og tillot en sammenligning av hvordan visuelle kodere responderer til forskjeller i kamera-hardware alene, uavhengig av bilde-innholdet:

Flere eksempler fra PairCams-datasett kuratert av forfatterne.

Forfatterne testet for to sett med parametere: bilde-behandling-parametere, som komprimering og farge-transformasjoner; og anskaffelse-parametere, som kamera-merke eller eksponerings-innstillinger:

Bilde-behandling og anskaffelse-parametere analyser, med antall klasser for hver.

Tester

For å bestemme om informasjon om bilde-behandling og kamera-type er bevart i visuell koder-embedninger, trente forfatterne en klassifikator til å forutsi metadata-merker direkte fra disse embedningene. Hvis klassifikatoren fungerte ikke bedre enn tilfeldig gjettning, ville det antyde at detaljer om behandling eller enhet ikke er fanget av modellen.

Men noen ytelse over tilfeldighet ville indikere at disse tekniske sporene faktisk er kodet, og kunne påvirke nedstrøms-oppgaver.

For å teste for behandling-spor, tildelte forfatterne hver trening-bilde en tilfeldig behandling-innstilling, som en bestemt JPEG-komprimerings-nivå, mens alle test-bilder i en batch delte samme innstilling.

Gjennomsnittlig klassifikasjons-nøyaktighet over alle innstillinger ble kombinert med gjentatte forsøk under forskjellige tilfeldige frø, så det kunne bestemmes om tekniske detaljer om bilde-behandling konsekvent er fanget i modellens interne representasjon:

Klassifikasjons-nøyaktighet for å forutsi bilde-behandling-parametere fra koder-embedninger, ved hjelp av en lineær klassifikator anvendt på frosne modeller. Resultatene vises for JPEG-komprimering, skjerping, omstørrelse og interpolering, med tre modell-kategorier, kontrastive visuell-språk (oransje), overvåket (grønn) og selv-tilsyn (blå), evaluert på ImageNet (øverste rad) og iNaturalist 2018 (nederste rad). Tilfeldig-gjettning-baselinjer er merket med stiplede linjer.

Over alle fire behandling-parametere, viste kontrastive visuell-språk-modeller den høyeste evnen til å gjenkjenne skjulte bilde-manipulasjoner. Noen av modellene oppnådde mer enn 80% nøyaktighet når de forutså JPEG-komprimerings-, skjerping- og omstørrelse-innstillinger fra ImageNet-embedninger.

Overvåkede kodere, spesielt de basert på ConvNeXt, fungerte også sterkt, mens selv-tilsyn-modeller var konsekvent svakere.

Interpolering var den mest vanskelige parameteren å påvise, men de beste CVL- og overvåkede modellene oppnådde likevel resultater langt over den tilfeldige baselinjen på 25% på begge datasett.

Neste, for å teste om kamera-relatert informasjon er kodet i modell-representasjoner, skapte forfatterne separate trening- og test-sett for hver anskaffelse-parameter (som kamera-merke, kamera-modell, eksponering, blende, ISO og brennvidde).

For de fleste parametere, ble bare klasser med minst 5 000 eksempler brukt; 500 bilder ble tilfeldig satt til side for testing, og de gjenværende eksemplene ble nedsamplet så hver klasse hadde 200 trening-eksempler. For ‘modell (all)’ og ‘modell (smart)’-parametrene, som hadde mindre data per klasse, brukte forfatterne i stedet klasser med minst 500 bilder, og splittet hver klasse i trening og test-undersett i en fire-til-en forhold.

Fotografer ble holdt separate over trening-, validerings- og test-sett, og en enkel klassifikator ble trent til å forutsi kamera-informasjon basert på bilde-egenskapene.

For å sikre at klassifikatoren ikke ble påvirket av det semantiske innholdet i bildene, ble 90% av hver bilde sentralt maskert (se eksempler nedenfor). Forfatterne hevder at på dette nivået av maskering, fungerer alle visuelle kodere nær tilfeldig på ImageNet, og indikerer at det semantiske signalet har blitt effektivt undertrykt:

ImageNet-validerings-nøyaktighet som en funksjon av maskerings-forhold. Ved 90% maskering, faller alle modeller til nær-tilfeldig ytelse på semantisk-etikett-prediksjon, og indikerer at semantiske signaler har blitt effektivt fjernet. Eksempel-bildene nedenfor illustrerer maskerings-nivåene.

Selv med 90% av hver bilde maskert, fungerte de fleste kontrastive visuell-språk-modeller og overvåkede ConvNeXt-kodere likevel kamera-relatert merking på langt over tilfeldighet-nivå. Mange CVL-modeller overgikk 70% nøyaktighet i å skille mellom smarttelefon og ikke-smarttelefon-bilder.

Andre overvåkede kodere, SigLIP, og alle selv-tilsyn-modeller fungerte mye dårligere. Når ingen maskering ble anvendt, viste CVL-modeller igjen den sterkste klustering etter kamera-type, og bekreftet at disse modellene embedder anskaffelse-informasjon dypere enn de andre:

t-SNE-visualiseringer for to visuelle kodere, med farger som indikerer om hver bilde ble tatt med en smarttelefon eller en ikke-smarttelefon-kamera.

Nedstrøms-betydning

Etter å ha etablert at metadata påvirker modellene på denne måten, ble tendensen til at skjulte behandling-spor kan forstyrre bilde-tolkning, evaluert.

Når to versjoner av samme bilde ble behandlet forskjellig, ble embedninger ofte organisert etter behandling-stil i stedet for innhold. I flere tilfeller, ble et sterkt komprimert bilde av en hund behandlet som mer likt et ubeslektet bilde med samme komprimerings-innstilling enn til sin egen ukomprimerte versjon:

Påvirkning av behandling-parametere på semantisk prediksjon, med semantisk klassifikasjons-nøyaktighet for ImageNet (øverst) og iNaturalist (nederst) under fem behandling-oppssett. I baselinjen deler alle trening- og test-bilder samme behandling-merke; i alle-forskjellige innstillingen, bruker test-bildet en behandling-verdi som ikke er til stede i trening-settet; i pos-same og neg-same, er behandling-merket sammenfallende enten med semantisk likt eller ulikt innhold; i uniform-innstillingen, er behandling-merker tilfeldig tildelt over hele trening-settet. Resultatene rapporteres ved hjelp av k = 10 for ImageNet, og k = 1 for iNaturalist.

De sterkeste forvrengningene ble forårsaket av JPEG-komprimering, etterfulgt av skjerping og omstørrelse, mens interpolering produserte bare en liten effekt. Forfatterne hevder at disse resultatene demonstrerer at behandling-spor kan overstyre semantisk informasjon og diktere hvordan et bilde forstås.

I konklusjon, advarer de:

‘Selv om vi har identifisert at metadata-merker er kodet i grunnleggende visuelle kodere og gitt hint om potensielle årsaker, kan vi ikke definitivt peke på årsaken til problemet. Å undersøke dette videre er utfordrende på grunn av kostnadene ved å trene slike modeller og den hyppige bruken av private datasett og ukjente implementeringsdetaljer.

‘Selv om vi ikke foreslår spesifikke mitigasjonsteknikker, understreker vi problemet som et viktig område for fremtidig forskning.’

Konklusjon

I litteraturen er det en økende rettsmedisinsk interesse med hensyn til sporene og tegnene på ‘metode over innhold’; jo enklere det er å identifisere en ramme-domen eller en bestemt datasett, jo enklere er det å utnytte denne informasjonen i form av – for eksempel – deepfake-detektorer, eller systemer designet til å kategorisere proveniens eller alder av data og modeller.

Dette går mot den grunnleggende intensjonen med å trene AI-modeller, som er at sentrale destillerte konsepter skal kurateres uavhengig av produksjonsmidlene, og bør ikke bære noen spor av dem. I virkeligheten har datasett og innkapslingsenheter karakteristika og domene-egenskaper som er effektivt umulige å skille fra innhold, fordi de i seg selv også representerer en ‘historisk perspektiv’.

* Papiret er lagt ut uvanlig, og vi vil tilpasse så godt vi kan til dets uvanlige formatering og presentasjon. En stor del materiale som burde ha vært i en (ikke-eksisterende) ‘Metode’-seksjon, har blitt flyttet til diverse deler av appendikset, antagelig for å begrense hoved-papiret til åtte sider – selv om det går på bekostning av klarhet. Hvis vi har mistet noen mulighet til å forbedre dette, på grunn av manglende tid, unnskylder vi.

Først publisert onsdag, 20. august 2025