Connect with us

AI kan hemligt ranka bilder efter enhetsmÀrke, inte innehÄll

Andersons vinkel

AI kan hemligt ranka bilder efter enhetsmÀrke, inte innehÄll

mm
A robot preferring a Mac over other junked laptops in the blurred background. Flux 1D and Firefly, via Krita.

New forskning visar att populära bildcentrerade AI-system inte bara tittar på vad som finns i en bild, utan också upptäcker hur bilden togs. Dolda detaljer som kameratyp eller bildkvalitet kan tyst påverka vad AI:n tror att den ser, vilket leder till felaktiga resultat – bara för att bilden kom från en annan enhet.

 

2012 avslöjades det att en resewebbplats regelbundet visade högre priser för användare som de kunde dra slutsatsen var användare av Apple-enheter, och likställde Apple-märket med högre köpkraft. Senare utredning drog slutsatsen att denna enhetsfokuserade ‘plånbokskännedom’ hade blivit nästan rutin för e-handelswebbplatser.

På liknande sätt kan vilken smartphone eller kamera som tog en viss fotografi slutas med hjälp av forensiska metoder, baserat på kända egenskaper hos ett begränsat antal linser i modellerna. I sådana fall är kameramodellen vanligtvis uppskattad av visuella spår; och, liksom i 2012 års incident, är det att veta vilken kamera som tog en bild en potentiellt utnyttjbar egenskap

Även om kameror tenderar att infoga betydande metadata i en bild, kan denna funktion ofta stängas av av användare; även där den är påslagen, kan distributionsplattformar som sociala nätverk ta bort viss eller all metadata, antingen av logistiska eller sekretesskäl, eller båda.

Trots detta är metadata i användaruppladdade bilder ofta antingen om-skrivna/tolkade (i stället för att tas bort) eller kvarstående, som en sekundär informationskälla, inte om vad som finns i bilden, utan hur bilden togs. Som 2012 års fall avslöjade, kan information av detta slag vara värdefull – inte bara för kommersiella plattformar, utan också, potentiellt, för hackare och illvilliga aktörer.

Två perspektiv

Ett nytt forskningssamarbete mellan Japan och Tjeckien har funnit att spåren som lämnas av kamerahårdvara och bildbehandling (såsom JPEG-kvalitet eller lins-skärpning) inte bara kan upptäckas av forensiska verktyg, utan också tyst kodas i ‘global förståelse’ av ledande AI-vision-modeller.

Detta inkluderar CLIP och andra storskaliga visuella koderare, som används i allt från sökmotorer till innehållsmoderering. Den nya studien visar att dessa modeller inte bara tolkar vad som finns i en bild, utan också kan lära sig hur bilden togs; och denna dolda signal kan ibland överväldiga det synliga innehållet.

Exempel pÄ bildpar frÄn författarnas PairCams-dataset, skapat för att testa hur kameratyp pÄverkar AI-bildmodeller. Varje par visar samma objekt eller scen fotograferad vid samma tillfÀlle med en icke-smartphone (vÀnster) och en smartphone (höger). KÀlla: https://arxiv.org/pdf/2508.10637

Exempel på bildpar från författarnas PairCams-dataset, skapat för att testa hur kameratyp påverkar AI-bildmodeller. Varje par visar samma objekt eller scen fotograferad vid samma tillfälle med en icke-smartphone (vänster) och en smartphone (höger). Källa: https://arxiv.org/pdf/2508.10637

Studien hävdar att även när AI-modellerna får kraftigt maskerade eller beskurna versioner av bilden, kan de fortfarande gissa kameramärke och modell med förvånansvärd noggrannhet. Detta betyder att representationen som dessa system använder för att bedöma bildlikhet kan bli sammanflätad med irrelevanta faktorer, såsom användarens enhet, med oförutsägbara konsekvenser.

Till exempel kan denna oönskade ‘viktning’ i nedströmsuppgifter som klassificering eller bildsökning orsaka att systemet föredrar vissa kameratyper, oavsett vad bilden faktiskt visar.

Papperet säger:

‘Metadata-etiketter som lämnar spår i visuella koderare till den punkt där de överväldigar semantisk information kan leda till oförutsägbara resultat, som äventyrar allmängiltighet, robusthet och potentiellt undergräver modellernas tillförlitlighet.

‘Mer kritiskt, kan denna effekt utnyttjas illvilligt; till exempel, kan en motståndare attack manipulera metadata för att medvetet vilseleda eller bedra en modell, vilket utgör risker i känsliga områden som hälsovård, övervakning eller autonoma system.’

Papperet finner att Contrastive Visual-Language (CVL)-system som CLIP, nu en av de mest inflytelserika koderarna inom datorteknik, är särskilt benägna att erhålla sådana slutsatser från data:

Sökresultat för en frÄgebild, som visar hur grundmodeller rankar liknande bilder inte bara utifrÄn visuellt innehÄll utan ocksÄ utifrÄn dold metadata som JPEG-komprimering eller kameramodell. Figuren Äterspeglar författarnas pÄstÄende att bÄde semantiska och metadata-etiketter formar modellens representation, ibland Àndrar sökresultat.

Sökresultat för en frågebild, som visar hur grundmodeller rankar liknande bilder inte bara utifrån visuellt innehåll utan också utifrån dold metadata som JPEG-komprimering eller kameramodell.

Den nya artikeln heter Processing och förvärvsspor i visuella koderare: Vad vet CLIP om din kamera?, och kommer från sex forskare över The University of Osaka och Czech Technical University i Prag.

Metod och data*

För att testa inflytandet av dold metadata på visuella koderare som CLIP, arbetade författarna med två kategorier av metadata: bildbehandlingsparametrar (såsom JPEG-komprimering eller skärpning) och förvärvsparametrar (såsom kameramärke eller exponeringsinställningar).

I stället för att träna nya modeller, utvärderade forskarna 47 allmänt använda visuella koderare i deras frusna, förtränade tillstånd, inklusive kontrastiva vision-språkmodeller som CLIP, självständiga modeller som DINO, och konventionellt övervakade nätverk.

För behandlingsparametrar tillämpade forskarna kontrollerade transformationerImageNet och iNaturalist 2018 dataset, inklusive sex nivåer av JPEG-komprimering, tre skärpningsinställningar, tre storleksförändringsskalor och fyra interpoleringsmetoder.

Exempel pÄ bilder och associerade annoteringar frÄn iNaturalist-dataset. KÀlla: https://arxiv.org/pdf/1707.06642

Exempel på bilder och associerade annoteringar från iNaturalist-dataset. Källa: https://arxiv.org/pdf/1707.06642

Modellerna testades på deras förmåga att återställa varje transformationsinställning med hjälp av endast bildinnehållet, med framgångsrika förutsägelser som indikerade att koderaren behåller information om dessa behandlingsval i sin interna representation.

För att undersöka förvärvsparametrar sammanställde forskarna en 356 459-bild-dataset som kallades FlickrExif, som innehöll bevarad Exif-metadata, och konstruerade ett andra dataset som kallades PairCams, bestående av 730 bildpar som togs samtidigt med en smartphone och en icke-smartphonekamera.

FlickrExif-datasetet byggdes med hjälp av Flickr API för att ladda ner bilder med tillhörande Exif-metadata. Mellan 2 000 och 4 000 säkra bilder samlades in per månad, daterade från början av 2000 till mitten av 2024, och filtrerades för att endast inkludera de med tillåtna licenser. För att förhindra överrepresentation av flitiga användare, begränsades varje enskild bidragsgivare till tio bilder per månad för varje given år.

För PairCams-datasetet togs varje foto med automatiska inställningar och utan blixt, vilket möjliggjorde en jämförelse av hur visuella koderare svarar på skillnader i kamerahårdvara ensam, oavsett bildinnehållet:

Ytterligare exempel frÄn PairCams-datasetet som kuraterats av författarna.

Ytterligare exempel från PairCams-datasetet som kuraterats av författarna.

Författarna testade för två uppsättningar parametrar: bildbehandlingsparametrar, såsom komprimering och färgomvandling; och förvärvsparametrar, såsom kameramärke eller exponeringsinställningar:

Bildbehandlings- och förvÀrvsparametrar som analyserats, med antal klasser för varje.

Bildbehandlings- och förvärvsparametrar som analyserats, med antal klasser för varje.

Tester

För att bestämma om information om bildbehandling och kameratyp är inbäddad i visuell koderare-inkapsling, tränade författarna en klassificerare för att förutsäga metadata-etiketter direkt från dessa inkapslingar. Om klassificeraren presterade inte bättre än slumpmässigt gissande, skulle det tyda på att detaljer om behandling eller enhet inte fångas av modellen.

Men någon prestation över chans skulle indikera att dessa tekniska spår faktiskt kodas, och kunde påverka nedströmsuppgifter.

För att testa för behandlingsspår tilldelade författarna varje träningsbild en slumpmässig behandlingsinställning, såsom en viss JPEG-komprimeringsnivå, medan alla testbilder i en batch delade samma inställning.

Genomsnittlig klassificeringsnoggrannhet över alla inställningar kombinerades med upprepade försök under olika slumpmässiga frön, så att det kunde bestämmas om tekniska detaljer om bildbehandling konsekvent fångades i modellens interna representation:

Klassificeringsnoggrannhet för att förutsÀga bildbehandlingsparametrar frÄn koderare-inkapsling, med hjÀlp av en linjÀr klassificerare som applicerades pÄ frusna modeller. Resultat visas för JPEG-komprimering, skÀrpning, storleksförÀndring och interpolering, med tre modellkategorier, kontrastiv vision-sprÄk (orange), övervakad (grön) och sjÀlvstÀndig (blÄ), utvÀrderad pÄ ImageNet (översta raden) och iNaturalist 2018 (nedre raden). SlumpmÀssiga gissningsbaslinjer Àr markerade med streckade linjer.

Klassificeringsnoggrannhet för att förutsäga bildbehandlingsparametrar från koderare-inkapsling, med hjälp av en linjär klassificerare som applicerades på frusna modeller. Resultat visas för JPEG-komprimering, skärpning, storleksförändring och interpolering, med tre modellkategorier, kontrastiv vision-språk (orange), övervakad (grön) och självständig (blå), utvärderad på ImageNet (översta raden) och iNaturalist 2018 (nedre raden). Slumpmässiga gissningsbaslinjer är markerade med streckade linjer.

Över alla fyra behandlingsparametrar visade kontrastiva vision-språkmodeller den högsta förmågan att känna igen dolda bildmanipulationer. Vissa av modellerna uppnådde mer än 80% noggrannhet när de förutsåg JPEG-komprimerings-, skärpnings- och storleksförändringsinställningar från ImageNet-inkapslingar.

Övervakade koderare, särskilt de som baserades på ConvNeXt, presterade också starkt, medan självständiga modeller var konsekvent svagare.

Interpolering var den svåraste parametern att upptäcka, men de bästa CVL- och övervakade modellerna uppnådde fortfarande resultat som låg långt över den slumpmässiga baslinjen på 25% på båda dataseten.

Nästa steg var att testa om kamerarelaterad information är inbäddad i modellrepresentationer. Författarna skapade separata tränings- och testuppsättningar för varje förvärvsparameter (såsom kameramärke, kameramodell, exponering, bländare, ISO och brännvidd).

För de flesta parametrar användes endast klasser med minst 5 000 exempel; 500 bilder valdes slumpmässigt ut för testning, och de återstående exemplen nedsampades så att varje klass hade 200 träningsprover. För ‘modell (alla)’ och ‘modell (smart)’ parametrar, som hade mindre data per klass, använde författarna i stället klasser med minst 500 bilder, och delade varje klass i tränings- och test- delmängder i ett förhållande på fyra till ett.

Fotografer hölls separata över tränings-, validerings- och testuppsättningar, och en enkel klassificerare tränades för att förutsäga kamerainformation baserat på bildfunktioner.

För att säkerställa att klassificeraren inte påverkades av bildernas semantiska innehåll, maskerades 90% av varje bild (se exempel nedan). Författarna hävdar att på denna nivå av maskering presterar alla visuella koderare nära slumpmässigt på ImageNet, vilket indikerar att den semantiska signalen har effektivt undertryckts:

ImageNet-valideringsnoggrannhet som en funktion av maskeringsförhÄllande. Vid 90% maskering, sjunker alla modeller till nÀra-slumpmÀssig prestanda pÄ semantisk etikettförutsÀgelse, vilket indikerar att semantiska signaler har tagits bort. Exempelbilder lÀngst ner illustrerar maskeringsnivÄerna.

ImageNet-valideringsnoggrannhet som en funktion av maskeringsförhållande. Vid 90% maskering, sjunker alla modeller till nära-slumpmässig prestanda på semantisk etikettförutsägelse, vilket indikerar att semantiska signaler har tagits bort. Exempelbilder längst ner illustrerar maskeringsnivåerna.

Även med 90% av varje bild maskerad, presterade de flesta kontrastiva vision-språkmodeller och de övervakade ConvNeXt-koderarna fortfarande kamerarelaterade etiketter på långt över chansnivå. Många CVL-modeller översteg 70% noggrannhet i att skilja på smartphone och icke-smartphone-bilder.

Andra övervakade koderare, SigLIP, och alla självständiga modeller presterade betydligt sämre. När ingen maskering tillämpades, visade CVL-modellerna återigen den starkaste klusteringsförmågan efter kameratyp, vilket bekräftar att dessa modeller inbäddar förvärvsinformation mer djupt än de andra:

t-SNE-visualiseringar för tvÄ visuella koderare, med fÀrger som indikerar om varje bild togs med en smartphone eller en icke-smartphonekamera.

t-SNE-visualiseringar för två visuella koderare, med färger som indikerar om varje bild togs med en smartphone eller en icke-smartphonekamera.

Nedströmsbetydelse

Efter att ha etablerat att metadata påverkar modellerna på detta sätt, utvärderades benägenheten för dolda behandlingsspår att störa bildtolkning.

När två versioner av samma bild behandlades olika, ordnades inkapslingarna ofta enligt behandlingsstil snarare än innehåll. I flera fall behandlades en kraftigt komprimerad bild av en hund som mer lik en orelaterad bild med samma komprimeringsinställning än sin egen okomprimerade version:

PÄverkan av behandlingsparametrar pÄ semantisk förutsÀgelse, med semantisk klassificeringsnoggrannhet för ImageNet (överst) och iNaturalist (nederst) under fem behandlingsuppstÀllningar. I baslinjen delar alla trÀnings- och testbilder samma behandlingsetikett; i all-diff-instÀllningen anvÀnder testbilden en behandlingsvÀrde som inte finns i trÀningsuppsÀttningen; i pos-same och neg-same Àr behandlingsetiketten i linje antingen med semantiskt liknande eller olika bilder; i uniform-instÀllningen tilldelas behandlingsetiketter slumpmÀssigt över trÀningsuppsÀttningen. Resultat rapporteras med k = 10 för ImageNet, och k = 1 för iNaturalist.

Påverkan av behandlingsparametrar på semantisk förutsägelse, med semantisk klassificeringsnoggrannhet för ImageNet (överst) och iNaturalist (nederst) under fem behandlingsuppställningar. I baslinjen delar alla tränings- och testbilder samma behandlingsetikett; i all-diff-inställningen använder testbilden en behandlingsvärde som inte finns i träningsuppsättningen; i pos-same och neg-same är behandlingsetiketten i linje antingen med semantiskt liknande eller olika bilder; i uniform-inställningen tilldelas behandlingsetiketter slumpmässigt över träningsuppsättningen. Resultat rapporteras med k = 10 för ImageNet, och k = 1 för iNaturalist.

De starkaste förvrängningarna orsakades av JPEG-komprimering, följt av skärpning och storleksförändring, medan interpolering producerade endast en liten effekt. Författarna hävdar att dessa resultat visar att behandlingsspår kan åsidosätta semantisk information och diktera hur en bild förstås.

I slutsatsen varnar de:

‘Medan vi har identifierat att metadata-etiketter är inkodade i grundläggande visuella koderare och gett ledtrådar om potentiella orsaker, kan vi inte definitivt peka ut källan till problemet. Att undersöka detta vidare är utmanande på grund av kostnaden för att träna om sådana modeller och den frekventa användningen av privata dataset och opublicerade implementationsdetaljer.

‘Även om vi inte föreslår specifika mitigationsstrategier, belyser vi frågan som ett viktigt område för framtida forskning.’

Slutsats

I litteraturen finns ett växande forensiskt intresse för spår och tecken på ‘metod över innehåll’; ju lättare det är att identifiera en ramdomän eller ett specifikt dataset, desto lättare är det att utnyttja denna information i form av till exempel deepfake-detektorer eller system som är utformade för att kategorisera proveniens eller ålder av data och modeller.

Allt detta går emot den grundläggande avsikten med att träna AI-modeller, som är att centrala destillerade begrepp ska kurateras oberoende av produktionssättet och inte ska bära något spår av dem. I själva verket har dataset och kameror egenskaper och domänegenskaper som är effektivt omöjliga att separera från innehåll, eftersom de i sig själva också representerar en ‘historisk perspektiv’.

 

* Artikeln är utformad ovanligt, och vi kommer att anpassa oss så bra som möjligt till dess ovanliga formatering och presentation. En stor mängd material som borde ha varit i en (icke-existerande) ‘Metod’-sektion har flyttats till olika delar av appendix, antagligen för att begränsa huvudartikeln till åtta sidor – även om det sker på bekostnad av tydlighet. Om vi har missat någon möjlighet att förbättra detta, på grund av brist på tid, ber vi om ursäkt.

Publicerad första gången onsdag, 20 augusti 2025

Författare pÄ maskinlÀrande, domÀnspecialist inom mÀnsklig bildsyntes. Före detta chef för forskningsinnehÄll pÄ Metaphysic.ai.