Andersonův úhel

AI může tajně řadit obrázky podle značky zařízení, ne podle obsahu

Published August 20, 2025

Updated April 26, 2026

Martin Anderson

A robot preferring a Mac over other junked laptops in the blurred background. Flux 1D and Firefly, via Krita.

Nový výzkum zjistil, že populární obrazově zaměřené systémy AI nedívají se pouze na to, co je na fotografii, ale také na to, jak byla pořízena. Skryté detaily, jako je typ kamery nebo kvalita obrazu, mohou tiše ovlivňovat to, co si AI myslí, že vidí, což vede k chybným výsledkům – pouze proto, že fotografie pocházela z jiného zařízení.

V roce 2012 bylo odhaleno, že webová stránka pro cestování systematicky ukazovala vyšší ceny uživatelům, které mohla určit jako ty, kteří procházejí web na zařízeních Apple, a spojila tak značku Apple s vyšší kupní sílou. Pozdější vyšetřování dospělo k závěru, že tato zařízení zaměřená na “čichání peněženek” se stala téměř rutinou pro e-commerce stránky.

Podobně lze určit, které smartphone nebo zařízení pořídilo určitou fotografii, a to forenzními prostředky, na základě známých charakteristik omezeného počtu objektivů v modelech. V takových případech je model zařízení obvykle odhadnut vizuálně stopami; a stejně jako v případě z roku 2012, znalost toho, jaký typ kamery pořídila obraz, je potenciálně využitelnou charakteristikou.

Ačkoli zařízení pro pořizování snímků obvykle vkládají do obrazu významné metadata, tuto funkci lze často vypnout uživateli; dokonce i když je zapnuta, distribuční platformy, jako jsou sociální sítě, mohou odstranit některé nebo všechna metadata, buď z důvodů logistiky nebo ochrany soukromí, nebo obou.

Přesto je metadata v uživatelsky nahrávaných obrazech často buď přepisováno / interpretováno (místo odstranění) nebo ponecháno nedotčené, jako sekundární zdroj informací, který se netýká toho, co je na obrázku, ale toho, jak byl pořízen. Stejně jako případ z roku 2012 odhalil, že informace tohoto druhu mohou být cenné – nejen pro komerční platformy, ale také potenciálně pro hackery a špatné aktéry.

Dvě perspektivy

Nová výzkumná spolupráce mezi Japonskem a Českou republikou zjistila, že stopy zanechané kamerovým hardwarem a zpracování obrazu (jako kvalita JPEG nebo ostření objektivu) nejsou detekovatelné pouze forenzními nástroji, ale jsou také tiše zakódovány v ‘globálním pochopení’ předních modelů počítačového vidění.

To zahrnuje CLIP a další velké vizuální kódéry, které se široce používají ve všem od vyhledávačů po moderaci obsahu. Nová práce prokázala, že tyto modely nedívají se pouze na to, co je na fotografii, ale mohou se také naučit, jak byla pořízena; a tento skrytý signál může někdy převažovat nad viditelným obsahem.

Příklad párů obrázků z datové sady PairCams autorů, vytvořené pro testování vlivu typu kamery na modely AI obrazů. Každý pár ukazuje stejný objekt nebo scénu vyfocenou ve stejném okamžiku pomocí ne-smartphone (vlevo) a smartphone (vpravo). Zdroj: https://arxiv.org/pdf/2508.10637

Studie tvrdí, že i když jsou modelům AI dány silně maskované nebo ořezané verze obrazu, mohou stále odhadnout značku a model kamery s překvapivou přesností. To znamená, že reprezentační prostor, který tyto systémy používají k posuzování podobnosti obrazů, se může stát zapleteným s irelevantními faktory, jako je zařízení uživatele, s nepředvídatelnými důsledky.

Například u downstream úkolů, jako je klasifikace nebo vyhledávání obrázků, může tento nežádoucí “vážení” způsobit, že systém bude upřednostňovat určitý typ kamery, bez ohledu na to, co obraz skutečně ukazuje.

Článek uvádí:

‘Metadata štítky zanechávající stopy ve vizuálních kódérech do té míry, že přehlušují sémantické informace, mohou vést k nepředvídatelným výsledkům, ohrožujícím obecnou platnost, odolnost a potenciálně podkopávajícím důvěryhodnost modelů.

‘Ještě kritičtěji, tento efekt by mohl být zneužit pro zlé úmysly; například útočná akce by mohla manipulovat metadata, aby úmyslně zmátla nebo oklamala model, představující rizika v citlivých oblastech, jako je zdravotnictví, dohled nebo autonomní systémy.’

Článek zjistil, že systémy Kontrastního vizuálního jazyka (CVL), jako je CLIP, nyní jeden z nejvlivnějších kódérů v počítačovém vidění, jsou zvláště náchylné k získání takových odvození z dat:

Výsledky vyhledávání pro dotazový obrázek, ukazující, jak základní modely řadí podobné obrázky nejen podle vizuálního obsahu, ale také podle skrytých metadata, jako je komprese JPEG nebo model kamery.

Nová práce se jmenuje Zpracování a akviziční stopy ve vizuálních kódérech: Co ví CLIP o vaší kameře? a pochází od šesti výzkumníků z Univerzity v Osače a Českého technického ústavu v Praze.

Metoda a data*

Aby otestovali vliv skrytých metadata na vizuální kódéry, jako je CLIP, autoři pracovali se dvěma kategoriemi metadata: parametry zpracování obrazu (jako komprese JPEG nebo barevné transformace) a akviziční parametry (jako model kamery nebo expoziční nastavení).

Místo toho, aby trénovali nové modely, výzkumníci vyhodnotili 47 široce používaných vizuálních kódérů ve svém zmrazeném, předtrénovaném stavu, včetně kontrastních vizuálních jazykových modelů, jako je CLIP, samoseznamových modelů, jako je DINO, a konvenčně dohlížených sítí.

Pro parametry zpracování se výzkumníci aplikovali kontrolované transformace na ImageNet a iNaturalist 2018 datové sady, včetně šesti úrovní komprese JPEG, tří nastavení ostření, tří měřítek změny velikosti a čtyř interpolací.

Příklady obrázků a přidružených anotací z datové sady iNaturalist. Zdroj: https://arxiv.org/pdf/1707.06642

Modely byly testovány na jejich schopnost obnovit každé transformační nastavení pomocí pouze obsahu obrazu, s úspěšnými předpověďmi, které indikují, že kódér uchovává informace o těchto zpracování volbách ve své vnitřní reprezentaci.

Aby prozkoumali akviziční parametry, výzkumníci sestavili 356 459-obrázkovou datovou sadu nazvanou FlickrExif, obsahující zachované Exif metadata, a vytvořili druhou datovou sadu nazvanou PairCams, složenou z 730 párů obrázků pořízených současně se smartphone a ne-smartphone kamerou.

Datová sada FlickrExif byla vytvořena pomocí Flickr API ke stažení obrázků s doprovodnými Exif metadata. Mezi 2 000 a 4 000 bezpečnými obrázky pro práci bylo shromážděno každý měsíc, datováno od počátku roku 2000 do poloviny roku 2024, a filtrováno tak, aby zahrnovalo pouze ty s permisivními licencemi. Aby se zabránilo nadměrnému zastoupení od prolifických uživatelů, každý jednotlivý přispěvatel byl omezen na deset obrázků za měsíc pro každý rok.

Pro datovou sadu PairCams byl každý snímek pořízen pomocí automatických nastavení a bez blesku, což umožnilo srovnání toho, jak vizuální kódéry reagují na rozdíly v kamerovém hardwaru, bez ohledu na obsah obrazu:

Další příklady z datové sady PairCams vytvořené autory.

Autoři otestovali dva sady parametrů: parametry zpracování obrazu, jako je komprese a barevné transformace; a akviziční parametry, jako je model kamery nebo expoziční nastavení:

Parametry zpracování a akvizičních parametrů analyzovaných, s počtem tříd pro každý.

Testy

Aby určili, zda informace o zpracování a typu kamery jsou zakódovány uvnitř vizuálních kódérů, autoři trénovali klasifikátor, aby předpověděl metadata štítky přímo z těchto kódérů. Pokud by klasifikátor pracoval stejně dobře jako náhodné hádání, naznačovalo by to, že detaily o zpracování nebo zařízení nejsou zachyceny modelem.

Nicméně, jakékoli výkon nad náhodou by indikovalo, že tyto technické stopy jsou skutečně zakódovány a mohly by ovlivnit downstream úkoly.

Aby otestovali zpracování stop, autoři přiřadili každé trénovacímu obrázku náhodné zpracování nastavení, jako je konkrétní úroveň komprese JPEG, zatímco všechny testovací obrázky v dávce sdílely stejné nastavení.

Průměrná klasifikační přesnost napříč všemi nastaveními byla poté kombinována s opakovanými pokusy pod různými náhodnými semeny, aby se určilo, zda technické detaily zpracování obrazu jsou konzistentně zachyceny v interní reprezentaci modelu:

Klasifikační přesnost pro předpověď parametrů zpracování z kódérů, pomocí lineárního klasifikátoru aplikovaného na zmrazené modely. Výsledky jsou uvedeny pro kompresi JPEG, ostření, změnu velikosti a interpolaci, se třemi kategoriemi modelů, kontrastními vizuálními jazykovými (oranžová), dohlíženou (zelená) a samoseznamovou (modrá), vyhodnocenou na ImageNet (horní řádek) a iNaturalist 2018 (spodní řádek). Náhodné hádání je označeno čárkami.

Na všech čtyřech parametrech zpracování ukázaly kontrastní vizuální jazykové modely nejvyšší schopnost rozpoznat skryté manipulace s obrazem. Některé modely dosáhly přes 80% přesnosti při předpovědi nastavení komprese JPEG, ostření a změny velikosti z ImageNetu.

Dohlížené kódéry, zejména ty založené na ConvNeXt, také pracovaly silně, zatímco samoseznamové modely byly konzistentně slabší.

Interpolace byla nejobtížnějším parametrem k detekci, ale i tak dosáhly nejlepší CVL a dohlížené modely výsledků výrazně nad náhodným baseline 25% na obou datech.

Dále, aby otestovali, zda je kamerová informace zakódována v modelových reprezentacích, autoři vytvořili samostatné trénovací a testovací sady pro každý akviziční parametr (jako model kamery nebo expoziční nastavení).

Pro většinu parametrů byly použity pouze třídy s alespoň 5 000 příklady; 500 obrázků bylo náhodně vyčleněno pro testování, a zbývající příklady byly downsamplovány tak, aby každá třída měla 200 trénovacích vzorků. Pro parametry “model (vše)” a “model (smart)”, které měly méně dat na třídu, autoři místo toho použili třídy s alespoň 500 obrázky, a rozdělili každou třídu na trénovací a testovací podsady v poměru čtyři ku jedné.

Fotografové byli drženi samostatně napříč trénovacími, validačními a testovacími sadami, a byl trénován jednoduchý klasifikátor, aby předpověděl kamerové informace na základě obrazových rysů.

Aby se zajistilo, že klasifikátor nebyl ovlivněn sémantickým obsahem obrázků, byla 90% každého obrázku maskováno (viz níže uvedené příklady). Autoři tvrdí, že na této úrovni maskování pracují všechny vizuální kódéry blízko náhodě na ImageNet, indikující, že sémantický signál byl účinně potlačen:

ImageNet validační přesnost jako funkce maskovacího poměru. Při 90% maskování klesají všechny modely na téměř náhodný výkon na sémantické předpovědi, indikující, že sémantické signály byly účinně odstraněny. Příklad obrázků níže ilustruje úrovně maskování.

I při 90% maskování většiny obrázků předpověděly kontrastní vizuální jazykové modely a dohlížené kódéry ConvNeXt kamerové štítky na úrovni výrazně nad náhodou. Mnoho CVL modelů přesáhlo 70% přesnosti při rozlišování smartphone a ne-smartphone obrázků.

Jiné dohlížené kódéry, SigLIP, a všechny samoseznamové modely pracovaly mnohem hůře. Když nebyla aplikována žádná maska, CVL modely opět ukázaly nejsilnější shlukování podle typu kamery, potvrzující, že tyto modely zakódovávají akviziční informace hlubší než ostatní:

t-SNE vizualizace pro dva vizuální kódéry, s barvami indikujícími, zda byl každý obrázek pořízen smartphone nebo ne-smartphone kamerou.

Dolní význam

Poté, co bylo zjištěno, že metadata ovlivňují modely tímto způsobem, byla vyhodnocena tendence skrytých zpracování stop interferovat s interpretací obrázků.

Když byly dvě verze stejného obrázku zpracovány odlišně, byly embeddingy často organizovány podle zpracování stylu spíše než obsahu. V několika případech byl silně komprimovaný obrázek psa považován za podobnější ne souvisejícímu obrázku se stejným kompresním nastavením než za svou vlastní nekomprimovanou verzi:

Dopad parametrů zpracování na sémantickou předpověď, zobrazující sémantickou klasifikační přesnost pro ImageNet (nahoře) a iNaturalist (dole) pod pěti zpracování nastaveními. V základním, všechny trénovací a testovací obrázky sdílejí stejné zpracování štítku; v all-diff nastavení, testovací obrázek používá zpracování hodnotu, která není přítomna v trénovacích datech; v pos-same a neg-same, zpracování štítek je zarovnán buď se sémanticky podobnými nebo nesouvisejícími obrázky; v uniform nastavení, zpracování štítky jsou náhodně přiřazeny napříč trénovací sadou. Výsledky jsou hlášeny pomocí k = 10 pro ImageNet, a k = 1 pro iNaturalist.

Nejsilnější zkreslení byla způsobena kompresí JPEG, následovaná ostřením a změnou velikosti, zatímco interpolace produkovala pouze malý efekt. Autoři tvrdí, že tyto výsledky demonstrují, že zpracování stopy mohou převažovat nad sémantickými informacemi a diktovat, jak je obrázek pochopen.

V závěru varují:

‘Ačkoli jsme identifikovali, že metadata štítky jsou zakódovány v základních vizuálních kódérech a poskytli náznaky o potenciálních příčinách, nemůžeme definitivně určit zdroj problému. Další vyšetřování je obtížné kvůli nákladům na opětovné trénování takových modelů a častému použití privátních dat a nezveřejněných implementačních detailů.

‘Ačkoli jsme nevytvořili konkrétní zmírnění technik, zdůrazňujeme problém jako důležité oblasti pro budoucí výzkum.’

Závěr

Ve výzkumu je rostoucí forenzní zájem o stopy a znaky “metody nad obsahem”; čím snazší je identifikovat rámcový domén nebo konkrétní datovou sadu, tím snazší je využít tuto informaci ve formě – například deepfake detektorů, nebo systémů navržených pro kategorizaci původu nebo stáří dat a modelů.

To vše jde proti základnímu úmyslu školení modelů AI, který spočívá v tom, že centrální destilované koncepty by měly být kurátorovány nezávisle na prostředcích výroby a by neměly nést žádnou stopu z nich. Ve skutečnosti mají datové sady a zařízení pro pořizování snímků charakteristiky a doménové rysy, které jsou prakticky nemožné oddělit od obsahu, protože samy o sobě také reprezentují “historický pohled”.

* Článek je uspořádán netradičně, a budeme se snažit přizpůsobit jeho neobvyklému formátu a prezentaci. Velké množství materiálu, které by mělo být v (neexistujícím) ‘Metoda’ sekci, bylo přesunuto do různých částí přílohy, zřejmě aby se omezil hlavní článek na osm stránek – i když za značné náklady na jasnost. Pokud jsme zmeškali jakoukoli příležitost ke zlepšení, kvůli nedostatku času, omlouváme se.

Poprvé zveřejněno ve středu, 20. srpna 2025