Kąt Andersona
AI może tajnie klasyfikować obrazy według marki urządzenia, a nie zawartości

Nowe badania wykazały, że popularne systemy AI oparte na obrazach nie tylko patrzą na to, co jest na zdjęciu, ale także zwracają uwagę na to, jak zdjęcie zostało wykonane. Ukryte szczegóły, takie jak typ aparatu lub jakość obrazu, mogą cicho wpływać na to, co AI uważa, że widzi, prowadząc do błędnych wyników – po prostu dlatego, że zdjęcie pochodzi z innego urządzenia.
W 2012 roku ujawniono, że strona internetowa z podróżami routynowo wyświetlała wyższe ceny użytkownikom, których można było zidentyfikować jako korzystających z urządzeń Apple, łącząc markę Apple z wyższą siłą nabywczą. Późniejsze dochodzenie wykazało, że ten rodzaj “wąchania portfela” opartego na urządzeniu stał się prawie rutyną dla stron e-commerce.
Podobnie, smartfon lub urządzenie, które wykonało dane zdjęcie, można wywnioskować za pomocą środków kryminalistycznych, na podstawie znanych cech ograniczonej liczby obiektywów w modelach. W takich przypadkach model urządzenia jest zwykle szacowany przez ślady wizualne; i, podobnie jak w incydencie z 2012 roku, wiedza o tym, jaki aparat wykonał zdjęcie, jest potencjalnie wykorzystywalną cechą
Chociaż urządzenia do przechwytywania tendencję do osadzania znaczących metadanych w obrazie, funkcja ta może być często wyłączona przez użytkowników; nawet w przypadku, gdy jest włączona, platformy dystrybucyjne, takie jak sieci społecznościowe, mogą usunąć niektóre lub wszystkie metadane, ze względów logistycznych, prywatności lub obu.
Niemniej jednak, metadane w obrazach przesyłanych przez użytkowników są często albo przepisywane / interpretowane (zamiast usunięte), albo pozostawione nienaruszone, jako źródło wtórne informacji nie o tym, co jest na zdjęciu, ale jak zdjęcie zostało wykonane. Jak ujawnił przypadek z 2012 roku, informacje tego rodzaju mogą być cenne – nie tylko dla platform komercyjnych, ale także potencjalnie dla hakerów i złych aktorów.
Dwa punkty widzenia
Nowe badanie współpracy między Japonią a Czechami wykazało, że ślady pozostawione przez sprzęt aparatu i przetwarzanie obrazu (takie jak jakość JPEG lub nasycenie obiektywu) nie tylko są wykrywalne przez narzędzia kryminalistyczne, ale także są cicho zakodowane w “globalnym zrozumieniu” wiodących modeli AI.
Obejmuje to CLIP i inne duże kodery wizualne, które są powszechnie stosowane we wszystkim, od wyszukiwarek po moderowanie treści. Nowa praca dowodzi, że te modele nie tylko interpretują to, co jest na zdjęciu, ale także mogą nauczyć się, jak zdjęcie zostało wykonane; i ten ukryty sygnał może czasami przeważyć widoczną zawartość.

Przykładowe pary zdjęć z zestawu danych PairCams autorów, stworzonego w celu przetestowania, jak typ aparatu wpływa na modele AI obrazu. Każda para przedstawia ten sam obiekt lub scenę sfotografowaną w tym samym momencie przy użyciu nie-smartfona (po lewej) i smartfona (po prawej). Źródło: https://arxiv.org/pdf/2508.10637
Badanie twierdzi, że nawet gdy modele AI są podawane silnie zamaskowane lub obcięte wersje obrazu, mogą nadal zgadnąć markę i model aparatu z zaskakującą dokładnością. Oznacza to, że przestrzeń reprezentacji, którą te systemy używają do oceny podobieństwa obrazu, może stać się splątana z nieistotnymi czynnikami, takimi jak urządzenie użytkownika, z nieprzewidywalnymi konsekwencjami.
Na przykład, w dalszych zadaniach, takich jak klasyfikacja lub pobieranie obrazu, ten niepożądany “wagowy” może spowodować, że system faworyzuje pewne typy aparatów, niezależnie od tego, co obraz faktycznie pokazuje.
W artykule napisano:
‘Etykiety metadanych pozostawiające ślady w kodowaniach wizualnych do punktu przewyższania informacji semantycznych mogą prowadzić do nieprzewidywalnych wyników, kompromitując ogólność, wytrzymałość i potencjalnie podważając wiarygodność modeli.
‘Co więcej, ten efekt może być wykorzystany w złych celach; na przykład, atak przeciwnika może manipulować metadanymi, aby celowo wprowadzić w błąd lub oszukać model, narażając na ryzyko wrażliwe dziedziny, takie jak opieka zdrowotna, nadzór lub systemy autonomiczne.’
Badanie wykazuje, że systemy CVL, takie jak CLIP, są szczególnie skłonne do uzyskania takich inferencji z danych:

Wyniki wyszukiwania dla obrazu zapytania, pokazujące, jak modele podstawowe klasyfikują podobne obrazy nie tylko na podstawie zawartości wizualnej, ale także na podstawie ukrytych metadanych, takich jak kompresja JPEG lub model aparatu.
Nowy artykuł jest zatytułowany Ślady przetwarzania i pozyskiwania w kodowaniach wizualnych: Co CLIP wie o Twoim aparacie?, i pochodzi od sześciu badaczy z Uniwersytetu Osaka i Czechosłowackiego Uniwersytetu Technicznego w Pradze.
Metoda i dane
Aby przetestować wpływ ukrytych metadanych na kodery wizualne, takie jak CLIP, autorzy pracowali z dwiema kategoriami metadanych: parametry przetwarzania obrazu (takie jak kompresja JPEG lub przekształcenia koloru) i parametry pozyskiwania (takie jak model aparatu lub ustawienia ekspozycji).
Zamiast trenować nowe modele, badacze ocenili 47 powszechnie stosowanych kodowaniach wizualnych w ich zamrożonym, wstępnie wytrenowanym stanie, w tym kontrastowe modele języka i wizji, takie jak CLIP, samouczące się modele, takie jak DINO, i konwencjonalnie nadzorowane sieci.
Dla parametrów przetwarzania badacze zastosowali kontrolowane transformacje do ImageNet i iNaturalist 2018 zestawów danych, w tym sześć poziomów kompresji JPEG, trzy ustawienia nasycenia, trzy skale przeskalowania i cztery metody interpolacji.

Przykłady obrazów i powiązanych adnotacji z zestawu danych iNaturalist. Źródło: https://arxiv.org/pdf/1707.06642
Modele zostały przetestowane na ich zdolność do odzyskania każdej ustawienia transformacji przy użyciu tylko zawartości obrazu, z pomyślnymi predykcjami wskazującymi, że kodery wewnętrznie przechowują informacje o tych wyborach przetwarzania w swojej wewnętrznej reprezentacji.
Aby zbadać parametry pozyskiwania, badacze skompilowali zestaw danych o nazwie FlickrExif, zawierający zachowane metadane Exif, i zbudowali drugi zestaw danych o nazwie PairCams, składający się z 730 par obrazów sfotografowanych jednocześnie z smartfonem i aparatem nie-smartfonowym.
Zestaw danych FlickrExif został zbudowany przy użyciu interfejsu API Flickr do pobierania obrazów z towarzyszącymi metadanymi Exif. Między 2 000 a 4 000 bezpiecznych dla pracy obrazów zostało zebranych co miesiąc, datowanych od wczesnego 2000 roku do połowy 2024 roku, i przefiltrowanych w celu uwzględnienia tylko tych z licencjami dozwolonymi. Aby zapobiec nadreprezentacji przez płodnych użytkowników, każdy indywidualny współpracownik został ograniczony do dziesięciu obrazów co miesiąc w każdym roku.
Dla zestawu danych PairCams każde zdjęcie zostało wykonane przy użyciu ustawień automatycznych i bez lampy błyskowej, umożliwiając porównanie sposobu, w jaki kodery wizualne reagują na różnice w sprzęcie aparatu, niezależnie od zawartości obrazu:

Kolejne przykłady z zestawu danych PairCams opracowanego przez autorów.
Autorzy przetestowali dwa zestawy parametrów: parametry przetwarzania obrazu, takie jak kompresja i transformacje koloru; i parametry pozyskiwania, takie jak marka aparatu lub ustawienia ekspozycji:

Parametry przetwarzania i pozyskiwania obrazu analizowane, z liczbą klas dla każdego.
Testy
Aby określić, czy informacje o przetwarzaniu i typie aparatu są zakodowane w kodowaniach wizualnych, autorzy trenowali klasyfikator do predykowania etykiet metadanych bezpośrednio z tych kodowań. Jeśli klasyfikator nie radził sobie lepiej niż losowe zgadywanie, sugerowałoby to, że szczegóły dotyczące przetwarzania lub urządzenia nie są przechwytywane przez model.
Jednak każdy wynik powyżej przypadku wskazywałby, że te ślady techniczne są rzeczywiście zakodowane i mogą wpływać na dalsze zadania.
Aby przetestować ślady przetwarzania, autorzy przypisali każdemu obrazowi szkoleniowemu losową ustawienie przetwarzania, takie jak konkretny poziom kompresji JPEG, podczas gdy wszystkie obrazy testowe w partii dzieliły się tym samym ustawieniem.
Średnia dokładność klasyfikacji po wszystkich ustawieniach została połączona z powtarzanymi próbami pod różnymi nasionami losowymi, aby można było określić, czy techniczne szczegóły przetwarzania obrazu są konsekwentnie przechwytywane w wewnętrznej reprezentacji modelu:

Dokładność klasyfikacji dla predykowania parametrów przetwarzania obrazu z kodowań, przy użyciu liniowego klasyfikatora zastosowanego do zamrożonych modeli. Wyniki są przedstawione dla kompresji JPEG, nasycenia, przeskalowania i interpolacji, z trzema kategorią modeli, kontrastowymi wizją i językiem (pomarańczowy), nadzorowanymi (zielony) i samouczącymi się (niebieski), ocenianymi na ImageNet (górny rząd) i iNaturalist 2018 (dolny rząd). Podkreslone są linie odniesienia losowego zgadywania.
Przez wszystkie cztery parametry przetwarzania modele kontrastowe wizji i języka wykazały największą zdolność do rozpoznawania ukrytych manipulacji obrazu. Niektóre z tych modeli osiągnęły ponad 80% dokładności przy predykowaniu ustawień kompresji JPEG, nasycenia i przeskalowania z kodowań ImageNet.
Nadzorowane kodery, szczególnie te oparte na ConvNeXt, również radziły sobie dobrze, podczas gdy samouczące się modele były słabsze.
Interpolacja była najtrudniejszym parametrem do wykrycia, ale najlepsze modele CVL i nadzorowane nadal osiągnęły wyniki znacznie lepsze niż losowe odniesienie 25% w obu zestawach danych.
Następnie, aby przetestować, czy informacje o aparacie są zakodowane w reprezentacjach modelu, autorzy utworzyli oddzielne zestawy szkoleniowe i testowe dla każdego parametru pozyskiwania (takiego jak marka aparatu, model aparatu, ekspozycja, przysłona, ISO i ogniskowa).
Dla większości parametrów użyto tylko klasy z co najmniej 5 000 przykładami; 500 obrazów zostało losowo odłączonych do testowania, a pozostałe przykłady zostały zredukowane tak, aby każda klasa miała 200 przykładów szkoleniowych. Dla parametrów “model (wszystkie)” i “model (smart)”, które miały mniej danych na klasę, autorzy zamiast tego użyli klas z co najmniej 500 obrazami i podzielili każdą klasę na szkolenie i test podzbiory w stosunku czterech do jednego.
Fotografowie byli trzymani oddzielnie w zestawach szkoleniowych, walidacyjnych i testowych, a prosty klasyfikator został wytrenowany do predykowania informacji o aparacie na podstawie cech obrazu.
Aby upewnić się, że klasyfikator nie był wpływany przez zawartość semantyczną obrazów, 90% każdego obrazu zostało zamaskowane (zobacz poniższe przykłady). Autorzy twierdzą, że na tym poziomie maskowania wszystkie kodery wizualne wykonują blisko losowo na ImageNet, wskazując, że sygnał semantyczny został skutecznie stłumiony:

Dokładność walidacji ImageNet jako funkcja współczynnika maskowania. Przy 90% maskowania wszystkie modele spadają do poziomu losowego wykonania predykacji etykiet semantycznych, wskazując, że sygnały semantyczne zostały skutecznie usunięte. Przykładowe obrazy na dole ilustrują poziomy maskowania.
Nawet z 90% każdego obrazu zamaskowanego, większość modeli kontrastowych wizji i języka oraz nadzorowanych kodowanych ConvNeXt nadal przewidywały etykiety związane z aparatem na poziomie znacznie wyższym niż przypadkowy.
Inne nadzorowane kodery, SigLIP, i wszystkie samouczące się modele radziły sobie znacznie gorzej. Gdy nie zastosowano maskowania, modele CVL ponownie wykazały najmocniejsze grupowanie według typu aparatu, potwierdzając, że te modele zakodowują informacje o pozyskiwaniu głębiej niż inne:

Wizualizacje t-SNE dla dwóch kodowaniach wizualnych, z kolorami wskazującymi, czy każdy obraz został wykonany aparatem smartfonowym czy nie-smartfonowym.
Znaczenie dalsze
Ustalenie, że metadane wpływają na modele w ten sposób, skłonność do ukrytych śladów przetwarzania do zakłócania interpretacji obrazu została następnie oceniona.
Gdy dwie wersje tego samego obrazu zostały przetworzone inaczej, kodowania były często organizowane według stylu przetwarzania zamiast zawartości. W kilku przypadkach, silnie skompresowane zdjęcie psa było traktowane jako bardziej podobne do niezwiązanego obrazu z tym samym ustawieniem kompresji niż do swojej własnej wersji bez kompresji:

Wpływ parametrów przetwarzania na predykowanie semantyczne, przedstawiający dokładność klasyfikacji semantycznej dla ImageNet (góra) i iNaturalist (dół) pod pięcioma ustawieniami przetwarzania. W ustawieniu podstawowym wszystkie obrazy szkoleniowe i testowe dzielą się tym samym etykietą przetwarzania; w ustawieniu all-diff, obraz testowy używa wartości przetwarzania nieobecnej w zestawie szkoleniowym; w ustawieniach pos-same i neg-same, etykieta przetwarzania jest wyrównana albo z semantycznie podobnymi, albo niepodobnymi obrazami; w ustawieniu uniform, etykiety przetwarzania są przydzielane losowo w całym zestawie szkoleniowym. Wyniki są raportowane przy użyciu k = 10 dla ImageNet, i k = 1 dla iNaturalist.
Największe zniekształcenia były spowodowane kompresją JPEG, po których następowało nasycenie i przeskalowanie, podczas gdy interpolacja wywołała tylko niewielki efekt. Autorzy twierdzą, że te wyniki dowodzą, że ślady przetwarzania mogą przeważyć informacje semantyczne i dyktować, jak obraz jest zrozumiany.
W podsumowaniu ostrzegają:
‘Chociaż zidentyfikowaliśmy, że etykiety metadanych są zakodowane w podstawowych kodowaniach wizualnych i dostarczyliśmy wskazówek dotyczących potencjalnych przyczyn, nie możemy definitywnie wskazać źródła problemu. Dalsze badanie tego jest trudne ze względu na koszt ponownego trenowania takich modeli i częste używanie prywatnych zestawów danych i nieujawnionych szczegółów implementacji.
‘Chociaż nie proponujemy konkretnych technik łagodzących, podkreślamy problem jako ważny obszar do dalszych badań.’
Wnioski
W literaturze istnieje rosnące zainteresowanie kryminalistycznym dotyczącym śladów i znaków “metody nad zawartością”; im łatwiej jest zidentyfikować domenę ramowania lub konkretny zestaw danych, tym łatwiej jest wykorzystać tę informację w postaci – na przykład – wykrywaczy deepfake, lub systemów zaprojektowanych do klasyfikacji pochodzenia lub wieku danych i modeli.
To wszystko jest sprzeczne z podstawowym zamiarem szkolenia modeli AI, którym jest to, że centralne pojęcia powinny być kultywowane niezależnie od środków produkcji i nie powinny nosić żadnych śladów po nich. W rzeczywistości, zestawy danych i urządzenia mają cechy i cechy domenowe, które są skutecznie niewykonalne do oddzielenia od zawartości, ponieważ same w sobie reprezentują “historyczną perspektywę”.
* Artykuł jest ułożony niekonwencjonalnie, i będziemy się starać dostosować do jego niezwykłego formatu i prezentacji. Dużo materiału, który powinien być w (nieistniejącym) “Metodzie” zostało przeniesione do różnych części załącznika, prawdopodobnie w celu ograniczenia głównego artykułu do ośmiu stron – choć z znacznym kosztem klarowności. Jeśli przegapiliśmy jakąkolwiek okazję do poprawy tego, ze względu na brak czasu, przepraszamy.
Po raz pierwszy opublikowane w środę, 20 sierpnia 2025












