Anderson’un Açısı
AI Gizli Olarak Görüntüleri Cihaz Markasına Göre, İçerik Değil, Sıralayabilir

Yeni bir araştırma, popüler görüntü odaklı AI sistemlerinin yalnızca bir fotoğraftaki içeriğe bakmadığını, aynı zamanda fotoğrafın nasıl çekildiğini de tespit ettiğini gösteriyor. Kamera türü veya görüntü kalitesi gibi gizli ayrıntılar, AI’nin gördüğü şeyi sessizce etkileyerek yanlış sonuçlara neden olabilir – sadece fotoğrafın farklı bir cihazdan geldiği için.
2012 yılında, bir seyahat websitesinin Apple cihazlarında gezinen kullanıcılar için daha yüksek fiyatlar gösterdiği ortaya çıktı. Daha sonraki bir soruşturma, bu cihaz odaklı ‘cüzdan kokusu’ almanın e-ticaret siteleri için neredeyse rutin hale geldiğini sonucuna vardı.
Benzer şekilde, bir fotoğrafı çeken belirli bir akıllı telefon veya kamera türü, adli tıptan bilinen lens özelliklerine dayalı olarak belirlenebilir. Bu durumlarda, kamera modeli genellikle görsel izler tarafından tahmin edilir ve 2012 olayında olduğu gibi, bir görüntüyü çeken kamera türünü bilmek potansiyel olarak sömürülebilecek bir özelliktir.
Fotoğraf makineleri genellikle bir görüntüye önemli metadata ekler, ancak bu özellik genellikle kullanıcılar tarafından kapatılabilir; ayrıca, sosyal medya ağları gibi dağıtım platformları, metadata’nın bir kısmını veya tamamını lojistik veya gizlilik nedenleriyle silebilir.
Bununla birlikte, kullanıcı tarafından yüklenen görüntülerdeki metadata genellikle ya yeniden yazılır / yorumlanır (silinmez) veya ikincil bir bilgi kaynağı olarak bırakılır, bu bilgi görüntüdeki içeriği değil, görüntünün nasıl çekildiğini açıklar. 2012 olayı gibi, bu tür bilgiler ticari platformlar için değerli olabileceği gibi, potansiyel olarak kötü niyetli aktörler ve saldırganlar için de değerlidir.
İkiz Görüşler
Japonya ve Çek Cumhuriyeti arasındaki yeni bir araştırma işbirliği, kamera donanımı ve görüntü işlemenin (örneğin JPEG kalitesi veya lens keskinleştirme) izlerinin yalnızca adli araçlar tarafından tespit edilebileceğini değil, aynı zamanda önde gelen AI görme modellerinin “küresel anlayış”ında sessizce kodlandığını buldu.
Bu, CLIP ve diğer büyük ölçekli görsel kodlayıcıları içerir, bunlar arama motorlarından içerik moderasyonuna kadar her şeyde yaygın olarak kullanılır. Yeni çalışma, bu modellerin yalnızca bir fotoğraftaki içeriği yorumlamadığını, aynı zamanda fotoğrafın nasıl çekildiğini de öğrenebileceğini gösterir ve bu gizli sinyal bazen görünür içeriği geçersiz kılabilir.

Yazarların AI görüntü modellerini nasıl etkileyebileceğini test etmek için oluşturulan PairCams veri kümesinden örnek görüntü çiftleri. Her çift, aynı anda bir akıllı telefon (sağ) ve bir akıllı telefon olmayan kamera (sol) ile çekilen aynı nesne veya sahneyi gösterir. Kaynak: https://arxiv.org/pdf/2508.10637
Çalışma, AI modellerinin, hatta görüntülerin ağır şekilde maskeleme veya kırpma versiyonlarına sahip olduğunda bile, kameranın marka ve modelini şaşırtıcı bir doğrulukla tahmin edebileceğini iddia ediyor. Bu, bu sistemlerin kullandığı görüntü benzerliği değerlendirmesi için kullanılan temsil alanı, cihaz gibi alakasız faktörlerle iç içe geçebilir ve öngörülemez sonuçlara yol açabilir.
Örneğin, sınıflandırma veya görüntü geri çağırma gibi aşağı akış görevlerinde, bu istenmeyen “ağırlıklandırma” sistemi, görüntünün gerçekte gösterdiği şeyden bağımsız olarak belirli kamera türlerini tercih edebilir.
Makalede şöyle deniyor:
‘Görsel kodlayıcıları gölgeleyen metadata etiketleri, anlamsal bilgileri gölgeleyecek noktaya kadar görsel kodlayıcıları etkileyebilir, bu da genellemeyi, sağlamlığı ve potansiyel olarak modellerin güvenilirliğini tehlikeye atabilir. ‘
‘Daha kritik olarak, bu etki kötü niyetli bir şekilde sömürülebilir; örneğin, bir saldırgan, metadata’yı kasıtlı olarak yanlış yönlendirmek veya bir modeli yanıltmak için manipüle edebilir, bu da sağlık, gözetim veya otonom sistemler gibi duyarlı alanlarda riskler oluşturur.’
Çalışma, Contrastive Visual-Language (CVL) sistemlerinin, şimdi bilgisayar görüşünde en etkili kodlayıcılar arasında olan CLIP, bu tür çıkarımları veriden almayı daha olası olduğunu buldu:

Bir sorgu görüntüsü için arama sonuçları, temel modellerin görüntüleri yalnızca görsel içerik değil, aynı zamanda JPEG sıkıştırma veya kamera modeli gibi gizli metadata’ya göre nasıl sıraladığını gösteriyor. Şekil, yazarların, hem anlamsal hem de metadata etiketlerinin modelin temsil alanını şekillendirdiğini iddia ettiği şekilde, arama sonuçlarını yansıtıyor.
Yeni makale, Visual Encoders’de İşleme ve Edinim İzleri: CLIP Kameranız Hakkında Ne Biliyor? başlığını taşıyor ve Osaka Üniversitesi ve Prag’daki Çek Teknik Üniversitesi’nden altı araştırmacıyla birlikte geliyor.
Yöntem ve Veri*
CLIP gibi görsel kodlayıcılar üzerindeki gizli metadata’nın etkisini test etmek için, yazarlar iki tür metadata ile çalıştı: görüntü işleme parametreleri (örneğin JPEG sıkıştırma veya keskinleştirme) ve edinim parametreleri (örneğin kamera modeli veya pozlama ayarları).
Araştırmacılar, yeni modelleri eğitmek yerine, 47 yaygın olarak kullanılan görsel kodlayıcıyı dondurulmuş, önceden eğitilmiş durumlarında değerlendirdi. Bunlar, CLIP gibi karşıt görme-dil modellerini, kendi kendine denetlenen modelleri gibi DINO ve geleneksel olarak denetlenen ağları içerir.
Görüntü işleme parametreleri için, araştırmacılar kontrollü dönüşümler uyguladı. ImageNet ve iNaturalist 2018 veri kümelerine altı seviye JPEG sıkıştırma, üç keskinleştirme ayarı, üç yeniden boyutlandırma ölçeği ve dört interpolasyon yöntemi dahil.

iNaturalist veri kümesinden örnek görüntüler ve bunlarla ilgili açıklamalar. Kaynak: https://arxiv.org/pdf/1707.06642
Modeller, yalnızca görüntü içeriğinden kullanarak her dönüşüm ayarını geri yüklemeye çalıştıklarında test edildi, başarılı tahminler, kodlayıcıların dahili temsilinde bu işleme seçimlerinin bilgilerini koruduklarını gösterdi.
Edinim parametrelerini incelemek için, araştırmacılar, 356.459 görüntüden oluşan bir veri kümesi olan FlickrExif ve 730 görüntü çiftinden oluşan bir veri kümesi olan PairCams oluşturdular.
FlickrExif veri kümesi, Flickr API’sini kullanarak eşlik eden Exif metadata’sı olan görüntüleri indirmek için oluşturuldu. Her ay 2.000 ila 4.000 güvenli görüntüyü toplandı ve yalnızca izin verilen lisanslara sahip olanları dahil edildi. Her bireysel katkıda bulunan, her yıl için en fazla on görüntüye sınırlı tutuldu.
PairCams veri kümesi için her fotoğraf, otomatik ayarlarla ve flaş olmadan çekildi, bu da yalnızca kamera donanımı arasındaki farka göre görsel kodlayıcıların nasıl tepki verdiğini karşılaştırmasına izin verdi:

Yazarların oluşturduğu PairCams veri kümesinden daha fazla örnek.
Yazarlar, iki parametre kümesi için test etti: görüntü işleme parametreleri, such as sıkıştırma ve renk dönüşümleri; ve görüntü edinim parametreleri, such as kamera markası veya modeli:

Analiz edilen görüntü işleme ve edinim parametreleri, her biri için sınıf sayısı ile.
Testler
Görüntü işleme ve kamera türü hakkında bilgi, görsel kodlayıcı iç gömme içinde korunup korunmadığını belirlemek için, yazarlar bir sınıflandırıcıyı, doğrudan bu iç gömmelerden metadata etiketlerini tahmin etmek üzere eğitti. Sınıflandırıcı, rastgele tahminlerden daha iyi performans göstermediyse, bu, işleme veya cihaz hakkında bilgiler kodlayıcı tarafından yakalanmadığını öne sürecekti.
Herhangi bir performans, bu teknik izlerin gerçekten kodlanabileceğini ve aşağı akış görevlerini etkileyebileceğini gösterecekti.
İşleme izlerini test etmek için, yazarlar her eğitim görüntüsüne rastgele bir işleme ayarı atadı, örneğin belirli bir JPEG sıkıştırma seviyesi, tüm test görüntülerinin aynı ayarı paylaştığı bir toplu işleme.
Ortalama sınıflandırma doğruluğu, tüm ayarların üzerinden birleştirildi ve farklı rastgele tohumlar altında tekrarlanan denemelerle birleştirildi, böylece teknik görüntü işleme ayrıntılarının kodlayıcıların dahili temsilinde tutarlı bir şekilde yakalanıp yakalanmadığı belirlenebildi:

Dondurulmuş modellere uygulanan lineer bir sınıflandırıcı kullanarak, encoder iç gömmelerinden görüntü işleme parametrelerini tahmin etmek için sınıflandırma doğruluğu. Sonuçlar, JPEG sıkıştırma, keskinleştirme, yeniden boyutlandırma ve interpolasyon için gösterilir, üç model kategorisi, karşıt görme-dil (turuncu), denetlenen (yeşil) ve kendi kendine denetlenen (mavi) ile birlikte, ImageNet (üst sıra) ve iNaturalist 2018 (alt sıra) üzerinde değerlendirilir. Rastgele tahmin çizgileri çizgili olarak işaretlenmiştir.
Tüm dört işleme parametresinde, karşıt görme-dil modelleri en yüksek gizli görüntü manipülasyonlarını tanıma yeteneğini gösterdi. Bazı modeller, ImageNet iç gömmelerinden JPEG sıkıştırma, keskinleştirme ve yeniden boyutlandırma ayarlarını tahmin ederken %80’den fazla doğruluk elde etti.
Denetlenen kodlayıcılar, özellikle ConvNeXt tabanlı olanlar, güçlü bir performans sergiledi, kendi kendine denetlenen modeller ise tutarlı olarak daha zayıf performans gösterdi.
İnterpolasyon, en zor tespit edilen parametreydi, ancak en iyi CVL ve denetlenen modeller, her iki veri kümesinde %25’lik rastgele tahmin çizgisinin üzerinde sonuçlar elde etti.
Sonra, kamera ile ilgili bilginin model temsilinde gömülü olup olmadığını test etmek için, yazarlar her edinim parametresi için (örneğin kamera markası, kamera modeli, pozlama, diyafram, ISO, odak uzaklığı) ayrı eğitim ve test kümeleri oluşturdu.
Çoğu parametreyi için, yalnızca en az 5.000 örneği olan sınıflar kullanıldı; 500 görüntü, rastgele olarak test için ayrıldı ve kalan örnekler, her sınıfın 200 eğitim örneğine sahip olmasını sağlamak için örneklenerek azaltıldı. ‘Model (tümü)’ ve ‘model (akıllı)’ parametreleri için, her sınıfın en az 500 görüntüsü vardı ve her sınıf, dörtte bir oranında eğitim ve test alt kümelerine bölündü.
Fotoğrafçılar, eğitim, doğrulama ve test kümeleri arasında ayrı tutuldu ve bir sınıflandırıcı, görüntü özelliklerine dayalı olarak kamera bilgisini tahmin etmek üzere eğitildi.
Sınıflandırıcının, görüntülerin anlamsal içeriğinden etkilenmediğinden emin olmak için, her görüntünün %90’ı merkezden maskeleme (aşağıdaki örnekleri görün):

ImageNet doğrulama doğruluğu, maskeleme oranının fonksiyonu olarak. %90 maskeleme ile, tüm modeller anlamsal etiket tahmini için neredeyse rastgele performansa düşer, bu da anlamsal ipuçlarının etkili bir şekilde kaldırıldığını gösterir. Altta, maskeleme seviyelerini gösteren örnek görüntüler vardır.
Hatta %90 maskeleme ile, çoğu karşıt görme-dil modeli ve denetlenen ConvNeXt kodlayıcıları, kamera ile ilgili etiketleri rastgele tahmin seviyesinin üzerinde tahmin etti. Çok sayıda CVL modeli, akıllı telefon ve akıllı telefon olmayan görüntü arasındaki farkı %70’den fazla doğrulukla ayırt etti.
Diğer denetlenen kodlayıcılar, SigLIP ve tüm kendi kendine denetlenen modeller daha zayıf performans gösterdi. Maskeleme uygulanmadığında, CVL modelleri yine kamera türüne göre en güçlü kümeleme gösterdi, bu da bu modellerin diğerlerinden daha derin olarak edinim bilgilerini gömülü olduğunu doğruladı:

İki görsel kodlayıcı için t-SNE görselleştirmeleri, renkler her görüntünün akıllı telefon veya akıllı telefon olmayan kamera ile çekilip çekilmediğini gösterir.
Aşağı Akış Önemi
Bu şekilde metadata’nın modelleri nasıl etkilediğini kurduktan sonra, gizli işleme izlerinin görüntü yorumunu bozma eğilimini değerlendirdiler.
İki aynı görüntünün farklı şekilde işlendiğinde, gömme genellikle işleme stili rather niż içeriğe göre organize edildi. Birkaç durumda, ağır sıkıştırılmış bir köpek fotoğrafı, aynı sıkıştırma ayarına sahip ancak farklı bir görüntüye, kendi sıkıştırılmamış versiyonundan daha benzer olarak kabul edildi:

Beş işleme kurulumu altında ImageNet (üst) ve iNaturalist (alt) için anlamsal sınıflandırma doğruluğu. Temelde, tüm eğitim ve test görüntüleri aynı işleme etiketini paylaşır; tüm farklı ayarlarda, test görüntüsü eğitim setinde mevcut olmayan bir işleme değerini kullanır; poz-same ve neg-same, işleme etiketinin anlamsal olarak benzer veya farklı görüntülerle hizalanmasıyla ilgilidir; uniform ayarı, işleme etiketlerinin eğitim seti boyunca rastgele atanmasıyla ilgilidir. Sonuçlar, ImageNet için k = 10 ve iNaturalist için k = 1 ile raporlanır.
En güçlü bozulmalar, JPEG sıkıştırması, ardından keskinleştirme ve yeniden boyutlandırma tarafından oluşturuldu, interpolasyon ise yalnızca küçük bir etkiye neden oldu. Yazarlar, bu sonuçların, işleme izlerinin anlamsal bilgileri geçersiz kılabileceğini ve bir görüntünün nasıl anlaşıldığını dikte edebileceğini gösterdiğini iddia ediyor.
Sonuç olarak, şöyle uyarıyorlar:
‘Metadata etiketlerinin görsel kodlayıcılar tarafından kodlanabileceğini belirledik ve olası nedenler hakkında ipuçları verdik, ancak sorun kaynağını kesin olarak belirleyemeyiz. Bu konuyu daha derinlemesine incelemek, bu tür modellerin yeniden eğitiminin maliyeti ve sıklıkla kullanılan özel veri kümeleri ve açıklanmayan uygulama ayrıntıları nedeniyle zor.
‘Spesifik azaltma teknikleri önermiyoruz, ancak bu konuyu gelecekteki araştırmalar için önemli bir alan olarak vurguluyoruz.’
Sonuç
Literatürde, ‘yöntem içeriği’ ile ilgili artan bir adli ilgi vardır; bir çerçeve alanını veya belirli bir veri kümesini tanımlamak ne kadar kolay olursa, bu bilgiyi – örneğin derin sahtecilik dedektörleri veya veri veya model kökenini kategorize eden sistemler gibi – kullanmak o kadar kolay olur.
Bu, AI modellerini eğitmek için temel amaçla çelişir, çünkü çıkarılan ana kavramlar, üretim araçlarından bağımsız olarak korunmalı ve bu araçların izini taşımamalıdır. Aslında, veri kümeleri ve kamera modelleri, kendileri de bir ‘tarihsel perspektif’i temsil eden özellikler ve alan özelliklerine sahiptir ve bu özellikler içerikten ayrılmaz.
* Makale, alışılmadık bir şekilde düzenlenmiştir ve biz de bu düzeni en iyi şekilde uyarlayacağız. ‘Yöntem’ bölümünde olması gereken çok fazla materyal, eklerin çeşitli kısımlarına kaydırılmış, ana makaleyi sekiz sayfaya sınırlamak için – ancak açıklığa önemli bir maliyetle. Eğer bunu iyileştirmek için fırsatları kaçırdıysak, zaman eksikliği nedeniyle özür dileriz.
İlk olarak Çarşamba, 20 Ağustos 2025 tarihinde yayımlandı.












