Connect with us

AI, Görüntüleri Cihaz Markasına Göre Gizlice Sıralayabilir, İçerik Değil

Anderson’un Açısı

AI, Görüntüleri Cihaz Markasına Göre Gizlice Sıralayabilir, İçerik Değil

mm
A robot preferring a Mac over other junked laptops in the blurred background. Flux 1D and Firefly, via Krita.

Yeni bir araştırmaya göre, popüler görüntü odaklı AI sistemleri sadece bir fotoğraftaki içeriğe bakmakla kalmaz, aynı zamanda fotoğrafın nasıl çekildiğini de tespit eder. Gizli ayrıntılar gibi kamera türü veya görüntü kalitesi, AI’nin gördüğü şeyi etkileyebilir ve yanlış sonuçlara yol açabilir – sadece fotoğrafın farklı bir cihazdan geldiği için.

 

2012 yılında, bir seyahat websitesinin ifşa edildiği gibi, Apple cihazlarını kullanan kullanıcılarına daha yüksek fiyatlar gösterdiği ortaya çıktı. Daha sonraki bir soruşturma sonuçlandırdı ki, bu cihaz odaklı ‘cüzdan kokusu’ e-ticaret siteleri için neredeyse rutin hale gelmişti.

Benzer şekilde, bir fotoğraf hangi akıllı telefon veya kamera ile çekildiğini adli yöntemlerle belirlenebilir, sınırlı sayıda lensin modellerindeki bilinen özelliklerine dayanarak. Bu durumlarda, kamera modeli genellikle görsel izler tarafından tahmin edilir ve 2012 olayında olduğu gibi, bir görüntüyü çeken kameranın türü potansiyel olarak sömürülebilecek bir özelliktir.

Çekim cihazları genellikle bir görüntüye önemli meta verileri gömmek eğilimindedir, ancak bu özellik kullanıcılar tarafından genellikle devre dışı bırakılabilir; ayrıca, sosyal medya ağları gibi dağıtım platformları, meta verilerin bir kısmını veya tamamını, lojistik veya gizlilik amaçları nedeniyle ya da her ikisi için silebilir.

Bununla birlikte, kullanıcı tarafından yüklenen görüntülerin meta verileri genellikle yeniden yazılır / yorumlanır (silinmez) veya ikincil bir bilgi kaynağı olarak bırakılır, resimdeki içeriği değil, resmin nasıl çekildiğini gösterir. 2012 olayı gibi, bu tür bilgiler ticari platformlar için değil, aynı zamanda potansiyel olarak hacker’lar ve kötü aktörler için de değerli olabilir.

İkiz Görüşler

Japonya ve Çek Cumhuriyeti arasındaki yeni bir araştırma işbirliği, kamera donanımı ve görüntü işlemenin (örneğin JPEG kalitesi veya lens keskinleştirme) izleri, yalnızca adli araçlar tarafından tespit edilebilecek değil, aynı zamanda önde gelen AI görsel modellerinin ‘küresel anlayışında’ sessizce kodlanıyor.

Bu, CLIP ve diğer büyük ölçekli görsel kodlayıcıları içerir ve bunlar, arama motorlarından içerik moderasyonuna kadar her şeyde yaygın olarak kullanılır. Yeni çalışma, bu modellerin yalnızca bir fotoğraftaki içeriği yorumlamadığını, aynı zamanda fotoğrafın nasıl yapıldığını da öğrenebileceğini gösterir ve bu gizli sinyal bazen görünür içeriği bastırabilir.

Yazarların AI görüntü modellerini nasıl etkileyebileceğini test etmek için oluşturdukları PairCams veri kümesinden örnek görüntü çiftleri. Her çift, aynı anda bir akıllı telefon (sağ) ve bir akıllı telefon olmayan kamera (sol) ile çekilen aynı nesne veya sahneyi gösterir. Kaynak: https://arxiv.org/pdf/2508.10637

Yazarların AI görüntü modellerini nasıl etkileyebileceğini test etmek için oluşturdukları PairCams veri kümesinden örnek görüntü çiftleri. Her çift, aynı anda bir akıllı telefon (sağ) ve bir akıllı telefon olmayan kamera (sol) ile çekilen aynı nesne veya sahneyi gösterir. Kaynak: https://arxiv.org/pdf/2508.10637

Çalışma, AI modellerinin, görüntülere ağır maskeleme veya kırpma uygulandığında bile, kameranın marka ve modelini şaşırtıcı bir doğrulukla tahmin edebileceğini iddia ediyor. Bu, bu sistemlerin kullandığı benzerlik yargılama mekanizmasının, cihaz gibi alakasız faktörlerle iç içe geçebileceği ve öngörülemez sonuçlara yol açabileceği anlamına geliyor.

Örneğin, sınıflandırma veya görüntü geri çağırma gibi aşağı akış görevlerinde, bu istenmeyen ‘ağırlıklandırma’ sistemi, görüntünün gerçekte gösterdiği şeyden bağımsız olarak belirli kamera türlerini tercih edebilir.

Makalede şöyle deniyor:

‘Görsel kodlayıcılarda görsel etiketlerin izlerini bırakması, anlamsal bilgileri gölgelemeye kadar varabilir ve bu, modellerin genelleme, dayanıklılık ve potansiyel olarak güvenilirliğini tehlikeye atabilir.

‘Daha kritik olarak, bu etki kötü niyetli bir şekilde sömürülebilir; örneğin, bir düşmanca saldırı, modeli kasıtlı olarak yanıltmak veya aldatmak için meta verileri manipüle edebilir ve bu, sağlık hizmetleri, gözetim veya otonom sistemler gibi duyarlı alanlarda riskler oluşturur.’

Makale, Contrastive Visual-Language (CVL) sistemlerinin, özellikle de şimdi bilgisayar görüşünde en etkili kodlayıcılardan biri olan CLIP’in, bu tür çıkarımları veriden elde etme olasılığının daha yüksek olduğunu buldu:

Bir sorgu görüntüsü için arama sonuçları, temel modellerin benzer görüntüleri, yalnızca görsel içerik değil, aynı zamanda JPEG sıkıştırma veya kamera modeli gibi gizli meta veriler temelinde nasıl sıraladığını gösterir. Şekil, yazarların, hem anlamsal hem de meta veri etiketlerinin modelin temsil mekanizmasını şekillendirdiğini iddia ettiği şekilde düzenlenmiştir.

Bir sorgu görüntüsü için arama sonuçları, temel modellerin benzer görüntüleri, yalnızca görsel içerik değil, aynı zamanda JPEG sıkıştırma veya kamera modeli gibi gizli meta veriler temelinde nasıl sıraladığını gösterir. Şekil, yazarların, hem anlamsal hem de meta veri etiketlerinin modelin temsil mekanizmasını şekillendirdiğini iddia ettiği şekilde düzenlenmiştir.

Yeni makale, Visual Encoders’de İşleme ve Edinim İzleri: CLIP Kameranız Hakkında Ne Biliyor? başlığını taşıyor ve Osaka Üniversitesi ve Prag’taki Çek Teknik Üniversitesi’nden altı araştırmacıyla birlikte gerçekleştirildi.

Yöntem ve Veri*

Görsel kodlayıcılarda, özellikle CLIP gibi, gizli meta verilerin etkisini test etmek için araştırmacılar, iki tür meta veri ile çalıştı: görüntü işleme parametreleri (örneğin, JPEG sıkıştırma veya renk dönüşümleri) ve edinim parametreleri (örneğin, kamera markası veya modeli, pozlama ayarları).

Yeni modeller eğitmedi, araştırmacılar, dondurulmuş, önceden eğitilmiş halde 47 yaygın olarak kullanılan görsel kodlayıcıyı değerlendirdi. Bunlar, CLIP gibi karşıtlıkla görsel-dil modellerini, kendi kendine denetlenen modelleri ve geleneksel olarak denetlenen ağları içeriyordu.

İşleme parametreleri için araştırmacılar, kontrollü dönüşümler uyguladılar. ImageNet ve iNaturalist 2018 veri kümelerine, altı seviyede JPEG sıkıştırma, üç keskinleştirme ayarı, üç yeniden boyutlandırma ölçeği ve dört interpolasyon yöntemi dahil edildi.

iNaturalist veri kümesinden örnek görüntüler ve bunlarla ilgili açıklamalar. Kaynak: https://arxiv.org/pdf/1707.06642

iNaturalist veri kümesinden örnek görüntüler ve bunlarla ilgili açıklamalar. Kaynak: https://arxiv.org/pdf/1707.06642

Modeller, yalnızca görüntü içeriği kullanarak her bir dönüşüm ayarını geri yükleme yetenekleri test edildi. Başarılı tahminler, kodlayıcının dahili temsilinde bu işleme tercihlerinin bilgi içerdiğini gösterecekti.

Edinim parametrelerini incelemek için araştırmacılar, 356.459 görüntü içeren FlickrExif adlı bir veri kümesi derlediler. Bu veri kümesi, saklanan Exif meta verilerini içeriyordu ve ayrıca 730 görüntü çiftinden oluşan PairCams adlı bir başka veri kümesi oluşturuldu. Bu görüntüler, aynı anda bir akıllı telefon ve bir akıllı telefon olmayan kamera ile çekildi.

FlickrExif veri kümesi, Flickr API’sini kullanarak eşlik eden Exif meta verilerine sahip görüntüleri indirmek için kullanıldı. Her ay, 2000 ila 4000 arasında güvenli görüntüler toplandı ve yalnızca izin verilen lisanslara sahip olanlar seçildi. Her bir katkıda bulunanın her yıl için aylık 10 görüntüye sınırlı olması, baskın kullanıcıların önlenmesi için yapıldı.

PairCams veri kümesi için her fotoğraf, otomatik ayarlarla ve flaş olmadan çekildi. Bu, araştırmacıların görsel kodlayıcılara, yalnızca kamera donanımı farklılıklarına bağlı olarak nasıl tepki verdiklerini karşılaştırmasına olanak tanıdı, görüntü içeriğine bakılmaksızın.

Yazarların derlediği PairCams veri kümesinden daha fazla örnek.

Yazarların derlediği PairCams veri kümesinden daha fazla örnek.

Araştırmacılar, iki tür parametre test etti: görüntü işleme parametreleri (örneğin, sıkıştırma ve renk dönüşümleri) ve edinim parametreleri (örneğin, kamera markası veya modeli).

Analiz edilen görüntü işleme ve edinim parametreleri, her biri için sınıf sayısı ile birlikte.

Analiz edilen görüntü işleme ve edinim parametreleri, her biri için sınıf sayısı ile birlikte.

Testler

Görsel kodlayıcılarda, görüntü işleme ve kamera türü hakkında bilgi içerilip içermediğini belirlemek için araştırmacılar, bu meta veri etiketlerini doğrudan kodlayıcılardan tahmin etmek için bir sınıflandırıcı eğitti. Sınıflandırıcı, rasgele tahminlerden daha iyi performans gösteremezse, bu, modelin işleme veya cihaz hakkında bilgi içermediğini gösterecekti.

Ancak, herhangi bir rastgele tahminin üzerinde bir performans, bu teknik izlerin gerçekten kodlandığını ve aşağı akış görevlerini etkileyebileceğini gösterecekti.

İşleme izlerini test etmek için araştırmacılar, her bir eğitim görüntüsüne rasgele bir işleme ayarı atadı (örneğin, belirli bir JPEG sıkıştırma seviyesi), जबकi tüm test görüntüleri bir parti içinde aynı ayarı paylaştı.

Ortalama sınıflandırma doğruluğu, tüm ayarların üzerinden birleştirildi ve farklı rastgele tohumlar altında tekrarlanan denemelerle birleştirildi, böylece teknik ayrıntıların modelin dahili temsilinde tutarlı bir şekilde yakalandığı belirlenebildi:

Dondurulmuş modellere uygulanan lineer bir sınıflandırıcı kullanarak, kodlayıcılardan görüntü işleme parametrelerinin tahmininde sınıflandırma doğruluğu. Sonuçlar, JPEG sıkıştırma, keskinleştirme, yeniden boyutlandırma ve interpolasyon için gösterilir ve üç model kategorisi, karşıtlıkla görsel-dil (turuncu), denetlenen (yeşil) ve kendi kendine denetlenen (mavi) modeller için ImageNet (üst sıra) ve iNaturalist 2018 (alt sıra) üzerinde değerlendirilir. Rasgele tahmin çizgileri ile işaretlenmiştir.

Dondurulmuş modellere uygulanan lineer bir sınıflandırıcı kullanarak, kodlayıcılardan görüntü işleme parametrelerinin tahmininde sınıflandırma doğruluğu. Sonuçlar, JPEG sıkıştırma, keskinleştirme, yeniden boyutlandırma ve interpolasyon için gösterilir ve üç model kategorisi, karşıtlıkla görsel-dil (turuncu), denetlenen (yeşil) ve kendi kendine denetlenen (mavi) modeller için ImageNet (üst sıra) ve iNaturalist 2018 (alt sıra) üzerinde değerlendirilir. Rasgele tahmin çizgileri ile işaretlenmiştir.

Tüm dört işleme parametresi için, karşıtlıkla görsel-dil modelleri, gizli görüntü manipülasyonlarını tanımada en yüksek yeteneğe sahipti. Bazı modeller, ImageNet gömme noktalarından JPEG sıkıştırma, keskinleştirme ve yeniden boyutlandırma ayarlarını tahmin ederken %80’den fazla doğruluk elde etti.

Denetlenen kodlayıcılarda, özellikle ConvNeXt tabanlı olanlar da güçlü bir performans sergiledi, जबकi kendi kendine denetlenen modeller tutarlı olarak daha zayıftı.

İnterpolasyon, tespit edilmesi en zor parametre oldu, ancak en iyi CVL ve denetlenen modeller, her iki veri kümesinde de %25’lik rasgele tahmin sınırının üzerinde sonuçlar elde etti.

Sonraki adımda, kamera ile ilgili bilginin model temsilinde kodlanıp kodlanmadığını test etmek için araştırmacılar, her bir edinim parametresi için (örneğin, kamera markası, modeli, pozlama, diyafram, ISO, odak uzaklığı) ayrı eğitim ve test kümeleri oluşturdular.

Çoğu parametre için, yalnızca en az 5.000 örneği olan sınıflar kullanıldı; 500 görüntü, test için rasgele ayrıldı ve kalan örnekler, her sınıfın 200 eğitim örneğine sahip olmasını sağlamak için aşağı örneklenerek azaltıldı. ‘Model (tümü)’ ve ‘model (akıllı)’ parametreleri için, her sınıfın en az 500 görüntüsü vardı ve her sınıf, eğitim ve test alt kümelerine dörtte bir oranında bölündü.

Fotograflar, eğitim, doğrulama ve test kümeleri arasında ayrıldı ve bir sınıflandırıcı, görüntü özelliklerine dayalı olarak kamera bilgilerini tahmin etmek için eğitildi.

Sınıflandırıcının, görüntülerin anlamsal içeriğinden etkilenmediğinden emin olmak için, her görüntünün %90’ı merkezden maskeledi (aşağıdaki örnekleri görün):

Maskeleme oranına göre ImageNet doğrulama doğruluğu. %90 maskeleme düzeyinde, tüm modeller anlamsal etiket tahmini için neredeyse rasgele performans sergiler, bu da anlamsal sinyalin etkili bir şekilde kaldırıldığını gösterir. Aşağıdaki örnek görüntüler, maskeleme seviyelerini gösterir.

Maskeleme oranına göre ImageNet doğrulama doğruluğu. %90 maskeleme düzeyinde, tüm modeller anlamsal etiket tahmini için neredeyse rasgele performans sergiler, bu da anlamsal sinyalin etkili bir şekilde kaldırıldığını gösterir. Aşağıdaki örnek görüntüler, maskeleme seviyelerini gösterir.

Her görüntünün %90’ı maskeleme uygulandığında bile, çoğu karşıtlıkla görsel-dil modeli ve denetlenen ConvNeXt kodlayıcısı, kamera ile ilgili etiketleri rasgele tahminin üzerinde bir düzeyde tahmin etti. Birçok CVL modeli, akıllı telefon ve akıllı telefon olmayan kamera görüntülerini ayırt etmekte %70’den fazla doğruluk elde etti.

Diğer denetlenen kodlayıcılarda, SigLIP ve tüm kendi kendine denetlenen modeller çok daha zayıf performans gösterdi. Maskeleme uygulanmadığında, CVL modelleri yine kamera türüne göre en güçlü kümeleme gösterdi, bu da bu modellerin diğerlerinden daha derin olarak edinim bilgilerini kodladığını doğruladı:

İki görsel kodlayıcının t-SNE görselleştirmeleri, her görüntünün bir akıllı telefon veya akıllı telefon olmayan kamera ile çekilip çekilmediğini gösteren renklerle.

İki görsel kodlayıcının t-SNE görselleştirmeleri, her görüntünün bir akıllı telefon veya akıllı telefon olmayan kamera ile çekilip çekilmediğini gösteren renklerle.

Aşağı Akış Önemi

Bu etkiyi doğruladıktan sonra, araştırmacılar gizli işleme izlerinin görüntü yorumunu nasıl etkileyebileceğini değerlendirdi.

Aynı görüntünün iki farklı versiyonu farklı şekilde işlendiğinde, gömme noktaları genellikle işleme stili rather än içeriğe göre organize edildi. Birkaç durumda, ağır sıkıştırılmış bir köpek fotoğrafı, aynı sıkıştırma ayarına sahip ancak farklı bir görüntüye, kendi sıkıştırılmamış versiyonuna göre daha benzer olarak kabul edildi:

Beş farklı işleme kurulumu altında ImageNet (üst) ve iNaturalist (alt) için anlamsal sınıflandırma doğruluğu. Temel durumda, tüm eğitim ve test görüntüleri aynı işleme etiketini paylaşır; tüm farklı ayarlarda, test görüntüsü eğitim kümesinde bulunmayan bir işleme değerini kullanır; pozitif-aynı ve negatif-aynı, işleme etiketinin anlamsal olarak benzer veya farklı görüntülerle hizalanmasıyla ilgilidir; uniform ayarlarda, işleme etiketleri eğitim kümesi boyunca rasgele atanır. Sonuçlar k = 10 için ImageNet ve k = 1 için iNaturalist için raporlanır.

Beş farklı işleme kurulumu altında ImageNet (üst) ve iNaturalist (alt) için anlamsal sınıflandırma doğruluğu. Temel durumda, tüm eğitim ve test görüntüleri aynı işleme etiketini paylaşır; tüm farklı ayarlarda, test görüntüsü eğitim kümesinde bulunmayan bir işleme değerini kullanır; pozitif-aynı ve negatif-aynı, işleme etiketinin anlamsal olarak benzer veya farklı görüntülerle hizalanmasıyla ilgilidir; uniform ayarlarda, işleme etiketleri eğitim kümesi boyunca rasgele atanır. Sonuçlar k = 10 için ImageNet ve k = 1 için iNaturalist için raporlanır.

En güçlü bozulmalar JPEG sıkıştırma, keskinleştirme ve yeniden boyutlandırma tarafından oluşturuldu, जबकi interpolasyon yalnızca küçük bir etkiye sahipti. Araştırmacılar, bu sonuçların, işleme izlerinin anlamsal bilgileri geçersiz kılabileceğini ve bir görüntünün nasıl anlaşıldığını belirleyebileceğini gösterdiğini iddia ediyor.

Sonuç olarak, uyarıyorlar:

‘Meta veri etiketlerinin görsel kodlayıcılarda kodlandığını ve potansiyel nedenler hakkında ipuçları sağladığımızı belirledik, ancak sorunların kaynağını kesin olarak belirleyemeyiz. Bunu daha derinlemesine araştırmak, bu tür modelleri yeniden eğitmenin maliyeti ve sıkça kullanılan özel veri kümeleri ve açıklanmayan uygulama ayrıntıları nedeniyle zor.

‘Özel azaltma teknikleri önermiyoruz, ancak bu konuyu gelecekteki araştırmalar için önemli bir alan olarak vurguluyoruz.’

SONUÇ

Literatürde, ‘yöntem över içeriği’ izleri ve işaretleri ile ilgili adli bir ilgi artışı vardır; bir çerçeve alanı veya belirli bir veri kümesini tanımlamak ne kadar kolay olursa, bu bilgiyi – örneğin derin sahte dedektörleri veya veri ve modellerin kökenini veya yaşını kategorize etmek için tasarlanmış sistemleri gibi – bu forma dönüştürmek o kadar kolay olur.

Bunun tümü, AI modellerini eğitmek amacının tersinedir; merkezi damıtılmış kavramlar, üretim araçlarından bağımsız olarak oluşturulmalı ve onlardan hiçbir iz taşımamalıdır. Aslında, veri kümeleri ve çekim cihazları, kendileri de bir ‘tarihsel perspektif’i temsil ettikleri için, içerikten ayrılamayacak özellikler ve alan özelliklerine sahiptir.

 

* Makale alışılmadık bir şekilde düzenlenmiştir ve biz, makalenin alışılmadık biçimlendirme ve sunumuna mümkün olduğunca adapte olacağız. ‘Yöntem’ bölümünde olması gereken大量 malzeme, makaleyi sekiz sayfaya sınırlamak için muhtemelen ek bölüme kaydırıldı – ancak bu, açıklığın önemli ölçüde azalması pahasına. Eğer bunu iyileştirmek için herhangi bir fırsatı kaçırdıysak, zaman eksikliği nedeniyle özür dileriz.

İlk olarak Çarşamba, 20 Ağustos 2025 tarihinde yayımlandı

Makine öğrenimi üzerine yazar, insan görüntü sentezinde alan uzmanı. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel site: martinanderson.ai
İletişim: [email protected]