Yapay Zekâ
Aşırı Yorumlama, Aşırı Uyumdan Daha Büyük ve Daha Çözülmesi Zor Bir Tehdit Olabilir

Eğer iyi bir arkadaşınız olan Alice sarı kazak giymeyi seviyorsa, ortalama bir kişiden daha fazla sarı kazak göreceksiniz. Bir süre sonra, farklı bir kadın sarı kazak giyince, Alice kavramı aklınıza gelebilir.
Eğer sarı kazak giyen ve Alice’e biraz benzeyen bir kadın görürseniz, onu geçici olarak arkadaşınız sanabilirsiniz.
Ama bu Alice değil. Sonunda, sarı kazakların Alice’i tanımlamak için yararlı bir anahtar olmadığını fark edeceksiniz, çünkü yazın hiç giymez ve kışın da her zaman giymez. Arkadaşlığınızın bir yerinde, sarı kazakları olası bir Alice tanımlayıcı olarak düşürmeye başlayacaksınız, çünkü bu kısayolun deneyimi tatmin edici olmadı ve bu kısayolu korumak için kullanılan bilişsel enerji sık sık ödüllendirilmedi.
Eğer bir bilgisayar görüşü tabanlı tanıma sistemiyseniz, jedoch, sarı kazak gördüğünüz her yerde Alice’i görebilmeniz mümkün.
Bu sizin suçunuz değil; Alice’i tanımlamakla görevlendirildiniz ve minimum mevcut bilgilerden, ve bu indirgeyici Alice ipucunu korumak için yeterli bilişsel kaynaklar var.
Garip Ayırma
MIT Bilgisayar Bilimi ve Yapay Zeka Laboratuvarı (CSAIL) ve Amazon Web Services’ten recent bir makaleye göre, bu sendrom, aşırı yorumlama olarak adlandırılıyor, bilgisayar görüşü (CV) araştırma alanlarında yaygın; aşırı uyuma çözüm getirerek hafifletilemez (çünkü doğrudan aşırı uyumanın bir eki değildir); iki en etkili veri kümesi olan CIFAR-10 ve ImageNet’te yaygın olarak görülmektedir ve kolay çözümleri yoktur – kesinlikle ucuz çözümleri yoktur.
Araştırmacılar, girdi eğitim resimlerini yalnızca %5’ine indirgediklerinde, popüler çerçevelerin çoğunun resimleri doğru bir şekilde sınıflandırabildiğini, bu resimlerin meisten durumlarında insan gözüyle “görsel saçmalık” gibi göründüğünü buldular:

Original training images from CIFAR-10, reduced to just 5% of the original pixel content, yet correctly classified by a range of highly popular computer vision frameworks at an accuracy of between 90-99%. Source: https://arxiv.org/pdf/2003.08907.pdf
Bazı durumlarda, sınıflandırma çerçeveleri, bu parçalanmış resimleri orijinal eğitim verilerinin tam çerçevelerinden daha kolay doğru bir şekilde sınıflandırabiliyor, yazarlar “[CNNs] are more confident on these pixels subsets than on full images” gözlemlediklerini belirtiyorlar.
Bu, CIFAR-10 ve ImageNet gibi benchmark veri kümeleri ve VGG16, ResNet20 ve ResNet18 gibi benchmark çerçeveleri kullanan CV sistemleri için ortak bir uygulama olan potansiyel olarak zayıflatıcı bir “hile” türüdür.
Aşırı yorumlama, CV tabanlı otonom araç sistemleri için önemli sonuçlar doğurur, bu sistemler son zamanlarda Tesla’nın LiDAR ve diğer ışın tabanlı algılama sistemleri yerine self-sürüş algoritmaları için görüntü yorumlamayı tercih etme kararıyla gündeme gelmiştir.
“Kısayol öğrenimi” bilinen bir zorluk ve aktif araştırma alanıdır, ancak makalenin yazarları, 2019’da problemi çerçevelendiren Alman/Kanada araştırmasının, aşırı yorumlamanın “sahte” piksel alt kümelerinin “istatistiksel olarak geçerli veri” olduğunu tanımaz, bu da mimari ve daha yüksek düzeyde yaklaşımlarla ele alınmalıdır, değilse dikkatli veri kümesi oluşturulmasıyla.
Makale, Overinterpretation reveals image classification model pathologies olarak adlandırılmış ve Brandon Carter, Siddhartha Jain ve David Gifford tarafından CSAIL’de Amazon Web Services’ten Jonas Mueller ile işbirliği içinde yazılmıştır. Makale için kod https://github.com/gifford-lab/overinterpretation adresinde mevcuttur.
Verileri Kısaltma
Araştırmacılar tarafından kullanılan veri-stripped resimler, Yeterli Giriş Alt Kümeleri (SIS) olarak adlandırılmıştır – aslında, bir SIS resmi, bir bilgisayar görüşü sisteminin orijinal resmin konusunu (yani köpek, gemi vb.) tanımlamak için yeterli olan minimum “dış iskeleti” içerir.

In the above row, we see complete ImageNet validation images; below, the SIS subsets, correctly classified by an Inception V3 model with 90% confidence, based, apparently, on all that remains of the image – background context. Naturally, the final column has notable implications for signage recognition in self-driving vehicle algorithms.
Yukarıdaki resimdeki sonuçlar hakkında yorum yapan araştırmacılar:
‘SIS pikselleri, nesnenin真正 şeklini belirleyen nesnenin dışında yoğunlaşmıştır. Örneğin, “pizza” resminde, SIS pizza kendisi yerine plakanın şekli ve arka plan masa üzerinde yoğunlaşmıştır, bu da modelin farklı masa üzerindeki yuvarlak nesneleri tanımlamada kötü performans gösterebileceğini gösterir. “Dev panda” resminde, SIS bambu içerir, bu da bu sınıfın ImageNet fotoğraflarında ortaya çıkmış olabilir.
‘Trafik ışığı” ve “yol işareti” resimlerinde, SIS gökyüzünde bulunan piksellerden oluşur, bu da bu modelleri kullanan otonom araç sistemlerinin dikkatli bir şekilde değerlendirilmesi gerektiğini gösterir.’
SIS resimleri rastgele kısaltılmaz, ancak Inception V3 ve ResNet50 için PyTorch kullanarak Batched Gradient Backselect işlemi ile oluşturulur. Resimler, bir modelin bir resimi doğru bir şekilde sınıflandırma yeteneği ile orijinal verilerin kaldırılan alanları arasındaki ilişkiye dikkat ederek oluşturulur.
SIS’nin geçerliliğini doğrulamak için, araştırmacılar rasgele piksel kaldırma işlemini test ettiler ve sonuçların “anlamlı ölçüde daha az bilgilendirici” olduğunu buldular, bu da SIS resimlerinin gerçekten popüler modellerin ve veri kümelerinin kabul edilebilir tahminler yapması için gereken minimum veriyi temsil ettiğini gösteriyor.
Herhangi bir azaltılmış resme bir bakış, bu modellerin insan düzeyindeki görsel ayrım düzeyinde başarısız olacağını gösterir, bu da %20’den daha düşük bir median doğruluk oranıyla sonuçlanacaktır.

With SIS images reduced to just 5% of their original pixels, humans barely achieve a ‘greater than random’ classification success rate, vs. the 90-99% success rate of the popular datasets and frameworks studied in the paper.
Aşırı Uyumun Ötesinde
Aşırı uyum, bir makine öğrenimi modelinin bir veri kümesi üzerinde o kadar çok eğitim almasıyla ortaya çıkar ki, bu veri kümesi için öngörülerde uzmanlaşır, ancak yeni, eğitim sonrası tanıtılan verilere (dağılım dışı veriler) karşı çok az etkili veya tamamen etkisiz hale gelir.
Araştırmacılar, aşırı uyuma karşı savaşta güncel akademik ve endüstriyel ilgi, aşırı yorumlamayı aynı anda çözmez, çünkü bilgisayarlar için tanınabilir resimleri temsil eden parçalanmış piksel alt kümeleri, aslında “saplantılı” bir şekilde zayıf veya yoksul veri kümesine odaklanma değil, gerçekten uygulanabilir verilerdir:
‘Aşırı yorumlama, aşırı uyuma bağlıdır, ancak aşırı uyum, azaltılmış test doğruluğu aracılığıyla teşhis edilebilir. Aşırı yorumlama, veri kaynağı özelliklerinden (örneğin, dermatologların kuralları) ortaya çıkan altta yatan veri kümesi dağılımındaki gerçek istatistiksel sinyallerden kaynaklanabilir.
‘Bu nedenle, aşırı yorumlama daha zor teşhis edilebilir, çünkü kararlar istatistiksel olarak geçerli kriterlere dayanabilir ve bu kriterleri kullanan modeller benchmarklerde excelledebilir.’
Mümkün Çözümler
Yazarlar, model birleştirme yönteminin, birden fazla mimarinin değerlendirme ve eğitim sürecine katkıda bulunmasının, aşırı yorumlamayı hafifletmeye yardımcı olabileceğini öne sürüyorlar. Ayrıca, aşırı uyuma karşı diseñ edilen girdi atlamasının, CIFAR-10 test doğruluğunda küçük bir azalmaya, ancak görülmeyen verilerde önemli bir artışa (%6) yol açtığını buldular. Ancak, düşük rakamlar, aşırı uyuma karşı sonraki tedavilerin aşırı yorumlamayı tamamen ele almayacağını gösteriyor.
Yazarlar, hangi resim alanlarının özellik çıkarma için ilgili olduğunu gösteren önem haritalarını kullanma olasılığını kabul ediyor, ancak bu, otomatik resim ayrımının amacını boşa çıkarıyor ve insan注释u benötir, bu da büyük ölçekte uygulanamaz.
Yazarlar ayrıca, önem haritalarının model işlemlerine ilişkin içgörüler için yalnızca kaba tahminciler olduğunu gözlemlediler.
Makale şöyle sona eriyor:
‘Verilen bir resmin doğru bir şekilde sınıflandırılması için yeterli olan anlamsız piksel alt kümeleri varsa, bir model yalnızca bu kalıplara dayanabilir. Bu durumda, modelin davranışını doğru bir şekilde tanımlayan bir yorumlanabilirlik yöntemi, bu anlamsız nedenleri çıkarmalıdır, ancak insan ön yargılarına doğru nedenleri yönlendiren yorumlanabilirlik yöntemleri, kullanıcıların modellerinin amaçlandığı gibi davrandığını düşünmelerine neden olabilir.’
İlk olarak 13 Ocak 2022’de yayımlandı.












