Yapay Zekâ
ImageNet’in Tarihsel Doğruluğunu Değerlendirme

Google Research ve UC Berkeley’den yeni bir çalışma, bilgisayar görüşü (CV) araştırma sektörünün saygın ImageNet veri setine ve türevlerine olan bağımlılığını eleştirmeye ekliyor. Yoğun emek yoğun manuel değerlendirme sonrasında, yazarlar, en iyi modellerin ImageNet’in çok etiketli alt kümesinde (şu anda en iyi performans gösteren modellerin %97’den fazla 1. sıradaki doğruluğu elde ettiği) yaptıkları varsayılan hataların neredeyse %50’sinin aslında hata olmadığını kếtüller.
Araştırmadan:
‘Analizimiz, varsayılan hataların neredeyse yarısının aslında hata olmadığını, yeni geçerli çok etiketlerin ortaya çıkmasını sağlıyor ve dikkatli bir inceleme olmadan, bu modellerin performansını önemli ölçüde düşük tahmin ettiğimizi gösteriyor.
‘Öte yandan, günümüzün en iyi modellerinin hala明显 yanlış (insan inceleyicilere göre %40) bir dizi hata yaptığını da bulduk.’
Veri setlerinin, özellikle de beceriksiz kitle kaynaklı işçiler tarafından etiketlenmesinin, sektörü nasıl etkileyebileceği, çalışmanın ImageNet’in tarihindeki büyük bir bölümündeki görüntü/metin çiftlerinin değerlendirme yaklaşımıyla ortaya çıktı.

Üst satırda, Hata Şiddeti örnekleri: burada ilk iki örnekte, yeni model basitçe öngörülen etiketi yanlış alır; üçüncü örnekte, yeni model daha önce eksik olan bir çok etiketi (görüntünün yeni bir kategorizasyonunu ele alan bir etiketi) tanımlar; üst satırdaki son görüntüde, modelin tahmini belirsizdir, çünkü resim bir sinek-arı ve değil bir sinektir. Ancak ortalama bir arı, Diptera böcek takımına aittir, bu nedenle bu istisna, uzman bir annotatör için bile neredeyse imkansız olacaktır. Alt satırda dört hata kategorisi ve örnekleri vardır. Kaynak: https://arxiv.org/pdf/2205.04596.pdf
Araştırmacılar, ImageNet veri seti değerlendirmesindeki historical hata kayıtlarını dikkatlice incelemek için az sayıda adanmış değerlendirici kullandılar ve birçok hata yargısının kendisinin hatalı olduğunu buldular – bu, geçmiş yıllarda ImageNet benchmark’lerinde birçok projenin aldığı düşük puanları potentially değiştirebilecek bir keşif.
Görüntü işleme ve görüntü sentez araştırma sektörü, ImageNet’i bir benchmark ölçütü olarak etkili bir şekilde ‘otomatik olarak seçti’ – bu, kısmen, yüksek hacimli ve iyi etiketlenmiş veri setlerinin o zamanlar şimdi olduğundan daha nadir olduğu bir zamanda, birçok erken benimseyenin, ImageNet’e karşı test yapmanın yeni çerçeveler için geniş olarak uygulanabilir tek historical ‘standart’ haline geldiği için.
Teknik Borç
Bulunan veya yanlış bulunan ImageNet’deki kalan hatalar, 16 yıllık tarihinde, merkezi çalışma, bir modelin dağıtıma hazır olup olmadığını veya hata eğilimine sahip olup olmadığını belirleyebilir. Her zaman, son mil kritiktir.
Yöntem
ImageNet’deki ‘kalan hataları’ arayan araştırmacılar, bir ViT modeli (89.5% doğruluk elde edebilen) 3 milyar parametre ile, Vit-3B, JFT-3B üzerinde ön eğitti ve ImageNet-1K üzerinde fine-tune etti.
ImageNet2012_multilabel veri setini kullanarak, araştırmacılar ViT-3B’nin ilk çok etiketli doğruluğunu (MLA) %96,3 olarak kaydetti ve modelin 676 açık hata yaptığını buldu. Bu hatalar (ve ayrıca bir Greedy Soups modeli tarafından üretilen hatalar) yazarlar tarafından araştırıldı.
Kaliteli 676 hatayı değerlendirmek için, yazarlar, bu tür hataların ortalama annotatörler için zor olabileceğini gözlemleyerek, kitle işçilerinden kaçındılar ve her bir inceleyicinin öngörülen sınıfı, öngörülen puanı, temel gerçek etiketleri ve görüntüyü bir bakışta görebileceği bir araç oluşturmak için beş uzman inceleyici panosu topladılar.

Proje için oluşturulan UI.
Bazı durumlarda, panel arasındaki uyuşmazlıkları çözmek için daha fazla araştırma gerekliydi ve Google Resim araması yardımcı bir araç olarak kullanıldı.
‘[Bir] ilginç ancak izole olmayan durumda, bir taksinin öngörüsü (sadece sarı renk dışında açık bir taksi göstergesi olmayan) görüntüde mevcuttu; taksinin gerçekten bir taksi olduğunu, arka plandaki bir köprüyü tanımlayarak şehri lokalize etmek ve ardından o şehirdeki taksiler için bir görüntü araması yaparak, modelin aslında doğru öngörüsünü doğrulayarak belirledik.’
Araştırmaların çeşitli aşamalarındaki hataların ilk incelemesinden sonra, yazarlar dört yeni hata tipi formüle etti: ince öğütme hatası, öngörülen sınıf temel gerçek etikete benzer; ince öğütme ile sözlük dışı (OOV), model doğru olan ancak ImageNet’te bulunmayan bir nesne tanımlar; sahte korelasyon, öngörülen etiket görüntünün bağlamından okunur; ve non-prototip, temel gerçek nesne, öngörülen etikete benzeyen sınıfın şüpheli bir örneğidir.
Bazı durumlarda, temel gerçek itself ‘gerçek’ değildi:
‘Orijinal 676 hatayı (ImageNet’te bulunan) gözden geçirdikten sonra, 298’inin ya doğru ya da belirsiz olduğunu veya orijinal temel gerçeğin yanlış veya sorunlu olduğunu belirledik.’
Çeşitli veri setleri, alt kümeler ve doğrulama kümeleri boyunca kapsamlı ve karmaşık bir dizi deneyden sonra, yazarlar, incelenen iki modelin aslında geleneksel tekniklerle yaptıkları ‘hataların’ yarısı için doğru olduklarını buldular.
Makale şöyle sona erer:
‘Bu makalede, ViT-3B ve Greedy Soups modellerinin ImageNet çok etiketli doğrulama kümesinde yaptıkları kalan her hatayı analiz ettik.
‘Genel olarak, şunları bulduk: 1) büyük, yüksek doğruluklu bir model yeni, diğer modeller tarafından yapılmayan bir öngörüyü yaptığında, bu neredeyse her zaman doğru bir yeni çok etikettir; 2) daha yüksek doğruluklu modeller, hataları çözdükleri desen veya ciddiyetlerde açık bir model göstermez; 3) günümüzün en iyi modelleri, büyük ölçüde, insan tarafından değerlendirilen çok etiketli alt kümede en iyi uzman insanın performansını eşleştirmekte veya aşmaktadır; 4) gürültülü eğitim verileri ve belirsiz sınıflar, görüntü sınıflandırmasındaki gelişmelerin etkin ölçümünü sınırlayabilir.’
İlk olarak 15 Mayıs 2022’de yayımlandı.












