Anderson’un Açısı

‘Daha Fazla Etiket İndir!’ AI Araştırmalarında Sanal Görüntü

Published April 23, 2025

Updated April 26, 2026

Martin Anderson

ChatGPT-4o: 'A wall on which hundreds of photographs are stuck with thumb-tacks. Each photo depicts a different kind of subject, such as fruit or animals or bridges or buildings or people, etc. Each photo has 2-3 yellow post-it notes attached to it. We are too far away to read anything written on the post-it notes, but we can see that there are dozens and dozens of photos on the wall, and each with several post-it notes tacked on.'

Mevcut makine öğrenimi araştırmalarında ortak bir görüş, makine öğreniminin itselfin AI veri seti açıklamalarının kalitesini iyileştirmek için kullanılabileceği yönündedir – özellikle görüntü dilleri modelleri (VLMs) için kullanılmak üzere tasarlanan görüntü altyazıları. Bu düşünce tarzı, insan açıklamasının yüksek maliyeti ve annotatör performansı üzerindeki denetimi tarafından yönlendirilir.

Bu, argüman olarak, AI’nin erken 2000’ler ‘daha fazla RAM indir’ mizahının eşdeğeridir, donanımsal bir kısıtlamanın yazılım tabanlı bir düzeltme ile çözülebileceği fikrini alaycı bir şekilde ele alır.

Ayrıca bu, göz ardı edilen bir sorun; yeni AI modelleri kamu ve ticari alanlarda geniş bir ilgi görürken, açıklama genellikle makine öğrenimi boru hatlarında küçük bir ayrıntı olarak görünür ve daha geniş çerçeveler etrafındaki heyecan tarafından gölgede kalır.

Gerçekte, makine öğrenimi sistemlerinin desenleri tanımak ve yeniden üretmek kapasitesi (neredeyse tüm AI sistemlerinin merkezi kullanım durumu) gerçek dünya açıklamalarının kalitesi ve tutarlılığına bağlıdır – gerçek insanlar tarafından oluşturulan veya yargılanan etiketler ve ifadeler, genellikle ideal olmayan koşullarda bireysel veri noktaları hakkında subjektif yargılar yapar.

Kaçınılmaz olarak, annotatör davranışındaki desenleri gözlemlemek ve yeniden üretmek isteyen sistemler (ve böylece insan annotatörlerini değiştirmek ve doğru etiketlemeyi ölçeklenebilir bir şekilde kolaylaştırmak), insan gözlemcilerinden alınan örneklerde yer almayan verilere iyi performans gösteremez. Hiçbir şey ‘benzer’ değildir ve çapraz alan eşdeğeri, bilgisayar görüşünde sorunlu bir takip olmaya devam eder.

‘Yukarı akım veri parası’ bir yerde durmak zorunda ve bu durumda, tam olarak orada durur – bir insan serebellumunun bazı şekilde subjektif bir ayrım yapması ve yapay bir sistem için verileri kodlamak için.

RAG Ticaret

Son zamanlara kadar, недостаточно küratörlü veri seti açıklamalarından kaynaklanan yanlışlıklar, belki de, üretilen AI sistemlerinin henüz pazarlanabilir olan eksik ancak vẫn pazarlanabilir sonuçlarının bağlamında kabul edilebilir yan hasar olarak görülüyordu.

Gerçekten de, bu yıl Singapur’dan bir çalışma sonuçlandırdı ki, halüsinasyonlar – yani AI sistemlerinin niyetlerimizi zayıflatan şeyler uydurduğu zamanlar – kaçınılmaz ve böyle sistemlerin kavramsal mimarisine bağlı.

Buna karşı koymak için, RAG tabanlı ajanlar – internet aramaları yoluyla ‘gerçekleri doğrulayabilen’ – araştırma ve uygulamalı ticari çözümlerde popüler hale geliyor. Ancak, bunlar kaynak maliyetini ve sorgu gecikmesini artırıyor; ayrıca, eğitimli bir modele uygulanmış yeni bilgiler, eğitimli modelin yerel katmanlarındaki daha karmaşık ve derinlemesine bağlantılı bağlantılar ile rekabet edemez.

Dolayısıyla, bu modellere bilgi veren açıklama verilerinin ilk etapta önemli ölçüde daha az hatalı olması daha iyi olur, mükemmel olmasa da (en azından bu faaliyet, insan subjektifliğine girer).

RePOPE

Almanya’dan yeni bir makale, özellikle de görüntü altyazılarının doğruluğu ve güvenilirliği üzerine odaklanarak, daha eski ve yaygın olarak kullanılan veri setlerine güvenilemeyeceği sorununu vurguluyor. Araştırmacıların bulguları, etiket hatalarının görsel dil modellerinde halüsinasyonu gizleyebileceğini veya yanlış temsil edebileceğini gösteriyor.

Yeni makaleden, orijinal altyazıların resimdeki nesneleri doğru şekilde tanımlayamadığı bazı örnekler. Araştırmacıların POPE benchmark veri setinin el ile revizyonu bu eksiklikleri gideriyor ve açıklama küratörlüğü üzerinde para tasarrufunun maliyetini gösteriyor. Kaynak: https://arxiv.org/pdf/2504.15707

Bir model bir sokak sahnesi resmi gösterildiğinde ve resimde bir bisiklet olup olmadığı sorulduğunda, model evet der. Eğer benchmark veri seti bisiklet olmadığını söylerse, model yanlış olarak işaretlenir. Ancak resimde açıkça görünen bir bisiklet varsa ve açıklama sırasında kaçırılmışsa, modelün cevabı doğruydu ve benchmark hatalıdır. Bu tür hatalar tüm veri seti boyunca birikerek, hangi modellerin doğru ve hangi modellerin halüsinasyonlara eğilimli olduğu hakkında yanlış bir resim verir.

Bu nedenle, yanlış veya belirsiz açıklamalar ground truth olarak ele alındığında, modeller halüsinasyon olarak görünebilir veya doğru görünür, hem halüsinasyon ölçümünü hem de model performansı sıralamasını bozarak, sorunu kesin olarak teşhis etmek veya ele almak daha zor hale gelir.

Yeni makale, Polling-based Object Probing Evaluation (POPE) olarak bilinen yaygın olarak kullanılan bir benchmark’u yeniden ziyaret ediyor, bu, görsel dil modellerinin bir resimde belirli nesnelerin varlığını veya yokluğunu doğru şekilde söyleyip söyleyemediğini test ediyor.

POPE, Microsoft COCO: Common Objects in Context (MSCOCO) veri setinden alınan etiketlere dayanmaktadır, bu veri seti uzun süredir iyi düzeyde açıklama doğruluğu sunmaktadır.

POPE, büyük görsel dil modellerinde nesne halüsinasyonunu ikili sınıflandırma görevi olarak yeniden çerçeveleyerek değerlendirir. Üretilen altyazıları analiz etmek yerine, sistem modelde belirli nesnelerin resimde olup olmadığını sorgular, “Resimde bir gibi şablonlar kullanır.

Görsel dil modellerinde nesne halüsinasyonu örnekleri. Kalın etiketler orijinal açıklamalarda mevcut olarak işaretlenen nesneleri gösterir, kırmızı etiketler ise modeller tarafından hayal edilen nesneleri gösterir. Sol örnek geleneksel talimat tabanlı değerlendirmeyi yansıtır, sağdaki üç örnek ise farklı POPE benchmark varyantlarından alınmıştır. Kaynak: https://aclanthology.org/2023.emnlp-main.20.pdf

Ground truth nesneleri (cevap: Evet) örneklenmemiş nesnelerle (cevap: Hayır) eşleştirilir, bunlar rastgele, sık (popüler) veya birlikte oluşma tabanlı (saldiri) stratejilerle seçilir. Bu kurulum, karmaşık kurallı altyazı analizine güvenmeden halüsinasyonun daha稳il ve.prompt-duyarlı bir şekilde değerlendirilmesine olanak tanır.

Yeni makalenin yazarları – RePOPE: POPE Benchmark’indeki Açıklama Hatalarının Etkisi başlıklı – POPE’nin varsayılan doğruluğunu, resimlerin etiketlerini (yani MSCOCO) yeniden kontrol ederek ve bunların şaşırtıcı bir kısmının yanlış veya belirsiz olduğunu bularak sorguluyorlar.

2014 MSCOCO veri setinden örnekler. Kaynak: https://arxiv.org/pdf/1405.0312

Bu hatalar model sıralamalarını değiştirir, ilk olarak iyi performans gösteren bazı modeller, düzeltilmiş etiketlere göre değerlendirildiğinde geriye düşer.

Testlerde, yazarlar POPE ve düzeltilmiş RePOPE sürümünde çeşitli açık ağırlıklı görsel dil modellerini değerlendirdiler.

Makaleye göre, düzeltilmiş açıklamalar model sıralamalarında önemli değişikliklere yol açtı, özellikle F1 puanlarında, POPE’de iyi performans gösteren beberapa model RePOPE altında konumlarını düşürdü.

Yazarlar, bu değişikliğin, etiket hatalarının modellerin gerçek halüsinasyon davranışını nasıl gizleyebileceğini gösterdiğini ve RePOPE’yi halüsinasyon duyarlılığını değerlendirmek için daha güvenilir bir araç olarak sunduklarını savunuyorlar.

Yeni makaleden, orijinal POPE altyazılarının ince nesneleri, örneğin bir tramvayın kabini yanında oturan bir kişi veya ikinci soldaki fotoğraftaki tenis oyuncusunun arkasında gizlenen sandalyeyi algılayamadığı başka bir örnek.

Yöntem ve Testler

Araştırmacılar, orijinal MSCOCO veri setindeki tüm açıklamaları yeniden etiketledi, her veri örneğine iki insan etiketleyici atandı. Orijinal etiketlerin kalitesi konusunda belirsizlik ortaya çıktığında (aşağıdaki örneklerde olduğu gibi), bu sonuçlar test turundan ayrıldı.

Belirsiz durumlar, POPE’deki etiket tutarsızlıkları, açık kategori sınırlarını yansıtır. Örneğin, bir ayı olarak etiketlenen bir ayı, bir bisiklet olarak etiketlenen bir motosiklet veya arabalar olarak etiketlenen havaalanı araçları. Bu durumlar, subjektif doğası ve MSCOCO’nun orijinal etiketlerinin tutarsızlıkları nedeniyle RePOPE’den çıkarılır.

Makalede denir:

‘Orijinal annotatörler, arka planda veya camın arkasında bulunan kişileri kaçırdı, tenis oyuncusu arka plandaki ‘sandalyeleri’ gizledi ve lahana salatası sadece havuçtan küçük bir şerit içeriyordu. ‘

‘Bazı nesneler için, COCO açıklamaları muhtemelen orijinal annotatörlerin kullandığı nesne tanımlarındaki farklılıklar nedeniyle tutarlı değildir. Bir ‘ayı’yı bir ‘ayı’ olarak, bir motosikleti bir ‘bisiklet’ olarak veya bir havaalanı aracını bir ‘araba’ olarak sınıflandırmak, belirli tanımlara bağlıdır, bu da POPE ground truth açıklamalarında tutarsızlıklara yol açar. Bu nedenle, ilgili görüntü-soru çiftlerini ‘belirsiz’ olarak etiketliyoruz.’

Yeniden etiketlemenin sonuçları: pozitif sorular tüm üç POPE varyantı boyunca paylaşılmaktadır. POPE’de ‘Evet’ olarak etiketlenenler arasında %9,3’ü yanlış ve %13,8’i belirsiz olarak bulundu. ‘Hayır’ soruları için, %1,7’si yanlış etiketlendi ve %4,3’ü belirsizdi.

Araştırmacılar, çeşitli açık ağırlıklı modelleri POPE ve RePOPE’de, çeşitli mimariler ve model boyutları boyunca değerlendirdiler. Seçilen modeller, OpenVLM lider tahtası üzerindeki bazı önde gelen mimarileri içeriyordu: InternVL2.5 (8B/26B/38B/78B ve 8B-MPO/26B-MPO); LLaVA-NeXT; Vicuna; Mistral 7b; Llama; LLaVA-OneVision; Ovis2 (1B/2B/4B/8B); PaliGemma-3B; ve PaliGemma2 (3B/10B).

İlk sonuçlar: orijinal pozitif etiketlerdeki yüksek hata oranı, tüm modellerde gerçek pozitiflerde keskin bir düşüşe yol açar. Yanlış pozitifler alt kümeler arasında değişir, rastgele alt kümede neredeyse iki katına çıkar, popüler alt kümede büyük ölçüde değişmez ve saldırgan alt kümede hafif bir azalma gösterir. Etiketlerin yeniden etiketlenmesi, F1 tabanlı sıralamalarda önemli bir etkiye sahiptir. POPE’de popüler ve saldırgan bölümlerde iyi performans gösteren Ovis2-4B ve Ovis2-8B gibi modeller, RePOPE altında rastgele alt kümede de üst sıralara çıkar. Kaynak: Lütfen daha iyi bir çözünürlük için kaynak PDF’ye başvurun.

Sonuç grafikleri, etiketlerin düzeltilmesinden sonra doğru pozitif ve yanlış pozitif sayılarının nasıl değiştiğini gösterir.

Doğru pozitifler tüm modellerde düştü, modellerin genellikle yanlış etiketlere dayalı olarak doğru cevaplar için kredi aldıklarını gösteriyor, yanlış pozitifler ise daha çeşitli bir modele sahipti.

POPE’nin ‘rastgele’ sürümünde, birçok model için yanlış pozitifler neredeyse iki katına çıktı, bu da aslında resimlerde bulunan ancak orijinal açıklamalarda kaçırılmış bir dizi nesnenin olduğunu gösteriyor. Bu durumda, birçok varsayılan model hatası aslında veri seti etiketleme hatalarıydı.

POPE’nin ‘saldırgan’ sürümünde, sorular sıklıkla birlikte oluşan nesnelere dayanıyordu, burada yanlış pozitifler azaldı. Bu, aslında absence olarak işaretlenen nesnenin resimde gerçekten bulunması ve sadece etiketlenmemesi olasılığının daha yüksek olduğunu yansıtabilir.

Bu değişiklikler, duyarlılık ve özgüllüğü etkiledi, ancak model sıralamaları her iki ölçüt için nispeten istikrarlı kaldı.

F1 puanı – POPE’nin ana değerlendirme ölçütü – etiket düzeltmelerine karşı çok daha duyarlıydı. Rastgele alt kümede, orijinal etiketlere göre üst sıralarda yer alan modeller, RePOPE ile puanlandığında alt sıralara düştü. Diğerleri, zoals Ovis2-4B ve -8B, üst sıralara yükseldi.

Benzer bir model, doğruluk puanlarında ortaya çıktı, ancak yazarlar bu puanların şimdi düzeltilmiş veri setindeki pozitif ve negatif örneklerin dengesiz dağılımı nedeniyle önyargılı olabileceğini belirtiyorlar.

Yazarlar, etiket hatalarının benchmark sonuçları üzerindeki güçlü etkisinin, yüksek kaliteli veri ihtiyacını vurguladığını savunuyor. Nesne halüsinasyonunun daha güvenilir bir şekilde değerlendirilmesi için, düzeltilmiş etiketleri GitHub’da yayınladılar.

Ancak, bu yeniden etiketlemenin benchmark’un doygunluğunu tamamen gidermediğini, birçok modelin hala gerçek pozitif ve gerçek negatif oranlarını %90’ın üzerinde gerçekleştirdiğini not ediyorlar. Ek benchmark’lar, örneğin DASH-B, daha zorlu negatif örnekler kullandıkları için RePOPE ile birlikte kullanılmalıdır.

Sonuç

Bu özel deney, veri setinin çok küçük ölçekli olması nedeniyle mümkün oldu. Aynı hipotezi hiperskala veri setlerinde kanıtlamak, veri setinin çok sınırlı parçaları üzerinde çalışmayı gerektirecektir; yüksek çeşitlilik gösteren büyük veri setlerinde, istatistiksel olarak temsil edici ve anlamsal olarak tutarlı gruplar oluşturmak neredeyse imkansız olabilir – bu da sonuçları yanlılıktır.

Bununla birlikte, mevcut durumun state-of-the-art’ı altında ne tür bir çözüm olabilir? Argüman, kaçınılmaz olarak daha iyi ve daha bol insan açıklamasına duyulan ihtiyaca geri döner.

Bu bağlamda, ‘daha iyi’ ve ‘daha bol’ kendi başlarına ayrı sorunlardır, çünkü daha fazla açıklama, Amazon Mechanical Turk (AMT) gibi düşük ücretli ekonomileri aracılığıyla elde edilebilir. Ancak bu, potansiyel olarak sömürücü bir alt ekonomidir ve thường daha düşük kaliteli sonuçlar verir.

Alternatif olarak, açıklama görevlerini, aynı harcama ile daha fazla açıklama elde edilebilecek ekonomik bölgelere dış kaynak sağlayabilirsiniz. Ancak, annotatör modelin etiketlerinin şekillendireceği kullanım durumundan ne kadar uzaklaşırsa, ortaya çıkan modelin hedef domaine ihtiyaçlarına veya beklentilerine uyumlu olma olasılığı o kadar azalır.

Bu, makine öğrenimi geliştirme ekonomisinin en kalıcı ve çözülmemiş zorluklarından biri olmaya devam ediyor.

İlk yayınlanma: Çarşamba, 23 Nisan 2025

Martin Anderson

Makine öğrenimi üzerine yazar, insan görüntü sentezinde alan uzmanı. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel site: martinanderson.ai
İletişim: [email protected]

Unite.AI

‘Daha Fazla Etiket İndir!’ AI Araştırmalarında Sanal Görüntü

RAG Ticaret

RePOPE

Yöntem ve Testler

Sonuç

You may like