Anderson'ın Açısı
Görüntü Gerçekçiliğini Değerlendirmek İçin Yapay Zeka Halüsinasyonlarının Kullanılması

Rusya'dan yeni bir araştırma, büyük görsel dil modelleri (LVLM'ler) doğruluğunu artırarak değil, kasıtlı olarak bunların avantajlarından yararlanarak gerçekçi olmayan yapay zeka tarafından oluşturulan görüntüleri tespit etmek için alışılmadık bir yöntem öneriyor. halüsinasyon eğilimi.
Yeni yaklaşım, LVLM'leri kullanarak bir görüntü hakkında birden fazla 'atomik gerçek' çıkarır ve ardından uygular doğal dil çıkarımı (NLI) bu ifadeler arasındaki çelişkileri sistematik olarak ölçmek için kullanıldı; böylece modelin kusurları, sağduyuya aykırı görüntüleri tespit etmek için bir teşhis aracına dönüştürüldü.

WHOOPS! veri kümesinden iki görüntü ve LVLM modeli tarafından otomatik olarak oluşturulan ifadeler. Soldaki görüntü gerçekçidir ve tutarlı açıklamalara yol açarken, alışılmadık sağdaki görüntü modelin halüsinasyon görmesine neden olur ve çelişkili veya yanlış ifadeler üretir. Kaynak: https://arxiv.org/pdf/2503.15948
İkinci görüntünün gerçekçiliğini değerlendirmesi istendiğinde, LVLM şunu görebilir: bir şey yanlıştır, çünkü tasvir edilen devenin üç hörgücü vardır, bu da doğada bilinmeyen.
Ancak LVLM başlangıçta şunları karıştırıyor: >2 hörgüç ile >2 hayvan, çünkü tek bir 'deve resminde' üç hörgüç görmenin tek yolu budur. Ardından, üç hörgüçten (yani 'iki kafa') daha da olası olmayan bir şey hayal etmeye başlar ve şüphelerini tetiklemiş gibi görünen şeyin -olası olmayan ekstra hörgüç- ayrıntılarını asla vermez.
Yeni çalışmanın araştırmacıları, LVLM modellerinin bu tür değerlendirmeleri doğal olarak ve daha önce yapılmış modellerle aynı seviyede (veya daha iyi) gerçekleştirebileceğini buldular. ince ayar bu tür bir görev için. İnce ayar karmaşık, pahalı ve aşağı akış uygulanabilirliği açısından oldukça kırılgan olduğundan, bunlardan birinin yerel bir kullanımının keşfi en büyük engeller Günümüzdeki yapay zeka devrimi, literatürdeki genel eğilimlere yenilikçi bir bakış açısı getiriyor.
Açık Değerlendirme
Yazarlar, yaklaşımın öneminin, şu şekilde uygulanabilmesi olduğunu ileri sürüyorlar: açık kaynak Çerçeveler. ChatGPT gibi gelişmiş ve yüksek yatırım gerektiren bir model (makalenin de kabul ettiği gibi) bu görevde potansiyel olarak daha iyi sonuçlar sunabilirken, literatürün çoğumuz (ve özellikle de amatörler ve görsel efekt toplulukları) için tartışmasız gerçek değeri, yerel uygulamalara yeni atılımlar entegre etme ve geliştirme olanağıdır; buna karşılık, tescilli ticari bir API sistemine yönelik her şey, kullanıcının ihtiyaç ve sorumluluklarından ziyade bir şirketin kurumsal kaygılarını yansıtma olasılığı daha yüksek olan geri çekilmelere, keyfi fiyat artışlarına ve sansür politikalarına tabidir.
MKS yeni kağıt başlıklı Halüsinasyonlarla Savaşmayın, Onları Kullanın: Atomik Gerçekler Üzerinde NLI Kullanarak Görüntü Gerçekçiliğini Tahmin Etmeve Skolkovo Bilim ve Teknoloji Enstitüsü (Skoltech), Moskova Fizik ve Teknoloji Enstitüsü ve Rus şirketleri MTS AI ve AIRI'deki beş araştırmacıdan geliyor. Çalışmanın bir eşlik eden GitHub sayfası.
Yöntem
Yazarlar İsrail/ABD'yi kullanıyor WHOOPS! Veri seti proje için:

WHOOPS! Veri Kümesinden imkansız görüntü örnekleri. Bu görüntülerin nasıl olası unsurları bir araya getirdiği ve olasılık dışılıklarının bu uyumsuz yönlerin birleştirilmesine dayanarak hesaplanması gerektiği dikkat çekicidir. Kaynak: https://whoops-benchmark.github.io/
Veri seti, yapay zeka modellerinin sağduyulu akıl yürütme ve kompozisyon anlayışını test etmek için özel olarak tasarlanmış 500 sentetik görüntü ve 10,874'ten fazla açıklamadan oluşmaktadır. Metin-görüntü sistemleri aracılığıyla zorlu görseller üretmekle görevli tasarımcılarla iş birliği içinde oluşturulmuştur. yolculuk ve DALL-E serisi – doğal olarak yakalanması zor veya imkansız senaryolar üretiyor:

WHOOPS! veri setinden daha fazla örnek. Kaynak: https://huggingface.co/datasets/nlphuji/whoops
Yeni yaklaşım üç aşamada çalışır: ilk olarak LVLM (özellikle LLaVA-v1.6-mistral-7b) bir görüntüyü tanımlayan 'atomik gerçekler' adı verilen birden fazla basit ifade üretmesi istenir. Bu ifadeler, Çeşitli Işın AramaÇıktılarda değişkenliğin sağlanması.

Çeşitli Işın Arama, çeşitliliği artıran bir hedef için optimizasyon yaparak daha iyi çeşitlilikte başlık seçenekleri üretir. Kaynak: https://arxiv.org/pdf/1610.02424
Daha sonra, üretilen her ifade, Doğal Dil Çıkarımı modeli kullanılarak sistematik olarak diğer ifadelerle karşılaştırılır; bu model, ifade çiftlerinin birbirini içerip içermediğini, çelişip çelişmediğini veya birbirine karşı tarafsız olup olmadığını yansıtan puanlar atar.
Çelişkiler, görüntüdeki halüsinasyonları veya gerçek dışı unsurları gösterir:

Algılama hattı şeması.
Son olarak, yöntem bu çiftler halindeki NLI puanlarını, üretilen ifadelerin genel tutarlılığını nicelleştiren tek bir 'gerçeklik puanı'nda toplar.
Araştırmacılar, kümeleme tabanlı bir yaklaşımın en iyi performansı gösterdiği farklı toplama yöntemlerini araştırdı. Yazarlar, k-kümeleme anlamına gelir bireysel NLI puanlarını iki kümeye ayıran algoritma ve ağırlık merkezi Daha sonra daha düşük değerli kümenin değeri son metrik olarak seçildi.
İki küme kullanmak, sınıflandırma görevinin ikili doğasıyla doğrudan uyumludur, yani gerçekçi görüntüleri gerçekçi olmayanlardan ayırt eder. Mantık, genel olarak en düşük puanı seçmeye benzer; ancak kümeleme, metriğin tek bir gerçekliğe güvenmek yerine, birden fazla olgudaki ortalama çelişkiyi temsil etmesine olanak tanır aykırı.
Veriler ve Testler
Araştırmacılar, dönen bir sistem kullanarak sistemlerini WHOOPS! temel ölçütünde test ettiler. test bölümleri (Yani, çapraz doğrulama). Test edilen modeller BLIP2 Flanel T5-XL ve BLIP2 Flanel T5-XXL bölünmüş antrenmanlarda ve BLIP2 FlanT5-XXL sıfır atış formatında (yani ek antrenman olmaksızın).
Talimatları izleyen bir temel çizgi için yazarlar LVLM'leri şu ifadeyle harekete geçirdiler: 'Bu alışılmadık bir durum mu? Lütfen kısa bir cümleyle kısaca açıklayın.', Hangi önceki araştırma Gerçekçi olmayan görüntüleri tespit etmede etkili olduğu bulundu.
Değerlendirilen modeller LLaVA 1.6 Mistral 7B, LLaVA 1.6 Vikunya 13Bve iki boyut (7/13 milyar parametre) TalimatBLIP.
Test prosedürü, gerçekçi ve gerçekçi olmayan ('tuhaf') 102 çift görüntüye odaklandı. Her çift, bir normal görüntü ve bir de sağduyuya aykırı bir görüntüden oluşuyordu.
Üç insan yorumcu, görselleri etiketleyerek %92'lik bir fikir birliğine ulaştı ve bu da "tuhaflık" kavramının ne olduğu konusunda güçlü bir insan mutabakatının olduğunu gösterdi. Değerlendirme yöntemlerinin doğruluğu, gerçekçi ve gerçekçi olmayan görseller arasında doğru bir ayrım yapabilme becerileriyle ölçüldü.
Sistem, sabit bir başlangıç noktasına sahip verilerin rastgele karıştırıldığı üçlü çapraz doğrulama kullanılarak değerlendirildi. Yazarlar, eğitim sırasında çıkarım puanları (mantıksal olarak uyumlu ifadeler) ve çelişki puanları (mantıksal olarak çelişen ifadeler) için ağırlıkları ayarlarken, "nötr" puanlar sıfırda sabitlendi. Nihai doğruluk, tüm test bölümlerinin ortalaması olarak hesaplandı.

Doğrulukla ölçülen beş üretilen olgunun bir alt kümesi üzerinde farklı NLI modelleri ve toplama yöntemlerinin karşılaştırılması.
Yukarıda gösterilen ilk sonuçlarla ilgili olarak makalede şunlar belirtiliyor:
'['Kümeleme'] yöntemi en iyi performans gösterenlerden biri olarak öne çıkıyor. Bu, yalnızca uç değerlere odaklanmak yerine, tüm çelişki puanlarının toplanmasının hayati önem taşıdığı anlamına geliyor. Ayrıca, en büyük NLI modeli (nli-deberta-v3-large), tüm toplama yöntemleri için diğerlerinin hepsinden daha iyi performans göstererek, sorunun özünü daha etkili bir şekilde yakaladığını gösteriyor.'
Yazarlar, en uygun ağırlıkların tutarlı bir şekilde çelişkiyi gerektirmeye tercih ettiğini buldular, bu da çelişkilerin gerçekçi olmayan görüntüleri ayırt etmek için daha bilgilendirici olduğunu gösteriyor. Yöntemleri, test edilen diğer tüm sıfır atış yöntemlerinden daha iyi performans gösterdi ve ince ayarlı BLIP2 modelinin performansına yaklaştı:

WHOOPS! kıyaslamasında çeşitli yaklaşımların performansı. İnce ayarlı (ft) yöntemler en üstte görünürken, sıfır atışlı (zs) yöntemler altta listelenmiştir. Model boyutu parametre sayısını belirtir ve doğruluk değerlendirme metriği olarak kullanılır.
Ayrıca, beklenmedik bir şekilde, InstructBLIP'in aynı uyarı verildiğinde benzer LLaVA modellerinden daha iyi performans gösterdiğini de belirttiler. GPT-4o'nun üstün doğruluğunu kabul eden makale, yazarların pratik ve açık kaynaklı çözümler sunma tercihlerini vurguluyor ve halüsinasyonları bir tanı aracı olarak açıkça kullanmada haklı olarak yenilikçi olduklarını iddia edebilirler.
Sonuç
Ancak yazarlar, projelerinin 2024'e olan borcunu kabul ediyorlar. İnançPuanı Dallas Teksas Üniversitesi ve Johns Hopkins Üniversitesi işbirliğiyle düzenlenen bir gezi.

FaithScore değerlendirmesinin nasıl çalıştığına dair bir örnek. İlk olarak, LVLM tarafından oluşturulan bir yanıt içindeki tanımlayıcı ifadeler belirlenir. Daha sonra, bu ifadeler ayrı atomik gerçeklere ayrılır. Son olarak, atomik gerçekler doğruluklarını doğrulamak için giriş görüntüsüyle karşılaştırılır. Altı çizili metin nesnel tanımlayıcı içeriği vurgularken, mavi metin halüsinasyonlu ifadeleri belirtir ve FaithScore'un yorumlanabilir bir olgusal doğruluk ölçüsü sunmasını sağlar. Kaynak: https://arxiv.org/pdf/2311.01477
FaithScore, LVLM tarafından oluşturulan açıklamaların doğruluğunu, görüntü içeriğine göre tutarlılığı doğrulayarak ölçerken, yeni makalenin yöntemleri, Doğal Dil Çıkarımı kullanılarak oluşturulan gerçeklerdeki çelişkiler yoluyla gerçekçi olmayan görüntüleri tespit etmek için LVLM halüsinasyonlarından açıkça yararlanıyor.
Yeni çalışma, doğal olarak, mevcut dil modellerinin eksantrikliklerine ve halüsinasyona yatkınlıklarına bağlıdır. Model geliştirme, tamamen halüsinasyon görmeyen bir model ortaya çıkarırsa, yeni çalışmanın genel prensipleri bile artık uygulanabilir olmayacaktır. Ancak, bu bir zorlu ihtimal.
İlk yayın tarihi Salı, 25 Mart 2025












