saplama Derin Öğrenme Modelleri, Yapay Zeka Tarafından Oluşturulan Görüntüleri Tanımakta Zorlanabilir - Unite.AI
Bizimle iletişime geçin

Yapay Zeka

Derin Öğrenme Modelleri, Yapay Zeka Tarafından Oluşturulan Görüntüleri Tanımakta Zorlanabilir

mm
Güncellenmiş on

Yeni bir makaleden elde edilen bulgular, son teknoloji ürünü yapay zekanın, yapay zeka tarafından sentezlenen görüntüleri insanlardan önemli ölçüde daha az tanıyabildiğini ve yorumlayabildiğini göstermektedir; bu, makine öğrenimi modellerinin sentetik veriler üzerinde giderek daha fazla eğitildiği yaklaşan bir ortamda endişe verici olabilir. ve verilerin 'gerçek' olup olmadığının mutlaka bilinmeyeceği yerler.

Burada 'simit' kategorisinde mücadele eden resnext101_32x8d_wsl tahmin modelini görüyoruz. Testlerde, temel hedef kelime (bu durumda 'simit') tahmin edilen ilk beş sonuçta yer almıyorsa, bir tanıma hatasının meydana geldiği kabul edildi. Kaynak: https://arxiv.org/pdf/2208.10760.pdf

Burada 'simit' kategorisinde mücadele eden resnext101_32x8d_wsl tahmin modelini görüyoruz. Testlerde, temel hedef kelime (bu durumda 'simit') tahmin edilen ilk beş sonuçta yer almıyorsa, bir tanıma hatasının meydana geldiği kabul edildi. Kaynak: https://arxiv.org/pdf/2208.10760.pdf

Yeni araştırma, bilgisayar görüşü tabanlı tanıma çerçevesinin iki kategorisini test etti: nesne tanıma ve görsel soru yanıtlama (MYK).

Solda, bir nesne tanıma sisteminden çıkarım başarıları ve başarısızlıkları; sağda, yapay zekanın sahnelere ve görüntülere ilişkin anlayışını daha keşfedici ve anlamlı bir şekilde araştırmak için tasarlanmış MYK görevleri. Kaynaklar: https://arxiv.org/pdf/2105.05312.pdf ve https://arxiv.org/pdf/1505.00468.pdf

Solda, bir nesne tanıma sisteminden çıkarım başarıları ve başarısızlıkları; sağda, yapay zekanın sahnelere ve görüntülere ilişkin anlayışını daha keşfedici ve anlamlı bir şekilde araştırmak için tasarlanmış MYK görevleri. Kaynaklar: https://arxiv.org/pdf/2105.05312.pdf ve https://arxiv.org/pdf/1505.00468.pdf

Görüntü sentezi çerçeveleri tarafından oluşturulan derlenmiş veri kümelerinde test edilen on son teknoloji modelden DALL-E2 ve yolculuk, en iyi performans gösteren model, iki test türünde yalnızca %60 ve %80 ilk 5 doğruluk elde edebildi. ImageNeSentetik olmayan, gerçek dünya verileriyle eğitilen t, aynı kategorilerde sırasıyla %91 ve %99'a ulaşabilirken, insan performansı tipik olarak oldukça yüksektir.

Etrafındaki sorunları ele almak dağıtım kayması (Tahmin modellerinin eğitim verilerinden 'gerçek' verilere taşındığında tahmin kapasitesinin azaldığı 'Model Sapması' olarak da bilinir), kağıt şunları belirtir:

İnsanlar oluşturulan görüntüleri tanıyabiliyor ve bunlarla ilgili soruları kolayca yanıtlayabiliyor. a) derin modellerin oluşturulan içeriği anlamakta zorlandığı ve ince ayardan sonra daha iyi iş çıkarabileceği ve b) oluşturulan görüntüler ile gerçek fotoğraflar arasında büyük bir dağılım kayması olduğu sonucuna vardık. Dağılım kayması kategoriye bağlı gibi görünüyor.'

Geçen haftaki olayların ardından interneti dolduran sentetik görüntülerin hacmi göz önüne alındığında sansasyonel açık kaynak güçlülerin Kararlı Difüzyon gizli difüzyon sentez modeli, doğal olarak 'sahte' görüntülerin aşağıdakiler gibi endüstri standardı veri setlerine akması olasılığı ortaya çıkar: Ortak Tarama, yıllar içinde doğruluktaki farklılıklar 'gerçek dışı' görüntülerden önemli ölçüde etkilenebilir.

Her ne kadar sentetik veriler müjdeledi genellikle hiper ölçekli kürasyon için kaynak ve bütçeden yoksun olan veri açlığı çeken bilgisayarlı görüntü araştırma sektörünün potansiyel kurtarıcısı olarak, yeni Stable Diffusion görüntüleri seli (ve icadından bu yana sentetik görüntülerdeki genel artışla birlikte) ticarileştirilmesi of DALL-E2) açgözlü yapay görme sistemlerinin onları internetten kazıdığı noktada onları "sahte" olarak ayıran kullanışlı etiketler, ek açıklamalar ve hashtag'lerle gelmesi pek olası değildir.

Açık kaynaklı görüntü sentezi çerçevelerindeki geliştirme hızı, bu sistemlerden görüntüleri kategorize etme yeteneğimizi önemli ölçüde geride bıraktı ve bu da 'sahte görüntü' tespitine artan ilgi sistemlere benzer derin sahte algılama değil, tüm görüntüleri değerlendirmekle görevlidir. yüz bölümleri.

The yeni kağıt başlıklı Oluşturulan görüntüleri anlamada derin modeller ne kadar iyidir??, ve San Francisco makine öğrenimi girişimi Quintic AI'dan Ali Borji'den geliyor.

Veri

Çalışma, Kararlı Difüzyon yayınından önceye dayanmaktadır ve deneyler, aşağıdakiler dahil 2 kategoride DALL-E 17 ve Midjourney tarafından oluşturulan verileri kullanır: fil, mantar, pizza, Çubuk kraker, traktör ve tavşan.

Test edilen tanıma ve MYK sistemlerinin en önemli anahtar kavramı tanımlamaya zorlandığı görüntü örnekleri.

Test edilen tanıma ve MYK sistemlerinin en önemli anahtar kavramı tanımlamaya zorlandığı görüntü örnekleri.

Görüntüler, web aramaları ve Twitter aracılığıyla ve DALL-E 2'nin politikalarına uygun olarak (en azından, zamanında), insan yüzlerini içeren herhangi bir resim içermedi. Yalnızca insanlar tarafından tanınabilen kaliteli görüntüler seçildi.

Her biri nesne tanıma ve MYK görevleri için olmak üzere iki set görüntü küratörlüğünü yaptı.

Nesne tanıma için test edilen her kategoride bulunan görüntülerin sayısı.

Nesne tanıma için test edilen her kategoride bulunan görüntülerin sayısı.

Nesne Tanıma Testi

Nesne tanıma testleri için tamamı ImageNet üzerinde eğitilmiş on model test edildi: AlexNet, ResNet152, MobilNetV2, Yoğun Ağ, ResSonraki, GoogleNet, ResNet101, Başlangıç_V3, Deit, ve ResNext_WSL.

Test edilen sistemlerdeki bazı sınıflar diğerlerinden daha ayrıntılıydı ve ortalama yaklaşımların uygulanmasını gerektiriyordu. Örneğin, ImageNet 'saatler' için tutulan üç sınıf içerir ve herhangi bir türden herhangi bir 'saatin' herhangi bir görüntü için elde edilen ilk beş etikete dahil edilmesinin bir başarı olarak kabul edildiği bir tür tahkime dayalı ölçü tanımlamak gerekliydi. bu durumda.

17 kategoride model başına performans.

17 kategoride model başına performans.

Bu turda en iyi performans gösteren model resnext101_32x8d_ws oldu ve ilk 60 için yaklaşık %1'a ulaştı (yani, beş tahminden tercih ettiği tahminin resimde somutlaşan doğru kavram olduğu zamanlar) ve ilk beş için %80 ( yani istenen konsept, modelin resimle ilgili beş tahmininde en azından bir yerde listelenmiştir).

Yazar, bu modelin iyi performansının, sosyal medya platformlarındaki hashtag'lerin zayıf denetimli tahmini için eğitilmiş olmasından kaynaklandığını öne sürüyor. Ancak yazar, bu önde gelen sonuçların, ImageNet'in gerçek veriler üzerinde elde edebildiğinin, yani %91 ve %99'un oldukça altında olduğunu belirtiyor. Bunun, ImageNet görüntülerinin (bunlar da web'den alıntılanmıştır) dağıtımı ile oluşturulan görüntüler arasındaki büyük bir eşitsizlikten kaynaklandığını öne sürüyor.

Zorluk sırasına göre sistem için en zor beş kategori şunlardı: uçurtma, kaplumbağa, sincap, güneş gözlüğü ve kask. Kağıt, uçurtma sınıf genellikle ile karıştırılır balon, paraşüt ve şemsiye, ancak bu ayrımlar, insan gözlemcilerin bireyselleştirmesi için önemsiz derecede kolaydır.

Dahil olmak üzere belirli kategoriler uçurtma ve kaplumbağa, tüm modellerde evrensel başarısızlığa neden olurken, diğerleri (özellikle Çubuk kraker ve traktör) test edilen modellerde neredeyse evrensel başarı ile sonuçlandı.

Kutuplaşma kategorileri: Seçilen hedef kategorilerden bazıları ya tüm modelleri etkiledi ya da tüm modellerin tanımlaması oldukça kolaydı.

Kutuplaşma kategorileri: Seçilen hedef kategorilerden bazıları ya tüm modelleri etkiledi ya da tüm modellerin tanımlaması oldukça kolaydı.

Yazarlar, bu bulguların tüm nesne tanıma modellerinin benzer güçlü ve zayıf yönleri paylaşabileceğini gösterdiğini varsaymaktadır.

Görsel Soru Cevaplamayı Test Etme

Daha sonra yazar, MYK modellerini açık uçlu ve serbest biçimli MYK üzerinde, ikili sorularla (yani, cevabın yalnızca 'evet' veya 'hayır' olabileceği sorular) test etti. Makale, son teknoloji harikası MYK modellerinin, VQA-v2 veri kümesi.

Yazar, testin bu aşaması için 50 resim derledi ve bunların etrafında 241'si olumlu, 132'u olumsuz yanıt veren 109 soru formüle etti. Ortalama soru uzunluğu 5.12 kelimeydi.

Bu turda kullanılan OFA modeli, görev kapsamlılığını test etmek için görevden bağımsız ve modaliteden bağımsız bir çerçeve ve son zamanlarda VQA-v2 test std seti. OFA, VQA-v77.27 test-std setindeki kendi %94.7 puanına kıyasla, oluşturulan görüntülerde %2 doğruluk puanı aldı.

Testlerin MYK bölümünden örnek sorular ve sonuçlar. 'GT', 'Ground Truth' yani doğru cevaptır.

Testlerin MYK bölümünden örnek sorular ve sonuçlar. 'GT', 'Ground Truth' yani doğru cevaptır.

Makalenin yazarı, nedenin bir kısmının, oluşturulan görüntülerin VQA-v2 veri setinde bulunmayan semantik kavramlar içermesi olabileceğini ve MQA testleri için yazılan soruların VQA-v2 sorularının genel standardını daha zorlayıcı olabileceğini öne sürüyor. önceki nedenin daha olası olduğuna inanıyor.

Veri Akışında LSD?

Görüş Doğada var olmayan ve geleneksel yöntemlerle üretilmesi çok zaman alan temel kavramların anlık bağlantılarını ve soyutlamalarını sunabilen yapay zeka sentezlenmiş görüntülerin yeni çoğalması, zayıf bir şekilde denetlenen veriler için özel bir sorun teşkil edebilir. büyük ölçüde yüksek hacimli, etiketlenmemiş sentetik verileri işlemek için tasarlanmadıkları için zarif bir şekilde başarısız olamayacak toplama sistemleri.

Bu gibi durumlarda, bu sistemlerin 'tuhaf' sentetik görüntülerin bir yüzdesini yanlış sınıflara toplama riski olabilir, çünkü görüntüler gerçekten birbirine ait olmayan farklı nesneler içerir.

"Ata binen astronot", yeni nesil görüntü sentez sistemleri için belki de en sembolik görsel haline geldi - ancak bu "gerçek dışı" ilişkiler, dikkat edilmezse gerçek algılama sistemlerine girebilir. Kaynak: https://twitter.com/openai/status/1511714545529614338?lang=en

"Ata binen astronot", yeni nesil görüntü sentez sistemleri için belki de en sembolik görsel haline geldi - ancak bu "gerçek dışı" ilişkiler, dikkat edilmezse gerçek algılama sistemlerine girebilir. Kaynak: https://twitter.com/openai/status/1511714545529614338?lang=en

Bu, eğitimden önceki ön işleme aşamasında önlenemezse, bu tür otomatikleştirilmiş ardışık düzenler, makine öğrenimi sistemlerine eğitilen, etkinliklerini azaltan ve üst düzey ilişkilendirmeleri aşağı akış sistemlerine ve alt sınıflara geçirme riskine sahip, olası olmayan ve hatta grotesk ilişkilendirmelere yol açabilir. ve kategoriler.

Alternatif olarak, kopuk sentetik görüntülerin, sonraki sistemlerin doğruluğu üzerinde "ürkütücü bir etkisi" olabilir, en sonunda yeni veya tadil edilmiş mimariler ortaya çıkabilir. özel sentetik görüntüler ve çok geniş bir ağ oluşturma.

Her iki durumda da, Stable Difusion sonrası çağda sentetik görüntüler, çabaları bu garip kreasyonları ve yetenekleri mümkün kılan bilgisayar vizyonu araştırma sektörü için bir baş ağrısı olabilir - en azından sektörün verilerin toplanması ve iyileştirilmesi konusundaki ümidini tehlikeye attığı için değil. sonunda şu anda olduğundan çok daha otomatik hale gelecek ve çok daha az pahalı ve zaman alıcı olacak.

 

İlk olarak 1 Eylül 2022'de yayınlandı.