Yapay Zeka

Bilgisayarla Görüde "Kaynaşmış" İnsanları Ayırmak

Güncellenmiş on 9 Aralık 2022

Singapur'daki Hyundai Motor Grubu İnovasyon Merkezi'nden yeni bir makale, nesne tanıma çerçevesinin bir şekilde başka bir insana 'çok yakın' olan bir insanı bulduğu durumlar için bilgisayar görüşünde 'kaynaşmış' insanları ayırmak için bir yöntem sunuyor (örneğin, 'sarılma' eylemleri veya 'arkasında durma' pozları gibi) ve temsil edilen iki kişiyi birbirinden ayıramayarak onları tek bir kişi veya varlık olarak karıştırır.

İki bir olur, ama anlamsal bölümlemede bu iyi bir şey değildir. Burada, makalenin yeni sisteminin karmaşık ve zorlu görüntülerde iç içe geçmiş insanların bireyselleşmesi konusunda son teknoloji sonuçlar elde ettiğini görüyoruz. Kaynak: https://arxiv.org/pdf/2210.03686.pdf

Bu, son yıllarda araştırma camiasında büyük ilgi gören dikkate değer bir sorundur. Hiper ölçeğin bariz ama genellikle karşılanamaz maliyeti olmadan bu sorunu çözen insan liderliğindeki özel etiketleme, sonunda aşağıdakiler gibi metinden görüntüye sistemlerde insanın bireyselleşmesinde iyileştirmeler sağlayabilir: Kararlı Difüzyon, istemli bir pozun birden fazla kişinin birbirine yakın olmasını gerektirdiği durumlarda insanları sık sık 'eriten'.

Korkuyu kucaklayın - DALL-E 2 ve Stable Diffusion (her ikisi de yukarıda gösterilmiştir) gibi metinden görüntüye modeller, birbirine çok yakın olan insanları temsil etmekte zorlanır.

DALL-E 2 ve Stable Diffusion gibi üretici modeller (kapalı kaynak DALL-E 2 durumunda kimsenin bildiği kadarıyla) şu anda semantik bölümleme veya nesne tanıma kullanmasa da, bu grotesk insan portmantoları bunu kullanamadı. şu anda bu tür yukarı akış yöntemleri uygulanarak tedavi edilebilir - çünkü son teknoloji nesne tanıma kitaplıkları ve kaynakları, insanları çözmede çok daha iyi değildir. CLIPgizli difüzyon modellerinin tabanlı iş akışları.

Bu sorunu çözmek için, yeni kağıt - başlıklı İnsanların daha fazla insanı etiketlemesine gerek yok: Oklüzyon Kopyala ve Tıkanmış İnsan Örneği Segmentasyonu için Yapıştır– en zorlu kaynak materyale karşı bile görevde yeni bir SOTA liderliği elde etmek için yarı sentetik verilere yönelik güncel 'kes ve yapıştır' yaklaşımını uyarlar ve geliştirir:

Yeni Oklüzyon Kopyala ve Yapıştır metodolojisi, şu anda, özellikle oklüzyon için modelleme gibi, zorluğu ayrıntılı ve daha özel yollarla ele alan önceki çerçevelere ve yaklaşımlara karşı bile bu alanda lider konumdadır.

Kes şunu!

Değiştirilen yöntem – başlıklı Kapatma Kopyala ve Yapıştır – 2021'den türetilmiştir Basit Kopyala-Yapıştır Çıkarılan nesnelerin ve kişilerin çeşitli kaynak eğitim görüntüleri arasında üst üste bindirilmesinin, bir görüntü tanıma sisteminin bir görüntüde bulunan her örneği ayrıklaştırma yeteneğini geliştirebileceğini öne süren Google Research liderliğindeki makale:

2021 Google Research liderliğindeki "Simple Copy-Paste is a Strong Data Augmentation Method for Instance Segmentation" makalesinden, daha iyi ve daha akıllı bir görüntü tanıma modeli eğitmek amacıyla bir fotoğraftaki öğelerin diğer fotoğraflara "taşındığını" görüyoruz. . Kaynak: https://arxiv.org/pdf/2012.07177.pdf

2021 Google Research liderliğindeki "Basit Kopyala-Yapıştır, Örnek Segmentasyonu için Güçlü Bir Veri Büyütme Yöntemidir" başlıklı makaleden, daha iyi bir görüntü tanıma modeli geliştirmek amacıyla bir fotoğraftaki öğelerin diğer fotoğraflara "taşındığını" görüyoruz. Kaynak: https://arxiv.org/pdf/2012.07177.pdf

Yeni sürüm, bu otomatik ve algoritmik "yeniden yapıştırmaya" sınırlamalar ve parametreler ekleyerek, süreci birkaç temel faktöre dayalı olarak diğer görüntülere "aktarmak" için potansiyel adaylarla dolu bir görüntüler "sepetine" benzetiyor.

OC&P için kavramsal iş akışı.

Öğeleri Kontrol Etme

Bu sınırlayıcı faktörler şunları içerir: olasılık işlemin her zaman gerçekleşmemesini sağlayan, veri artırmayı baltalayacak 'doygunlaştırıcı' bir etki elde edecek bir kesme ve yapıştırma işleminin meydana gelmesi; the görüntü sayısı daha fazla sayıda "segment"in örneklerin çeşitliliğini artırabileceği, ancak ön işleme süresini artırabileceği bir sepetin herhangi bir zamanda sahip olacağı; Ve menzil, bir "ana bilgisayar" görüntüsüne yapıştırılacak görüntü sayısını belirler.

İkincisi ile ilgili olarak, kağıt notları "Olasıya yetecek kadar kapatmaya ihtiyacımız var, ancak çok fazla değil çünkü bunlar görüntüyü aşırı karıştırabilir, bu da öğrenme için zararlı olabilir."

OC&P için diğer iki yenilik: hedeflenen yapıştırma ve artırılmış örnek yapıştırma.

Hedefli yapıştırma, uygun bir görüntünün hedef görüntüdeki mevcut bir örneğin yakınına inmesini sağlar. Önceki yaklaşımda, önceki çalışmadan, yeni öğe, herhangi bir bağlam dikkate alınmadan yalnızca görüntünün sınırları içinde sınırlandırılmıştı.

Hedeflenen yapıştırma ile bu 'yapıştırma' insan gözü için açık olsa da, hem OC&P hem de öncülü, artan görsel özgünlüğün mutlaka önemli olmadığını ve hatta bir sorumluluk olabileceğini keşfetti (aşağıdaki 'Reality Bites'e bakın).

Artırılmış örnek yapıştırma ise, yapıştırılan örneklerin, sistem tarafından bir şekilde sınıflandırılarak dışlanmaya veya genellemeyi ve uygulanabilirliği engelleyebilecek 'özel muameleye' yol açabilecek 'belirgin bir görünüm' göstermemesini sağlar. . Artırılmış yapıştırma, diğer faktörlerin yanı sıra parlaklık ve keskinlik, ölçekleme ve döndürme ve doygunluk gibi görsel faktörleri modüle eder.

Yeni makale için ek materyallerden: OC&P'yi mevcut tanıma çerçevelerine eklemek oldukça önemsizdir ve çok yakın sınırlar içinde insanların üstün bireyselleşmesiyle sonuçlanır. Kaynak: https://arxiv.org/src/2210.03686v1/anc/OcclusionCopyPaste_Supplementary.pdf

Ek olarak, OC&P bir en küçük beden yapıştırılan herhangi bir örnek için. Örneğin, büyük bir kalabalık sahnesinden bir kişinin görüntüsünü çıkarmak ve başka bir görüntüye yapıştırmak mümkün olabilir - ancak böyle bir durumda, dahil olan az sayıdaki piksel muhtemelen tanımaya yardımcı olmaz. Bu nedenle sistem, hedef görüntü için eşitlenmiş kenar uzunluğu oranına dayalı bir minimum ölçek uygular.

Ayrıca OC&P, yapıştırılan konu ile benzer konuları aramanın yanı sıra hedef görüntüdeki sınırlayıcı kutuların boyutunu hesaba kattığı ölçeğe duyarlı yapıştırmayı başlatır. Bununla birlikte, bu, insanların makul veya gerçekçi olduğunu düşünecekleri bileşik görüntülere yol açmaz (aşağıdaki resme bakın), bunun yerine, eğitim sırasında yardımcı olacak şekillerde anlamsal olarak birbirine yakın öğeleri bir araya getirir.

Reality Bites

Hem OC&P'nin dayandığı önceki çalışma hem de mevcut uygulama, orijinalliğe veya herhangi bir nihai 'montajlı' görüntünün 'fotogerçekliğine' düşük bir prim veriyor. Son montajın tamamen içine inmemesi önemli olsa da Dadaizm (aksi takdirde, eğitilen sistemlerin gerçek dünyadaki dağıtımları, eğitildikleri gibi sahnelerde öğelerle karşılaşmayı asla umamaz), her iki girişim de 'görsel güvenilirlikte' dikkate değer bir artışın yalnızca ön işleme süresini uzatmakla kalmayıp, aynı zamanda bu tür 'gerçekçilik geliştirmelerinin' aslında ters etki yapması muhtemeldir.

Yeni makalenin ek materyalinden: 'rastgele harmanlama' ile zenginleştirilmiş görüntü örnekleri. Bu sahneler bir kişiye halüsinojenik görünse de, yine de benzer konuları bir araya getiriyorlar; tıkanıklıklar insan gözü için fantastik olsa da, potansiyel bir tıkanmanın doğası önceden bilinemez ve eğitilmeleri imkansızdır - bu nedenle, bu tür tuhaf 'kesikler' form, eğitimli sistemi aramaya zorlamak için yeterlidir. sahneleri daha makul hale getirmek için ayrıntılı Photoshop tarzı metodolojiler geliştirmeye gerek kalmadan kısmi hedef nesneleri çıkarın ve tanıyın.

Veriler ve Testler

Test aşaması için, sistem üzerinde eğitilmiştir. kişi sınıfı MS COCO 262,465 görüntüde 64,115 insan örneği içeren veri kümesi. Ancak MS COCO'nun sahip olduğundan daha kaliteli maskeler elde etmek için görüntüler de alındı. LVIS maske ek açıklamaları.

Facebook araştırmasından 2019'da piyasaya sürülen LVIS, Büyük Kelime Örneği Segmentasyonu için hacimli bir veri kümesidir. Kaynak: https://arxiv.org/pdf/1908.03195.pdf

Artırılmış sistemin çok sayıda kapalı insan görüntüsüyle ne kadar iyi mücadele edebileceğini değerlendirmek için araştırmacılar OC&P'yi OCHinsan (Tıkanmış İnsan) kıyaslaması.

2'de Pose2018Seg algılama projesini desteklemek için tanıtılan OCHuman veri kümesinden örnekler. Bu girişim, vücutlarını temsil eden pikseller için anlamsal bir sınırlayıcı olarak duruşlarını ve pozlarını kullanarak insanların gelişmiş anlamsal bölümlemesini elde etmeyi amaçlıyordu. Kaynak: https://github.com/liruilong940607/OCHumanApi

OCHuman kıyaslaması kapsamlı bir şekilde açıklanmadığı için, yeni makalenin araştırmacıları yalnızca tamamen etiketlenmiş örneklerden OCHuman başlıklı bir alt küme oluşturdu.^FL. Bu sayısını azalttı kişi doğrulama için 2,240 görüntüde 1,113 örnek ve test için kullanılan 1,923 gerçek görüntüde 951 örnek. Hem orijinal hem de yeni derlenen setler, temel ölçüm olarak Ortalama Ortalama Kesinlik (mAP) kullanılarak test edildi.

Tutarlılık için mimari şunlardan oluşturuldu: Maske R-CNN ResNet-50 omurgasına sahip ve özellik piramidi ağ, ikincisi doğruluk ve eğitim hızı arasında kabul edilebilir bir uzlaşma sağlar.

Araştırmacıların yukarı akışın zararlı etkisini fark etmesiyle IMAGEnet Benzer durumlarda etkili olan tüm sistem, Facebook'un 4 sürümünün başlatma parametreleri izlenerek 100 dönem boyunca 75 NVIDIA V2021 GPU'da sıfırdan eğitildi. Dedektör 2.

Sonuçlar

Yukarıda belirtilen sonuçlara ek olarak, temel sonuçlar karşı MMAlgılama (ve ilişkili üç modeli), OC&P'nin insanları dolambaçlı pozlardan ayırt etme yeteneğinde OC&P için açık bir lider olduğunu gösterdi.

Daha iyi performans göstermenin yanı sıra PoSeg ve Poz2Seg, belki de makalenin en göze çarpan başarılarından biri, sistemin, denemelerde karşısına çıkanlar da dahil olmak üzere mevcut çerçevelere oldukça jenerik olarak uygulanabilmesidir (ilk sonuçlar kutusundaki karşılaştırmalı/karşılaştırmasız bölümüne bakın, madde).

Makale şu sonuca varıyor:

Yaklaşımımızın önemli bir faydası, herhangi bir model veya diğer model merkezli iyileştirmelerle kolayca uygulanabilmesidir. Derin öğrenme alanının hareket ettiği hız göz önüne alındığında, eğitimin diğer tüm yönleriyle yüksek düzeyde birlikte çalışabilir yaklaşımlara sahip olmak herkesin avantajınadır. Engellenen kişi örneği segmentasyonunu etkili bir şekilde çözmek için bunu model merkezli geliştirmelerle entegre etmeyi gelecekteki bir çalışma olarak bırakıyoruz.'

Metinden Görüntüye Sentezi İyileştirme Potansiyeli

Baş yazar Evan Ling, bize gönderdiği bir e-postada*, OC&P'nin en büyük avantajının, orijinal maske etiketlerini koruyabilmesi ve bunlardan yeni bir bağlamda 'ücretsiz' yeni değer elde edebilmesi olduğunu gözlemledi - örn. içine yapıştırıldı.

İnsanların anlamsal bölümlenmesi, Kararlı Yayılma gibi modellerin insanları bireyselleştirmedeki zorluğuyla yakından ilişkili görünse de (sık sık yaptığı gibi 'onları bir araya getirmek' yerine), anlamsal etiketleme kültürünün kabus gibi insan üzerinde sahip olabileceği herhangi bir etki SD ve DALL-E 2'nin çıkışının genellikle çok, çok yukarı akış olduğunu gösterir.

milyarlarca LAYON 5B Görüntülerden ve veri tabanı içeriğinden oluşturmaları oluşturan CLIP mimarisi bir noktada bu tür örneklemeden fayda sağlamış olsa bile, Stable Diffusion'ın üretici gücünü dolduran alt küme görüntüleri sınırlayıcı kutular ve örnek maskeleri gibi nesne düzeyinde etiketler içermez; daha ziyade, LAION görüntüleri 'ücretsiz' olarak etiketlenir, çünkü etiketleri, web'den veri kümesine kazındıklarında görüntülerle ilişkilendirilen meta verilerden ve çevresel altyazılardan vb. türetilmiştir.

"Ama bu bir yana," dedi Ling bize. Metinden resme üretici model eğitimi sırasında OC&P'mize benzer bir çeşit büyütme kullanılabilir. Ancak artırılmış eğitim görüntüsünün gerçekçiliğinin muhtemelen bir sorun haline gelebileceğini düşünüyorum.

"Çalışmamızda, 'mükemmel' gerçekçiliğin genellikle denetimli örnek bölümleme için gerekli olmadığını gösterdik, ancak metinden görüntüye üretici model eğitimi için (özellikle çıktıları oldukça gerçekçi olması beklenmektedir). Bu durumda, artırılmış görüntülerin gerçekçiliğini 'mükemmelleştirmek' açısından daha fazla çalışma yapılması gerekebilir.'

KLİP zaten kullanılıyor anlamsal bölümleme için olası bir çok modlu araç olarak, OC&P gibi gelişmiş kişi tanıma ve bireyselleştirme sistemlerinin nihayetinde sistem içi filtrelere veya 'kaynaşmış' ve çarpıtılmış insan temsillerini keyfi olarak reddedecek sınıflandırıcılara geliştirilebileceğini öne sürüyor - bu başarması zor bir görev şu anda Kararlı Difüzyon ile, çünkü nerede hata yaptığını anlama yeteneği sınırlıdır (böyle bir yeteneği olsaydı, muhtemelen en başta hata yapmazdı).

Anlamsal bölümleme için şu anda OpenAI'nin CLIP çerçevesini – DALL-E 2 ve Stable Difüzyon'un kalbi – kullanan birkaç projeden sadece biri. Kaynak: https://openaccess.thecvf.com/content/CVPR2022/papers/Wang_CRIS_CLIP-Driven_Referring_Image_Segmentation_CVPR_2022_paper.pdf

"Başka bir soru da şu olabilir," diye öneriyor Ling. Tamamlayıcı model mimarisi tasarımı olmadan eğitim çalışması sırasında tıkalı insanların bu üretici model görüntülerini basitçe beslemek, "insan kaynaşması" sorununu hafifletecek mi? Bu muhtemelen önceden cevaplaması zor bir soru. Metinden resme üretken model eğitimi sırasında bir tür örnek düzeyinde rehberliği (örnek maskesi gibi örnek düzeyinde etiketler yoluyla) nasıl aşılayabileceğimizi görmek kesinlikle ilginç olacak.'

* 10 Ekim 2022

İlk olarak 10 Ekim 2022'de yayınlandı.