Connect with us

GAN’ın Gizli Uzayının Haritalanmasının Kazandırdığı Beklenmedik Yarar

Yapay Zekâ

GAN’ın Gizli Uzayının Haritalanmasının Kazandırdığı Beklenmedik Yarar

mm

AI tarafından üretilen görsellerin kalitesini ve doğruluğunu geliştirmeye çalışırken, Çin ve Avustralya’dan bir grup araştırmacı, bir Generative Adversarial Network (GAN)’in gizli uzayını etkileşimli olarak kontrol etme yöntemini kazara keşfettiler – yeni dalganın görüntü sentez tekniklerinin arkasındaki hesaplamalı matris, filmler, oyunlar, sosyal medya ve eğlence ve araştırma gibi birçok sektörde devrim yaratmaya hazır.

Keşifleri, projenin merkezi hedefinin bir yan ürünü, bir GAN’ın gizli uzayını bir video gibi gezinerek veya bir kitap gibi sayfa çevirerek bir fare ile arbitrarily ve etkileşimli olarak keşfetmeye olanak tanır.

Araştırmacıların eşlik eden videosundan bir alıntı (makale sonunda gömülü için bkz.). Kullanıcının dönüşümleri 'tutma' imlecini (en üstte sol) kullanarak değiştirdiğini unutmayın. Kaynak: https://www.youtube.com/watch?v=k7sG4XY5rIc

Araştırmacıların eşlik eden videosundan bir alıntı (makale sonunda gömülü için bkz.). Kullanıcının dönüşümleri ‘tutma’ imlecini (en üstte sol) kullanarak değiştirdiğini unutmayın. Kaynak: https://www.youtube.com/watch?v=k7sG4XY5rIc

Yöntem, bir görüntüdeki hangi alanların geliştirilmesi gerektiğini gösteren ‘ısı haritaları’ kullanır, bu da GAN’ın aynı veri kümesini binlerce veya yüz binlerce kez çalıştırırken görüntü kalitesini geliştirmeye yardımcı olur; ancak bu, aynı zamanda gezinilebilen bir ‘harita’ sağlar. ‘ısı haritaları’, GAN’a nerede yanlış gittiğini söyleyerek, bir sonraki denemesinin daha iyi olmasını sağlar, ancak bu aynı zamanda tüm gizli uzayı gezinmek için bir ‘harita’ sağlar.

Mekansal görsel dikkat, GradCAM ile vurgulanır, bu da dikkat gerektiren alanları parlak renkler uygulayarak gösterir. Bu örnekler, araştırmacıların projesinde StyleGan2'nin varsayılan uygulamasıyla oluşturulur. Kaynak: https://arxiv.org/pdf/2112.00718.pdf

Mekansal görsel dikkat, GradCAM ile vurgulanır, bu da dikkat gerektiren alanları parlak renkler uygulayarak gösterir. Kaynak: https://arxiv.org/pdf/2112.00718.pdf

Makale, Improving GAN Equilibrium by Raising Spatial Awareness olarak adlandırılır ve Çin Üniversitesi’nden (Hong Kong) ve Avustralya Ulusal Üniversitesi’nden araştırmacılardan gelir. Makaleye ek olarak, video ve diğer materyaller proje sayfasında bulunabilir.

Çalışma, düşük çözünürlüklü görüntülere (256×256) sınırlı olsa da, bir GAN’ın gizli uzayının ‘kara kutusunu’ açma vaadinde bulunan bir kavram kanıtıdır ve birçok araştırma projesinin görüntü sentezini kontrol etmek için kapıya çekiç vurduğu bir zamanda gelir.

Bu tür görüntüler çekici olsa da (ve makalenin sonunda gömülü videoyu izleyerek daha yüksek çözünürlükte daha fazlasını görebilirsiniz), belki de daha önemli olan şey, projenin bir GAN’ı eğitirken nerede yanlış gittiğini söyleyerek görüntü kalitesini geliştirme ve potansiyel olarak daha hızlı yapma yöntemini bulmasıdır.

Ancak, Adversarial olarak belirtilen gibi, bir GAN, tek bir varlık değil, otorite ve emek arasında eşitsiz bir çatışmadır. Araştırmacıların bu konuda neler başardığını anlamak için, bu savaşın şimdiye kadar nasıl karakterize edildiğine bakalım.

Üreticinin Acınacak Durumu

Bir GAN’ın Üretici bölümü için biraz acıma duygunuz varsa, bir sweatshop’ta veya bir patron veya müşterinin size ‘Tekrar yapın!’ demesi ve neyin yanlış gittiğini söylememesi gibi, bir Üretici için de aynı şeyi hissetmeniz gerekir.

Üretici, son beş yıl içinde GAN’ların photorealistic olmayan insanları yaratmasına, eski video oyunlarını 4K çözünürlüğe yükseltmesine ve yüzyıllık görüntüleri tam renkli HD çıkışa dönüştürmesine yardımcı olan iş atıdır.

Photoreal yüzler oluşturmadan, eski görüntüleri restore etmeye ve arşiv video oyunlarını canlandırmaya kadar, GAN son yıllarda忙 olmuştur.

Photoreal yüzler oluşturmadan, eski görüntüleri restore etmeye ve arşiv video oyunlarını canlandırmaya kadar, GAN son yıllarda忙 olmuştur.

Üretici, tüm eğitim verilerini bir fotoğraf bir kez, günler veya haftalar boyunca tekrar tekrar çalıştırır, böylece gerçek fotoğraflar gibi inandırıcı görüntüler oluşturabilir.

Üretici, her denemesinde ilerleme kaydettiğini nasıl bilir?

Üreticinin cehenneme benzer bir patronu vardır.

Ayrımcının Merhametsiz Şeffaflığı

Ayrımcı‘nın görevi, Üreticiye yeterli olmadığını söylemek ve Yeniden yapın demektir. Ayrımcı, Üreticiye neyin yanlış gittiğini söylemez; sadece son denemesine gizlice bakar, oluşturulan görüntüyü kaynak görüntüleriyle (gizlice) karşılaştırır ve bir puan atar.

Puan asla yeterli değildir. Ayrımcı, araştırmacılar onu kapatana kadar Yeniden yapın demeyi bırakmaz (ek eğitimlerin çıktıyı daha da iyileştirmeyeceğine karar verdiklerinde).

Bu şekilde, yapılandırılmış eleştiri olmadan ve sadece bir puanla, Üretici hangi parçaların veya görüntünün hangi yönlerinin daha yüksek bir puan aldığını tahmin etmek zorunda kalır. Bu, daha fazla tatmin edici yol bulana kadar birçok weitere unsatisfactory rotaya yol açar.

Ayrımcı olarak Öğretmen ve Mentor

Yeni araştırmanın yeniliği, esasen Ayrımcı’nın Üreticiye görüntünün hangi parçalarının yetersiz olduğunu söylemesidir, böylece Üretici bir sonraki iterasyonda bu alanlara odaklanabilir ve daha yüksek puan alan parçaları atmaz. İlişkinin doğası, çatışmadan işbirliğine dönüşmüştür.

Araştırmacılar, Ayrımcı ve Üretici arasındaki bilgi açığını gidermek için GradCAM‘i kullandılar, bu da Üretici için bir sonraki denemesi için görsel geri bildirim sağlar.

Yeni ‘denge’ eğitim yöntemi EqGAN olarak adlandırılır. Maksimum yeniden üretilebilirlik için, araştırmacılar mevcut teknikleri ve yöntemleri varsayılan ayarlarla birleştirdiler, StyleGan2 mimarisini kullanarak.

EqGAN mimarisi. Üreticinin mekansal kodlaması, Ayrımcının mekansal farkındalığı ile hizalanmıştır, rastgele seçilen mekansal ısı haritaları (daha önceki görüntüye bakın) mekansal kodlama katmanına (SEL) geri kodlanır. GradCAM, Ayrımcının dikkat haritalarının Üreticiye sunulduğu mekanizmadır.

EqGAN mimarisi. Üreticinin mekansal kodlaması, Ayrımcının mekansal farkındalığı ile hizalanmıştır, rastgele seçilen mekansal ısı haritaları (daha önceki görüntüye bakın) mekansal kodlama katmanına (SEL) geri kodlanır. GradCAM, Ayrımcının dikkat haritalarının Üreticiye sunulduğu mekanizmadır.

GradCAM, Ayrımcının eleştirisini yansıtan ısı haritaları (yukarıdaki görüntülere bakın) üretir ve bunları Üreticiye sunar.

Model eğitildikten sonra, harita, işbirlikçi sürecin bir kalıntısı olarak kalır, ancak nihai gizli kodu etkileşimli bir şekilde keşfetmek için de kullanılabilir.

EqGAN

Proje, LSUN Kedi ve Kiliseler veri kümeleri gibi popüler veri kümelerini ve FFHQ veri kümesini kullandı. Aşağıdaki video, EqGAN kullanarak yüz ve kedi manipülasyonu örneklerini de içerir.

Tüm görüntüler, EqGAN’ı StyleGAN2’nin resmi uygulamasında eğitmeye başlamadan önce 256×256’ye yeniden boyutlandırıldı. Model, 8 GPU üzerinde 64’lük bir toplu işlemden oluşarak eğitildi, Ayrımcı 25 milyondan fazla görüntüye maruz kalana kadar.

Frechet Inception Distance (FID) ile seçilen örnekler üzerinde sonuçları test eden yazarlar, Ayrımcının Üretici üzerindeki bilgi avantajının derecesini ölçen Disequilibrium Indicator (DI) adlı bir ölçüt geliştirdiler.

Üç veri kümesinde, yeni ölçüt, Üreticiye mekansal farkındalık kodlandıktan sonra yararlı bir düşüş gösterdi, FID ve DI ile gösterilen daha iyi bir denge gösterildi.

Araştırmacılar şöyle diyor:

‘Bu çalışmanın, GAN dengelemesini yeniden ziyaret etmek ve GAN dengelemesini manevra yaparak görüntü sentez kalitesini geliştirmek için daha yeni yöntemler geliştirmek için daha fazla çalışmaya ilham vermesini umuyoruz. Gelecek çalışmalarımızda bu konuda daha fazla teorik araştırma yapacağız.’

Ve devam ediyor:

‘Niteliksel sonuçlar, yöntemimizin Üreticiyi belirli bölgelere odaklanmaya zorladığını gösteriyor. Çeşitli veri kümeleri üzerindeki deneyler, yöntemimizin GAN eğitimi sırasındaki dengesizliği azalttığını ve genel görüntü sentez kalitesini önemli ölçüde iyileştirdiğini doğruladı. Mekansal farkındalığa sahip olan sonuç modeli, ayrıca çıktı görüntüsünün etkileşimli olarak manipülasyonunu da sağlar.’

Aşağıdaki videoyu izleyerek projeye daha fazla örnek ve ayrıntı hakkında daha fazla bilgi edinebilirsiniz.

 

 

11:12 4 Aralık 2021 – GradCAM için URL düzeltildi ve surrounding referans temizlendi.

Makine öğrenimi üzerine yazar, insan görüntü sentezinde alan uzmanı. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel site: martinanderson.ai
İletişim: [email protected]