Yapay Zeka

Bir GAN'ın Gizli Alanını Haritalamanın İstenmeyen Faydası

Güncellenmiş on 9 Aralık 2022

Yapay zeka tarafından üretilen görüntülerin kalitesini ve aslına uygunluğunu artırmaya çalışırken, Çin ve Avustralya'dan bir grup araştırmacı yanlışlıkla bir bilgisayarın gizli alanını etkileşimli olarak kontrol etmek için bir yöntem keşfetti. Jeneratör Düşman Ağı (GAN) – filmlerde, oyunlarda ve sosyal medyada ve eğlence ve araştırmadaki diğer birçok sektörde devrim yaratmaya ayarlanan yeni görüntü sentezi teknikleri dalgasının arkasındaki gizemli hesaplama matrisi.

Projenin ana hedefinin bir yan ürünü olan keşifleri, bir kullanıcının bir GAN'ın gizli alanını sanki bir videoda geziniyor veya bir kitapta geziniyormuş gibi keyfi ve etkileşimli olarak bir fareyle keşfetmesine olanak tanır.

Araştırmacıların beraberindeki videosundan bir alıntı (makalenin sonuna yerleştirmeye bakın). Kullanıcının dönüşümleri bir 'tutma' imleciyle (sol üstte) manipüle ettiğini unutmayın. Kaynak: https://www.youtube.com/watch?v=k7sG4XY5rIc

Araştırmacıların beraberindeki videosundan bir alıntı (daha fazla örnek için makalenin sonuna yerleştirmeye bakın). Kullanıcının dönüşümleri bir 'tutma' imleciyle (sol üstte) manipüle ettiğini unutmayın. Kaynak: https://www.youtube.com/watch?v=k7sG4XY5rIc

Yöntem, GAN aynı veri kümesini binlerce (veya yüzbinlerce) kez çalıştırırken görüntünün hangi alanlarının iyileştirilmesi gerektiğini belirtmek için 'ısı haritalarını' kullanır. Isı haritaları, GAN'a nerede yanlış gittiğini söyleyerek görüntü kalitesini iyileştirmeyi amaçlar, böylece bir sonraki denemesi daha iyi olur; ancak, tesadüfen, bu aynı zamanda, bir fareyi hareket ettirerek göz atılabilen tüm gizli alanın bir 'haritasını' da sağlar.

Parlak renkler uygulayarak dikkat edilmesi gereken alanları gösteren GradCAM ile uzamsal görsel dikkat vurgulanır. Bu örnekler, varsayılan StyleGan2 uygulamasıyla araştırmacıların projesinde oluşturulur. Kaynak: https://arxiv.org/pdf/2112.00718.pdf

Parlak renkler uygulayarak dikkat edilmesi gereken alanları gösteren GradCAM ile uzamsal görsel dikkat vurgulanır. Kaynak: https://arxiv.org/pdf/2112.00718.pdf

The kâğıt denir Mekânsal Farkındalığı Artırarak GAN Dengesini Geliştirmek, Hong Kong Çin Üniversitesi ve Avustralya Ulusal Üniversitesi'ndeki araştırmacılardan geliyor. Makaleye ek olarak, video ve diğer materyaller proje sayfasında bulunabilir.

Çalışma yeni ortaya çıkıyor ve şu anda düşük çözünürlüklü görüntülerle (256×256) sınırlı, ancak gizli alanın 'kara kutusunu' açmayı vaat eden ve birden fazla araştırma projesinin çekiçle vurduğu bir zamanda gelen bir kavram kanıtı. görüntü sentezi üzerinde daha fazla kontrol arayışında o kapıda.

Bu tür görüntüler ilgi çekici olsa da (ve bu makalenin sonunda yer alan videoda daha fazlasını, daha iyi çözünürlükte görebilirsiniz), belki de daha önemli olan, projenin gelişmiş görüntü kalitesi yaratmanın bir yolunu bulması ve potansiyel olarak GAN'a özellikle eğitim sırasında nerede yanlış gittiğini söyleyerek bunu daha hızlı yapmak için.

Ancak düşmanca bir GAN'ın tek bir varlık olmadığını, bunun yerine otorite ve angarya arasında eşit olmayan bir çatışma olduğunu gösterir. Araştırmacıların bu konuda ne gibi iyileştirmeler yaptıklarını anlamak için bu savaşın şimdiye kadar nasıl nitelendirildiğine bakalım.

Jeneratörün Acınası Durumu

Satın aldığınız harika yeni bir giysinin sömürülen bir ülkedeki bir atölyede üretildiği veya size sürekli 'Bunu tekrar yapın!' son girişiminizde neyin yanlış olduğunu size söylemeden, Jeneratör Üretken Düşmanlık Ağı'nın bir parçası.

Jeneratör, GAN'ların oluşturmasına yardımcı olarak son beş yıldır sizi memnun eden beygirdir. var olmayan fotogerçekçi insanlar, lüks eski video oyunları 4k çözünürlüğeve asırlık görüntüleri çevirin 60 fps'de tam renkli HD çıktıya, diğer harika AI yeniliklerinin yanı sıra.

GAN, gerçek olmayan insanların fotogerçekçi yüzlerini oluşturmaktan eski görüntüleri geri yüklemeye ve arşiv video oyunlarını canlandırmaya kadar son birkaç yıldır meşgul.

Jeneratör, tüm eğitim verilerini tekrar tekrar (rastgele, var olmayan insanların fotoğraflarını oluşturabilen bir GAN oluşturmak için yüzlerin resimleri gibi), her seferinde bir fotoğrafı günlerce, hatta haftalarca çalıştırır. incelediği gerçek fotoğraflar kadar inandırıcı görüntüler oluşturabilene kadar.

Peki Jeneratör, bir önceki denemesinden daha iyi bir görüntü yaratmaya çalıştığı her seferde herhangi bir ilerleme kaydettiğini nasıl biliyor?

Jeneratörün cehennemden gelen bir patronu var.

Ayrımcının Acımasız Donukluğu

İşi Ayrımcı Jeneratöre, orijinal verilere uygun bir görüntü oluşturmada yeterince başarılı olmadığını söylemek ve Tekrar yap. Ayrımcı Jeneratöre söylemez ne Jeneratörün son denemesinde yanlıştı; sadece özel olarak bakar, oluşturulan görüntüyü kaynak görüntülerle karşılaştırır (yine özel olarak) ve görüntüye bir puan verir.

Skor asla yeterince iyi. Ayrımcı söylemekten vazgeçmeyecek 'Tekrar yap' araştırmacı bilim adamları onu kapatana kadar (ek eğitimin çıktıyı daha fazla iyileştirmeyeceğine karar verdiklerinde).

Bu şekilde, herhangi bir yapıcı eleştiri olmaksızın ve yalnızca metriği bir sır olan bir puanla donanmış olarak, Oluşturucu, görüntünün hangi bölümlerinin veya yönlerinin öncekinden daha yüksek bir puana neden olduğunu rastgele tahmin etmelidir. Bu, daha yüksek bir puan almak için bir şeyi yeterince olumlu bir şekilde değiştirmeden önce onu daha birçok tatmin edici olmayan rotaya yönlendirecektir.

Öğretici ve Akıl Hocası Olarak Ayrımcı

Yeni araştırmanın sağladığı yenilik, esasen, Ayırıcının artık Üreticiye gösterdiğidir. görüntünün hangi kısımları tatmin edici değildi, böylece Jeneratör bir sonraki yinelemesinde bu alanlara odaklanabilir ve daha yüksek puan alan bölümleri bir kenara atmaz. İlişkinin doğası kavgacıdan işbirlikçiye dönüştü.

Araştırmacılar, Ayrım Yapan ve Üreten arasındaki içgörü eşitsizliğini gidermek için GradCAM Ayrımcının içgörülerini, Üreticinin bir sonraki girişimi için görsel bir geri bildirim yardımına formüle edebilen bir mekanizma olarak.

Yeni 'denge' eğitim yöntemine EqGAN adı verilir. Maksimum yeniden üretilebilirlik için araştırmacılar, varsayılan ayarlarda mevcut teknikleri ve yöntemleri dahil ettiler. TarzGan2 mimari.

EqGAN mimarisi. Jeneratörün uzamsal kodlaması, uzamsal kodlama katmanı (SEL) yoluyla üreticiye geri kodlanan uzamsal ısı haritalarının rastgele örnekleriyle (önceki resme bakın) Ayırıcının uzamsal farkındalığına hizalanır. GradCAM, Discriminator'ın dikkat haritalarının üreticiye sunulduğu mekanizmadır.

GradCAM, Discriminator'ın en son yinelemeye yönelik eleştirisini yansıtan ısı haritaları (yukarıdaki resimlere bakın) üretir ve bunu Jeneratör'e sunar.

Model bir kez eğitildikten sonra, haritalama bu işbirlikçi sürecin bir eseri olarak kalır, ancak aynı zamanda araştırmacıların proje videosunda gösterilen etkileşimli şekilde nihai gizli kodu keşfetmek için de kullanılabilir (aşağıya bakın).

EqGAN

Proje, LSUN Cat ve Churches veri kümelerinin yanı sıra bir dizi popüler veri kümesini kullandı. FFHQ veri kümesi. Aşağıdaki video ayrıca EqGAN kullanılarak yapılan yüz ve kedi manipülasyonu örneklerini içerir.

EqGAN'ı StyleGAN256'nin resmi uygulaması konusunda eğitmeden önce tüm görüntüler 256×2 olarak yeniden boyutlandırıldı. Model, Discriminator 64 milyondan fazla görüntüye maruz kalana kadar 8 GPU üzerinden 25 toplu iş boyutunda eğitildi.

Sistemin sonuçlarının Frechet Başlangıç Mesafesi ile seçilen örneklerde test edilmesi (FID), yazarlar Dengesizlik Göstergesi (DI) - bu boşluğu daraltmak amacıyla Ayrımcının Üreticiye karşı bilgi avantajını ne ölçüde koruduğu - adlı bir ölçü oluşturdular.

Eğitilen üç veri kümesi üzerinden, yeni metrik, hem FID hem de DI tarafından gösterilen iyileştirilmiş denge ile uzamsal farkındalığı Üreticiye kodladıktan sonra faydalı bir düşüş gösterdi.

Araştırmacılar şu sonuca varıyor:

"Bu çalışmanın GAN dengesini yeniden gözden geçirmek için daha fazla çalışmaya ilham vermesini ve GAN dengesini hareket ettirerek görüntü sentezi kalitesini iyileştirmek için daha yeni yöntemler geliştirmesini umuyoruz." Gelecekteki çalışmalarımızda bu konuda daha fazla teorik araştırma da yapacağız.'

Ve devam et:

Niteliksel sonuçlar, yöntemimizin başarılı bir şekilde [Jeneratörü belirli bölgelere konsantre olmaya zorladığını] gösteriyor. Çeşitli veri kümeleri üzerindeki deneyler, yöntemimizin GAN eğitimindeki dengesizliği azalttığını ve genel görüntü sentezi kalitesini önemli ölçüde iyileştirdiğini doğrulamaktadır. Uzamsal farkındalığa sahip ortaya çıkan model, aynı zamanda çıktı görüntüsünün etkileşimli olarak manipüle edilmesini de sağlar.'

Proje hakkında daha fazla ayrıntı ve bir GAN'daki gizli alanın dinamik ve etkileşimli keşfine ilişkin daha fazla örnek için aşağıdaki videoya göz atın.

Mekansal Farkındalığı Arttırarak GAN Dengesini İyileştirme