Yapay Zeka

Bir GAN'ın Gizli Alanını "Bloblar" İle Düzenleme

Güncellenmiş on 9 Aralık 2022

UC Berkeley ve Adobe tarafından yapılan yeni araştırma, Generative Adversarial Network (GAN) tarafından oluşturulabilen, ancak genellikle Photoshop'ta uzun süredir bilinen bir şekilde kontrol edilemeyen, canlandırılamayan veya serbestçe manipüle edilemeyen hipergerçek içeriği doğrudan düzenlemenin bir yolunu sunuyor. kullanıcıları ve CGI uygulayıcıları.

Başlıklı BlobGANyöntem, GAN'ın gizli alanı içindeki içerikle doğrudan eşlenen matematiksel yapılar olan bir "blob" ızgarası oluşturmayı içerir.

Blobları hareket ettirerek, 'nesneleri' bir sahne temsilinde, GAN'ın gizli alanını eşlemeye ve kontrol etmeye yönelik mevcut girişimlerin çoğundan daha çok CGI ve CAD yöntemlerine daha yakın sezgisel bir şekilde hareket ettirebilirsiniz:

BlobGAN ile sahne manipülasyonu: "bloblar" kullanıcı tarafından hareket ettirildikçe, GAN'daki gizli nesnelerin ve stillerin düzeni buna uygun olarak değiştirilir. Daha fazla örnek için, bu makalenin sonunda veya https://www.youtube.com/watch?v=KpUv82VsU5k adresinde bulunan makaleye eşlik eden videoya bakın.

Bloblar, GAN'larda haritalanan sahnedeki "nesnelere" karşılık geldiğinden gizli alan, tüm nesneler çözülür önsel, bunları ayrı ayrı değiştirmeyi mümkün kılar:

Diğer işlemlerin yanı sıra nesneler yeniden boyutlandırılabilir, küçültülebilir, klonlanabilir ve kaldırılabilir.

Fotoğraf düzenleme (hatta metin düzenleme) yazılımındaki herhangi bir nesnede olduğu gibi, bir damla çoğaltılabilir ve ardından manipüle edilebilir:

Bloblar arabirimde çoğaltılabilir ve karşılık gelen gizli temsilleri de "kopyalanıp yapıştırılır". Kaynak: https://dave.ml/blobgan/#results

BlobGAN, kullanıcı tarafından seçilen yeni görüntüleri gizli alanına da ayrıştırabilir:

BlobGAN ile, manipüle etmek istediğiniz görüntüleri doğrudan eğitim verilerine dahil etmeniz ve ardından bunların gizli kodlarını bulmanız gerekmez, ancak istediğiniz görüntüleri seçip bunları manipüle edebilirsiniz. Burada değiştirilen fotoğraflar gerçek sonrası kullanıcı girişidir. Kaynak: https://dave.ml/blobgan/#results

Daha fazla sonuç görülebilir okuyunve beraberindeki YouTube video (bu makalenin sonunda gömülü). Ayrıca etkileşimli bir Colab var gösteri* ve bir GitHub repo**.

Bu tür araçsallık ve kapsam, Photoshop sonrası çağda naif görünebilir ve Cinema4D ve Blender gibi parametrik yazılım paketleri, kullanıcıların onlarca yıldır 3B dünyalar oluşturmasına ve özelleştirmesine olanak tanıyor; ancak, gizli kodlara eşlenen vekil varlıkların kullanımıyla, bir Üretken Düşman Ağındaki gizli alanın tuhaflıklarını ve esrarengiz doğasını evcilleştirmek için umut verici bir yaklaşımı temsil ediyor.

Yazarlar şunları iddia ediyor:

"İç mekan sahnelerinden oluşan zorlu çok kategorili bir veri kümesinde, BlobGAN, FID ile ölçüldüğü üzere görüntü kalitesinde Style-GAN2'den daha iyi performans gösteriyor."

The kâğıt başlıklı BlobGAN: Mekansal Olarak Çözülmüş Sahne TemsilleriUC Berkeley'den iki araştırmacı ve Adobe Research'ten üç araştırmacı tarafından yazılmıştır.

Aracı

BlobGAN, GAN görüntü sentezine yeni bir paradigma getiriyor. Gizli alandaki ayrı varlıkları ele almaya yönelik önceki yaklaşımlar, yeni makalenin işaret ettiği gibi, ya "yukarıdan aşağıya" ya da "aşağıdan yukarıya" olmuştur.

Bir GAN veya görüntü sınıflandırıcıdaki yukarıdan aşağıya bir yöntem, sahnelerin görüntülerini "yatak odası", "kilise", "yüz" vb. OpenAI'den en son DALL-E 2 gibi.

Aşağıdan yukarıya yaklaşımlar bunun yerine bir görüntüdeki her pikseli bir sınıfa, etikete veya kategoriye eşler. Bu tür yaklaşımlar, farklı teknikler kullanır, ancak semantik bölümleme bir popüler güncel araştırma kolu.

Yazarlar yorum:

"Her iki yol da tatmin edici görünmüyor çünkü ikisi de sahnenin bölümleri hakkında varlık olarak akıl yürütmenin kolay yollarını sağlayamaz." Sahne parçaları ya tek bir dolaşık gizli vektör (yukarıdan aşağıya) halinde pişirilir ya da ayrı ayrı piksel etiketlerinden (aşağıdan yukarıya) birlikte gruplandırılması gerekir.'

Bunun yerine, BlobGAN bir denetimsiz orta düzey temsilveya üretken modeller için proxy çerçevesi.

Düzen ağı, yerel (ve kontrol edilebilir) 'blob' varlıklarını gizli kodlara eşler. Merkezdeki renkli daireler bir 'damla haritası' içerir. Kaynak: https://arxiv.org/pdf/2205.02837.pdf

Gauss (ör. gürültü tabanlı) damlalar derinlik sırasına sahiptir ve mimaride her varlığa bir eşleme atayan bir darboğazı temsil eder ve GAN içerik manipülasyonunun önündeki en büyük engeli çözer: çözme (ayrıca bir sorun otomatik kodlayıcı tabanlı mimariler için). Ortaya çıkan "damla haritası", BlobGAN'ın kod çözücüsünü değiştirmek için kullanılır.

Yazarlar, sistemin açık etiketler kullanmayan hazır bir ayrımcı aracılığıyla sahneleri düzenlere ve varlıklara ayırmayı öğrendiğini biraz şaşırtarak belirtiyorlar.

Mimari ve Veri

Blob haritasındaki varlıklar, revize edilmiş bir StyleGAN2 türevi aracılığıyla görüntülere dönüştürülür ağ, önceki NVIDIA araştırmalarından ilham alan bir yaklaşımla.

NVIDIA Research'ten revize edilmiş bir StyleGAN 2 türevi. Bu çalışmadaki bazı ilkeler BlobGAN için benimsenmiş veya uyarlanmıştır. Kaynak: https://arxiv.org/pdf/1912.04958.pdf

StyleGAN 2, BlobGAN'da genellikle olduğu gibi tek bir genel vektör yerine blob haritasından girdi kabul edecek şekilde değiştirilir.

Bir yatak odası sahnesinin "otomatik tamamlanması" ve odadaki öğelerin yeniden boyutlandırılması ve yerlerinin değiştirilmesi dahil olmak üzere BlobGAN tarafından mümkün kılınan bir dizi manipülasyon. Aşağıdaki satırda, bunu mümkün kılan, kullanıcı tarafından erişilebilen aracı görüyoruz: blob haritası.

Boş bir yatak odası sahnesinin "otomatik tamamlanması" ve odadaki öğelerin yeniden boyutlandırılması ve yerlerinin değiştirilmesi dahil olmak üzere, BlobGAN tarafından mümkün kılınan bir dizi manipülasyon. Aşağıdaki satırda, bunu mümkün kılan, kullanıcı tarafından erişilebilen aracı görüyoruz: blob haritası.

Benzer şekilde, BlobGAN, geniş ve karmaşık bir binayı (gizli alan) bir kerede var etmek ve ardından sonsuz yan yollarını keşfetmek zorunda kalmak yerine, bileşen bloklarını başlangıçta gönderir ve her zaman nerede olduklarını bilir. İçerik ve konumun bu şekilde çözülmesi, çalışmanın en büyük yeniliğidir.

BlobGAN: Mekansal Olarak Çözülmüş Sahne Temsilleri