Yapay Zeka
Bir GAN'ın Gizli Alanını "Bloblar" İle Düzenleme
UC Berkeley ve Adobe tarafından yapılan yeni araştırma, Generative Adversarial Network (GAN) tarafından oluşturulabilen, ancak genellikle Photoshop'ta uzun süredir bilinen bir şekilde kontrol edilemeyen, canlandırılamayan veya serbestçe manipüle edilemeyen hipergerçek içeriği doğrudan düzenlemenin bir yolunu sunuyor. kullanıcıları ve CGI uygulayıcıları.
Başlıklı BlobGANyöntem, GAN'ın gizli alanı içindeki içerikle doğrudan eşlenen matematiksel yapılar olan bir "blob" ızgarası oluşturmayı içerir.
Blobları hareket ettirerek, 'nesneleri' bir sahne temsilinde, GAN'ın gizli alanını eşlemeye ve kontrol etmeye yönelik mevcut girişimlerin çoğundan daha çok CGI ve CAD yöntemlerine daha yakın sezgisel bir şekilde hareket ettirebilirsiniz:
Bloblar, GAN'larda haritalanan sahnedeki "nesnelere" karşılık geldiğinden gizli alan, tüm nesneler çözülür önsel, bunları ayrı ayrı değiştirmeyi mümkün kılar:
Fotoğraf düzenleme (hatta metin düzenleme) yazılımındaki herhangi bir nesnede olduğu gibi, bir damla çoğaltılabilir ve ardından manipüle edilebilir:
BlobGAN, kullanıcı tarafından seçilen yeni görüntüleri gizli alanına da ayrıştırabilir:
Daha fazla sonuç görülebilir okuyunve beraberindeki YouTube video (bu makalenin sonunda gömülü). Ayrıca etkileşimli bir Colab var gösteri* ve bir GitHub repo**.
Bu tür araçsallık ve kapsam, Photoshop sonrası çağda naif görünebilir ve Cinema4D ve Blender gibi parametrik yazılım paketleri, kullanıcıların onlarca yıldır 3B dünyalar oluşturmasına ve özelleştirmesine olanak tanıyor; ancak, gizli kodlara eşlenen vekil varlıkların kullanımıyla, bir Üretken Düşman Ağındaki gizli alanın tuhaflıklarını ve esrarengiz doğasını evcilleştirmek için umut verici bir yaklaşımı temsil ediyor.
Yazarlar şunları iddia ediyor:
"İç mekan sahnelerinden oluşan zorlu çok kategorili bir veri kümesinde, BlobGAN, FID ile ölçüldüğü üzere görüntü kalitesinde Style-GAN2'den daha iyi performans gösteriyor."
The kâğıt başlıklı BlobGAN: Mekansal Olarak Çözülmüş Sahne TemsilleriUC Berkeley'den iki araştırmacı ve Adobe Research'ten üç araştırmacı tarafından yazılmıştır.
Aracı
BlobGAN, GAN görüntü sentezine yeni bir paradigma getiriyor. Gizli alandaki ayrı varlıkları ele almaya yönelik önceki yaklaşımlar, yeni makalenin işaret ettiği gibi, ya "yukarıdan aşağıya" ya da "aşağıdan yukarıya" olmuştur.
Bir GAN veya görüntü sınıflandırıcıdaki yukarıdan aşağıya bir yöntem, sahnelerin görüntülerini "yatak odası", "kilise", "yüz" vb. OpenAI'den en son DALL-E 2 gibi.
Aşağıdan yukarıya yaklaşımlar bunun yerine bir görüntüdeki her pikseli bir sınıfa, etikete veya kategoriye eşler. Bu tür yaklaşımlar, farklı teknikler kullanır, ancak semantik bölümleme bir popüler güncel araştırma kolu.
Yazarlar yorum:
"Her iki yol da tatmin edici görünmüyor çünkü ikisi de sahnenin bölümleri hakkında varlık olarak akıl yürütmenin kolay yollarını sağlayamaz." Sahne parçaları ya tek bir dolaşık gizli vektör (yukarıdan aşağıya) halinde pişirilir ya da ayrı ayrı piksel etiketlerinden (aşağıdan yukarıya) birlikte gruplandırılması gerekir.'
Bunun yerine, BlobGAN bir denetimsiz orta düzey temsilveya üretken modeller için proxy çerçevesi.
Gauss (ör. gürültü tabanlı) damlalar derinlik sırasına sahiptir ve mimaride her varlığa bir eşleme atayan bir darboğazı temsil eder ve GAN içerik manipülasyonunun önündeki en büyük engeli çözer: çözme (ayrıca bir sorun otomatik kodlayıcı tabanlı mimariler için). Ortaya çıkan "damla haritası", BlobGAN'ın kod çözücüsünü değiştirmek için kullanılır.
Yazarlar, sistemin açık etiketler kullanmayan hazır bir ayrımcı aracılığıyla sahneleri düzenlere ve varlıklara ayırmayı öğrendiğini biraz şaşırtarak belirtiyorlar.
Mimari ve Veri
Blob haritasındaki varlıklar, revize edilmiş bir StyleGAN2 türevi aracılığıyla görüntülere dönüştürülür ağ, önceki NVIDIA araştırmalarından ilham alan bir yaklaşımla.
StyleGAN 2, BlobGAN'da genellikle olduğu gibi tek bir genel vektör yerine blob haritasından girdi kabul edecek şekilde değiştirilir.
Benzer şekilde, BlobGAN, geniş ve karmaşık bir binayı (gizli alan) bir kerede var etmek ve ardından sonsuz yan yollarını keşfetmek zorunda kalmak yerine, bileşen bloklarını başlangıçta gönderir ve her zaman nerede olduklarını bilir. İçerik ve konumun bu şekilde çözülmesi, çalışmanın en büyük yeniliğidir.
* Yazma sırasında işlevsel değil
** Kod, yazı yazıldığı sırada henüz yayınlanmadı
İlk olarak 8 Mayıs 2022'de yayınlandı.