Bizimle iletişime geçin

Yapay Zeka

Bir GAN'ın Gizli Alanını "Bloblar" İle Düzenleme

mm

UC Berkeley ve Adobe'nin yeni araştırması, Üretken Çatışmacı Ağ (GAN) tarafından oluşturulabilen, ancak Photoshop kullanıcıları ve CGI uygulayıcılarının uzun zamandır aşina olduğu bir şekilde kontrol edilemeyen, canlandırılamayan veya serbestçe değiştirilemeyen hipergerçek içeriği doğrudan düzenlemenin bir yolunu sunuyor.

Başlıklı BlobGANYöntem, GAN'ın gizli alanındaki içeriğe doğrudan eşlenen matematiksel yapılar olan 'blob'lardan oluşan bir ızgara oluşturmayı içerir.

Blobları hareket ettirerek, sahne gösterimindeki 'nesneleri', GAN'ın gizli alanını haritalamak ve kontrol etmek için yapılan mevcut girişimlerin çoğundan daha çok CGI ve CAD yöntemlerine yakın, sezgisel bir şekilde hareket ettirebilirsiniz:

BlobGAN ile sahne manipülasyonu: "bloblar" kullanıcı tarafından hareket ettirildikçe, GAN'daki gizli nesnelerin ve stillerin düzeni buna uygun olarak değiştirilir. Daha fazla örnek için, bu makalenin sonunda veya https://www.youtube.com/watch?v=KpUv82VsU5k adresinde bulunan makaleye eşlik eden videoya bakın.

BlobGAN ile sahne manipülasyonu: 'Blob'lar kullanıcı tarafından hareket ettirildikçe, GAN'daki gizli nesnelerin ve stillerin düzeni de buna göre değişir. Daha fazla örnek için, bu makalenin sonunda yer alan makaleye eşlik eden videoyu veya https://www.youtube.com/watch?v=KpUv82VsU5k adresini izleyin.

Bloblar, GAN'da haritalanan sahnedeki 'nesnelere' karşılık geldiğinden gizli alan, tüm nesneler çözülür önsel, bunları ayrı ayrı değiştirmeyi mümkün kılar:

Diğer işlemlerin yanı sıra nesneler yeniden boyutlandırılabilir, küçültülebilir, klonlanabilir ve kaldırılabilir.

Diğer işlemlerin yanı sıra nesneler yeniden boyutlandırılabilir, küçültülebilir, klonlanabilir ve kaldırılabilir.

Fotoğraf düzenleme (hatta metin düzenleme) yazılımındaki herhangi bir nesnede olduğu gibi, bir damla çoğaltılabilir ve ardından manipüle edilebilir:

Bloblar arabirimde çoğaltılabilir ve karşılık gelen gizli temsilleri de "kopyalanıp yapıştırılır". Kaynak: https://dave.ml/blobgan/#results

Blob'lar arayüzde çoğaltılabilir ve bunlara karşılık gelen gizli temsiller de 'kopyalanıp yapıştırılabilir'. Kaynak: https://dave.ml/blobgan/#results

BlobGAN, kullanıcı tarafından seçilen yeni görüntüleri gizli alanına da ayrıştırabilir:

BlobGAN ile, manipüle etmek istediğiniz görüntüleri doğrudan eğitim verilerine dahil etmeniz ve ardından bunların gizli kodlarını bulmanız gerekmez, ancak seçtiğiniz görüntüleri istediğiniz zaman girip bunları manipüle edebilirsiniz. Burada değiştirilen fotoğraflar gerçek sonrası kullanıcı girişidir. Kaynak: https://dave.ml/blobgan/#results

BlobGAN ile, işlemek istediğiniz görüntüleri doğrudan eğitim verilerine dahil edip gizli kodlarını aramanıza gerek kalmaz; istediğiniz görüntüleri girip işleyebilirsiniz. Burada değiştirilen fotoğraflar, sonradan kullanıcı tarafından girilmiştir. Kaynak: https://dave.ml/blobgan/#results

Daha fazla sonuç görülebilir okuyunve beraberindeki YouTube video (bu makalenin sonunda gömülü). Ayrıca etkileşimli bir Colab var gösteri* ve bir GitHub repo**.

Bu tür araçsallık ve kapsam, Photoshop sonrası çağda naif görünebilir ve Cinema4D ve Blender gibi parametrik yazılım paketleri, kullanıcıların onlarca yıldır 3B dünyalar oluşturmasına ve özelleştirmesine olanak tanıyor; ancak, gizli kodlara eşlenen vekil varlıkların kullanımıyla, bir Üretken Düşman Ağındaki gizli alanın tuhaflıklarını ve esrarengiz doğasını evcilleştirmek için umut verici bir yaklaşımı temsil ediyor.

Yazarlar şunları iddia ediyor:

'İç mekan sahnelerinden oluşan zorlu bir çok kategorili veri setinde, BlobGAN, FID ile ölçüldüğünde görüntü kalitesi açısından Style-GAN2'den daha iyi performans gösteriyor.'

MKS kâğıt başlıklı BlobGAN: Mekansal Olarak Çözülmüş Sahne TemsilleriUC Berkeley'den iki araştırmacı ve Adobe Research'ten üç araştırmacı tarafından yazılmıştır.

Aracı

BlobGAN, GAN görüntü sentezine yeni bir paradigma getiriyor. Yeni makale, gizli uzaydaki ayrık varlıkları ele almaya yönelik önceki yaklaşımların ya "yukarıdan aşağıya" ya da "aşağıdan yukarıya" olduğunu belirtiyor.

GAN veya görüntü sınıflandırıcıdaki yukarıdan aşağıya bir yöntem, sahnelerin görüntülerini 'yatak odası', 'kilise', 'yüz' vb. gibi sınıflar olarak ele alır. Bu tür metin/görüntü eşleştirmesi, OpenAI'nin yakın zamanda geliştirdiği DALL-E 2 gibi yeni nesil çok modlu görüntü sentezi çerçevelerine güç sağlar.

Aşağıdan yukarıya yaklaşımlar bunun yerine bir görüntüdeki her pikseli bir sınıfa, etikete veya kategoriye eşler. Bu tür yaklaşımlar, farklı teknikler kullanır, ancak semantik bölümleme bir popüler güncel araştırma kolu.

Yazarlar yorum:

'Her iki yol da tatmin edici görünmüyor çünkü hiçbiri sahnenin parçalarını varlıklar olarak akıl yürütmenin kolay yollarını sunamıyor. Sahne parçaları ya tek bir dolaşık gizli vektöre (yukarıdan aşağıya) işleniyor ya da ayrı piksel etiketlerinden (aşağıdan yukarıya) gruplandırılmaları gerekiyor.'

Bunun yerine, BlobGAN bir denetimsiz orta düzey temsilveya üretken modeller için proxy çerçevesi.

Düzen ağı, yerel (ve kontrol edilebilir) 'blob' varlıklarını gizli kodlara eşler. Merkezdeki renkli daireler bir 'damla haritası' içerir. Kaynak: https://arxiv.org/pdf/2205.02837.pdf

Düzen ağı, yerel (ve kontrol edilebilir) 'blob' varlıklarını gizli kodlara eşler. Ortadaki renkli daireler bir 'blob haritası' oluşturur. Kaynak: https://arxiv.org/pdf/2205.02837.pdf

Gauss (ör. gürültü tabanlı) damlalar derinlik sırasına sahiptir ve mimaride her varlığa bir eşleme atayan bir darboğazı temsil eder ve GAN içerik manipülasyonunun önündeki en büyük engeli çözer: çözme (ayrıca bir sorun (otokoder tabanlı mimariler için). Ortaya çıkan 'blob haritası', BlobGAN'ın kod çözücüsünü yönetmek için kullanılır.

Yazarlar, sistemin açık etiketler kullanmayan hazır bir ayrımcı aracılığıyla sahneleri düzenlere ve varlıklara ayırmayı öğrendiğini biraz şaşırtarak belirtiyorlar.

Mimari ve Veri

Blob haritasındaki varlıklar, revize edilmiş bir StyleGAN2 türevi aracılığıyla görüntülere dönüştürülür , önceki NVIDIA araştırmalarından ilham alan bir yaklaşımla.

NVIDIA Research'ten revize edilmiş bir StyleGAN 2 türevi. Bu çalışmadaki bazı ilkeler BlobGAN için benimsenmiş veya uyarlanmıştır. Kaynak: https://arxiv.org/pdf/1912.04958.pdf

NVIDIA Research'ten revize edilmiş bir StyleGAN 2 türevi. Bu çalışmadaki bazı ilkeler BlobGAN için benimsenmiş veya uyarlanmıştır. Kaynak: https://arxiv.org/pdf/1912.04958.pdf

StyleGAN 2, BlobGAN'da genellikle olduğu gibi tek bir genel vektör yerine blob haritasından girdi kabul edecek şekilde değiştirilir.

Bir yatak odası sahnesinin "otomatik tamamlanması" ve odadaki öğelerin yeniden boyutlandırılması ve yerlerinin değiştirilmesi dahil olmak üzere BlobGAN tarafından mümkün kılınan bir dizi manipülasyon. Aşağıdaki satırda, bunu mümkün kılan, kullanıcı tarafından erişilebilen aracı görüyoruz: blob haritası.

BlobGAN'ın mümkün kıldığı bir dizi manipülasyon, boş bir yatak odası sahnesinin 'otomatik tamamlanması' ve odadaki öğelerin yeniden boyutlandırılması ve yerlerinin değiştirilmesi gibi işlemleri içerir. Aşağıdaki satırda, bunu mümkün kılan kullanıcı tarafından erişilebilir aracı, yani blob haritasını görüyoruz.

Benzer şekilde, BlobGAN, geniş ve karmaşık bir binayı (gizli alan) bir kerede var etmek ve ardından sonsuz yan yollarını keşfetmek zorunda kalmak yerine, bileşen bloklarını başlangıçta gönderir ve her zaman nerede olduklarını bilir. İçerik ve konumun bu şekilde çözülmesi, çalışmanın en büyük yeniliğidir.

 

* Yazma sırasında işlevsel değil
** Kod, yazı yazıldığı sırada henüz yayınlanmadı

 

İlk olarak 8 Mayıs 2022'de yayınlandı.

Makine öğrenimi yazarı, insan görüntü sentezi alanında uzman. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel sitesi: martinanderson.ai
İletişim [e-posta korumalı]
Twitter: @manders_ai