Umělá inteligence
Editace latentního prostoru GAN pomocí ‘blobů’

Nová výzkum z UC Berkeley a Adobe nabízí způsob, jak přímo editovat hyperrealistický obsah, který lze vytvořit pomocí Generative Adversarial Network (GAN), ale který obvykle nelze ovládat, animovat nebo volně manipulovat způsobem, který je dlouho znám uživatelům Photoshopu a CGI praktikům.
Titled BlobGAN, metoda zahrnuje vytvoření mřížky ‘blobů’ – matematických konstrukcí, které mapují přímo na obsah v latentním prostoru GAN.
Pohybem blobů můžete pohybovat ‘objekty’ v reprezentaci scény, intuitivním způsobem, který je bližší CGI a CAD metodám než mnoho současných pokusů o mapování a kontrolu latentního prostoru GAN:

Manipulace scény s BlobGAN: když uživatel pohybuje ‘bloby’, dispozice latentních objektů a stylů v GAN jsou odpovídajícím způsobem změněny. Pro více příkladů, viz doprovodné video na konci tohoto článku nebo na https://www.youtube.com/watch?v=KpUv82VsU5k
Pоскольку blobы odpovídají ‘objektům’ v scéně mapované v latentním prostoru GAN, všechny objekty jsou disentangled a priori, což umožňuje změnit je individuálně:

Objekty lze měnit, zmenšovat, klonovat a odstraňovat, mezi jinými operacemi.
Stejně jako jakýkoli objekt v softwaru pro editaci fotografií (nebo dokonce textového editoru), blob lze duplikovat a následně manipulovat:

Bloby lze duplikovat v rozhraní a jejich odpovídající latentní reprezentace budou také ‘zkopírovány a vloženy’. Zdroj: https://dave.ml/blobgan/#results
BlobGAN může také analyzovat nové, uživatelsky vybrané obrázky do svého latentního prostoru:

S BlobGAN nemusíte přímo začlenit obrázky, které chcete manipulovat, do trénovacího dat a pak hledat jejich latentní kódy, ale můžete vstupovat vybrané obrázky podle potřeby a manipulovat s nimi. Zdroj: https://dave.ml/blobgan/#results
Více výsledků lze vidět zde, a v doprovodném YouTube videu (vloženém na konci tohoto článku). Existuje také interaktivní Colab demo*, a GitHub repo**.
Tento druh instrumentality a rozsahu může vypadat naivně v post-Photoshop éře, a parametrické softwarové balíčky, jako je Cinema4D a Blender, umožňují uživatelům vytvářet a přizpůsobovat 3D světy po desetiletí; ale představuje slibný přístup k uklidnění excentricit a záhadného charakteru latentního prostoru v Generative Adversarial Network, pomocí proxy entit, které jsou mapovány na latentní kódy.
Autoři tvrdí:
‘Na výzvou multi-kategoriální dataset vnitřních scén, BlobGAN překonává Style-GAN2 v kvalitě obrazu, měřeno pomocí FID.’
Článek je nazvaný BlobGAN: Prostorově disentangled scénové reprezentace, a je napsán dvěma výzkumníky z UC Berkeley, společně se třemi z Adobe Research.
Prostředník
BlobGAN přináší nový paradigma do GAN obrazové syntézy. Předchozí přístupy k řešení diskrétních entit v latentním prostoru, nový článek poukazuje, byly buď ‘shora dolů’ nebo ‘zdola nahoru’.
Metoda shora dolů v GAN nebo obrazovém klasifikátoru zachází s obrázky scén jako s třídami, jako je ‘ložnice’, ‘kostel’, ‘tvář’, atd. Tento druh text-obrázek pairingu pohání novou generaci multimodálních obrazových syntetických rámců, jako je nedávný DALL-E 2 od OpenAI.
Přístupy zdola nahoru místo toho mapují každý pixel v obraze do třídy, štítku nebo kategorie. Tyto přístupy používají různé techniky, ačkoli semantická segmentace je populární současný výzkumný směr.
Autoři komentují:
‘Oba přístupy se zdají být nesatisfakční, protože ani jeden nemůže poskytnout snadný způsob, jak uvažovat o částech scény jako entitách. Části scény jsou buď zapékány do jediného spleteného latentního vektoru (shora dolů), nebo je třeba je seskupit dohromady z individuálních pixelových štítků (zdola nahoru).’
Místo toho BlobGAN nabízí nadřízenou mid-level reprezentaci, nebo proxy rámec pro generativní modely.

Síť layoutu mapuje místní (a ovladatelné) ‘blob’ entity na latentní kódy. Barevné kruhy ve středu tvoří ‘blob mapu’. Zdroj: https://arxiv.org/pdf/2205.02837.pdf
Gaussovské (tj. založené na šumu) bloby jsou depth-ordered, a reprezentují látku v architektuře, která přiřazuje mapování každému entitě, řeší největší překážku, která je zde pro GAN obsah manipulace: disentanglement (také problém pro autoencoder-založené architektury). Výsledná ‘blob mapa’ se používá k manipulaci dekodéru BlobGAN.
Autoři poznamenávají s určitým překvapením, že systém se učí rozložit scény do layoutů a entit prostřednictvím off-the-shelf diskriminátoru, který nevyužívá explicitní štítky.
Architektura a data
Entity v blob mapě jsou převedeny na obrázky prostřednictvím revidované StyleGAN2-derived sítě, v přístupu, který čerpá inspiraci z předchozího výzkumu NVIDIA.

Revidovaná StyleGAN 2 od NVIDIA Research. Některé z principů v této práci byly přijaty nebo adaptovány pro BlobGAN. Zdroj: https://arxiv.org/pdf/1912.04958.pdf
StyleGAN 2 je modifikován v BlobGAN, aby přijímal vstup z blob mapy místo jediného globálního vektoru, jako je obvykle případ.

Řada manipulací, které jsou možné s BlobGAN, včetně ‘autodoplnění’ scény ložnice, a změny velikosti a přemístění prvků v místnosti. V řádku níže vidíme uživatelsky přístupnou instrumentality, která umožňuje toto – blob mapa.
Analogicky, místo toho, aby se vytvořila obrovská a komplexní budova (latentní prostor) najednou, a pak musela prozkoumat její nekonečné cesty, BlobGAN pošle komponentní bloky na začátku, a vždy ví, kde jsou. Tato disentanglement obsahu a umístění je hlavní inovací této práce.
https://www.youtube.com/watch?v=KpUv82VsU5k
* Nefunkční v době psaní
** Kód nebyl dosud zveřejněn v době psaní
Poprvé zveřejněno 8. května 2022.












