Umelá inteligencia

Úprava latentného priestoru GAN pomocou „Blobs“

Aktualizované on Decembra 9, 2022

Nový výskum od UC Berkeley a Adobe ponúka spôsob, ako priamo upravovať hyperreálny obsah, ktorý môže byť vytvorený pomocou siete Generative Adversarial Network (GAN), ale ktorý sa zvyčajne nedá ovládať, animovať ani s ním voľne manipulovať spôsobom známym Photoshopu. používateľov a odborníkov v oblasti CGI.

s názvom BlobGAN, metóda zahŕňa vytvorenie mriežky „blobov“ – matematických konštruktov, ktoré sa priamo mapujú na obsah v latentnom priestore GAN.

Posúvaním kvapôčok môžete presúvať „objekty“ v reprezentácii scény intuitívnym spôsobom, ktorý je bližšie k metódam CGI a CAD ako mnohé zo súčasných pokusov o mapovanie a riadenie latentného priestoru GAN:

Manipulácia so scénou s BlobGAN: keď používateľ pohybuje „bloby“, zodpovedajúcim spôsobom sa mení rozmiestnenie skrytých objektov a štýlov v GAN. Ďalšie príklady nájdete v sprievodnom videu k článku, ktoré je vložené na konci tohto článku, alebo na https://www.youtube.com/watch?v=KpUv82VsU5k

Pretože bloby zodpovedajú „objektom“ v scéne zmapovanej v GAN latentný priestor, všetky predmety sú rozmotané priori, vďaka čomu je možné ich individuálne meniť:

Okrem iných operácií je možné meniť veľkosť, zmenšovať, klonovať a odstraňovať objekty.

Rovnako ako pri akomkoľvek objekte v softvéri na úpravu fotografií (alebo dokonca na úpravu textu), aj objekt blob možno duplikovať a následne s ním manipulovať:

Bloby je možné duplikovať v rozhraní a ich zodpovedajúce latentné reprezentácie sa tiež „skopírujú a prilepia“. Zdroj: https://dave.ml/blobgan/#results

BlobGAN môže tiež analyzovať nové, používateľom vybrané obrázky do svojho latentného priestoru:

S BlobGAN nemusíte obrázky, s ktorými chcete manipulovať, začleňovať priamo do tréningových údajov a potom hľadať ich latentné kódy, ale môžete ľubovoľne vkladať vybrané obrázky a manipulovať s nimi. Fotografie, ktoré sa tu menia, sú post-facto vstupom používateľa. Zdroj: https://dave.ml/blobgan/#results

Je možné vidieť viac výsledkov tua v sprievodných YouTube Video (vložené na konci tohto článku). K dispozícii je tiež interaktívny Colab demonštrácie* a GitHub repo,

Tento druh inštrumentality a rozsahu sa môže zdať naivný v dobe po Photoshope a parametrické softvérové balíky ako Cinema4D a Blender už desaťročia umožňujú používateľom vytvárať a prispôsobovať 3D svety; ale predstavuje sľubný prístup ku skroteniu výstredností a tajomnej povahy latentného priestoru v generatívnej adverznej sieti pomocou proxy entít, ktoré sú mapované na latentné kódy.

Autori tvrdia:

"V náročnom súbore údajov viacerých kategórií interiérových scén BlobGAN prekonáva Style-GAN2 v kvalite obrazu podľa merania FID."

papier je s názvom BlobGAN: Priestorovo rozčlenené scénya napísali ju dvaja výskumníci z UC Berkeley spolu s tromi z Adobe Research.

Stredný muž

BlobGAN prináša novú paradigmu syntézy obrázkov GAN. Nový dokument poukazuje na to, že predchádzajúce prístupy k riešeniu diskrétnych entít v latentnom priestore boli buď „zhora nadol“ alebo „zdola nahor“.

Metóda zhora nadol v GAN alebo klasifikátore obrázkov zaobchádza s obrázkami scén ako s triedami, ako napríklad „spálňa“, „kostol“, „tvár“ atď. Tento druh párovania text/obrázok poháňa novú generáciu rámcov multimodálnej syntézy obrázkov. , ako napríklad nedávny DALL-E 2 od OpenAI.

Prístup zdola nahor namiesto toho mapuje každý pixel v obrázku do triedy, štítka alebo kategórie. Takéto prístupy využívajú rôzne techniky, hoci sémantická segmentácia je a populárny prúd súčasného výskumu.

Autori komentujú:

„Obe cesty sa zdajú neuspokojivé, pretože ani jedna nemôže poskytnúť jednoduché spôsoby uvažovania o častiach scény ako o entitách. Časti scény sú buď zapečené do jedného zapleteného latentného vektora (zhora nadol), alebo je potrebné ich zoskupiť z jednotlivých štítkov pixelov (zdola nahor).'

BlobGAN skôr ponúka zastúpenie na strednej úrovni bez dozorualebo proxy rámec pre generatívne modely.

Sieť rozloženia mapuje lokálne (a ovládateľné) entity „blobu“ na latentné kódy. Farebné kruhy v strede tvoria „mapu kvapôčok“. Zdroj: https://arxiv.org/pdf/2205.02837.pdf

Gaussovské (tj na šume založené) bloby sú usporiadané do hĺbky a predstavujú prekážku v architektúre, ktorá priraďuje mapovanie každej entite, čím rieši najväčšiu prekážku manipulácie s obsahom GAN: rozuzlenie (tiež problém pre architektúry založené na autokóderoch). Výsledná „mapa kvapôčok“ sa používa na manipuláciu s dekodérom BlobGAN.

Autori s istým prekvapením poznamenávajú, že systém sa učí rozkladať scény do rozložení a entít pomocou bežného diskriminátora, ktorý nepoužíva explicitné označenia.

Architektúra a dáta

Entity na mape blobu sa konvertujú na obrázky prostredníctvom revidovaného štýlu odvodeného od StyleGAN2 sieť, v prístupe, ktorý sa inšpiruje predchádzajúcim výskumom NVIDIA.

Revidovaný derivát StyleGAN 2 od spoločnosti NVIDIA Research. Niektoré princípy v tejto práci boli prijaté alebo upravené pre BlobGAN. Zdroj: https://arxiv.org/pdf/1912.04958.pdf

StyleGAN 2 je upravený v BlobGAN tak, aby akceptoval vstup z mapy objektov BLOB namiesto jedného globálneho vektora, ako je to zvyčajne.

Séria manipulácií, ktoré umožnil BlobGAN, vrátane „automatického dokončenia“ scény v spálni a zmeny veľkosti a premiestnenia prvkov v miestnosti. V riadku nižšie vidíme užívateľsky dostupnú inštrumentalitu, ktorá to umožňuje – mapu blob.

Séria manipulácií, ktoré umožnil BlobGAN, vrátane „automatického dokončenia“ scény prázdnej spálne a zmeny veľkosti a premiestnenia prvkov v miestnosti. V riadku nižšie vidíme užívateľsky dostupnú inštrumentalitu, ktorá to umožňuje – mapu blob.

Analogicky, namiesto toho, aby BlobGAN vytvoril obrovskú a komplexnú budovu (latentný priestor) naraz a potom musel preskúmať jej nekonečné cesty, posiela bloky komponentov na začiatku a vždy vie, kde sa nachádzajú. Toto rozuzlenie obsahu a miesta je hlavnou inováciou diela.

BlobGAN: Priestorovo rozčlenené scény