Umelá inteligencia
Úprava latentného priestoru GAN pomocou „Blobs“
Nový výskum od UC Berkeley a Adobe ponúka spôsob, ako priamo upravovať hyperreálny obsah, ktorý môže byť vytvorený pomocou siete Generative Adversarial Network (GAN), ale ktorý sa zvyčajne nedá ovládať, animovať ani s ním voľne manipulovať spôsobom známym Photoshopu. používateľov a odborníkov v oblasti CGI.
s názvom BlobGAN, metóda zahŕňa vytvorenie mriežky „blobov“ – matematických konštruktov, ktoré sa priamo mapujú na obsah v latentnom priestore GAN.
Posúvaním kvapôčok môžete presúvať „objekty“ v reprezentácii scény intuitívnym spôsobom, ktorý je bližšie k metódam CGI a CAD ako mnohé zo súčasných pokusov o mapovanie a riadenie latentného priestoru GAN:
Pretože bloby zodpovedajú „objektom“ v scéne zmapovanej v GAN latentný priestor, všetky predmety sú rozmotané priori, vďaka čomu je možné ich individuálne meniť:
Rovnako ako pri akomkoľvek objekte v softvéri na úpravu fotografií (alebo dokonca na úpravu textu), aj objekt blob možno duplikovať a následne s ním manipulovať:
BlobGAN môže tiež analyzovať nové, používateľom vybrané obrázky do svojho latentného priestoru:
Je možné vidieť viac výsledkov tua v sprievodných YouTube Video (vložené na konci tohto článku). K dispozícii je tiež interaktívny Colab demonštrácie* a GitHub repo,
Tento druh inštrumentality a rozsahu sa môže zdať naivný v dobe po Photoshope a parametrické softvérové balíky ako Cinema4D a Blender už desaťročia umožňujú používateľom vytvárať a prispôsobovať 3D svety; ale predstavuje sľubný prístup ku skroteniu výstredností a tajomnej povahy latentného priestoru v generatívnej adverznej sieti pomocou proxy entít, ktoré sú mapované na latentné kódy.
Autori tvrdia:
"V náročnom súbore údajov viacerých kategórií interiérových scén BlobGAN prekonáva Style-GAN2 v kvalite obrazu podľa merania FID."
papier je s názvom BlobGAN: Priestorovo rozčlenené scénya napísali ju dvaja výskumníci z UC Berkeley spolu s tromi z Adobe Research.
Stredný muž
BlobGAN prináša novú paradigmu syntézy obrázkov GAN. Nový dokument poukazuje na to, že predchádzajúce prístupy k riešeniu diskrétnych entít v latentnom priestore boli buď „zhora nadol“ alebo „zdola nahor“.
Metóda zhora nadol v GAN alebo klasifikátore obrázkov zaobchádza s obrázkami scén ako s triedami, ako napríklad „spálňa“, „kostol“, „tvár“ atď. Tento druh párovania text/obrázok poháňa novú generáciu rámcov multimodálnej syntézy obrázkov. , ako napríklad nedávny DALL-E 2 od OpenAI.
Prístup zdola nahor namiesto toho mapuje každý pixel v obrázku do triedy, štítka alebo kategórie. Takéto prístupy využívajú rôzne techniky, hoci sémantická segmentácia je a populárny prúd súčasného výskumu.
Autori komentujú:
„Obe cesty sa zdajú neuspokojivé, pretože ani jedna nemôže poskytnúť jednoduché spôsoby uvažovania o častiach scény ako o entitách. Časti scény sú buď zapečené do jedného zapleteného latentného vektora (zhora nadol), alebo je potrebné ich zoskupiť z jednotlivých štítkov pixelov (zdola nahor).'
BlobGAN skôr ponúka zastúpenie na strednej úrovni bez dozorualebo proxy rámec pre generatívne modely.
Gaussovské (tj na šume založené) bloby sú usporiadané do hĺbky a predstavujú prekážku v architektúre, ktorá priraďuje mapovanie každej entite, čím rieši najväčšiu prekážku manipulácie s obsahom GAN: rozuzlenie (tiež problém pre architektúry založené na autokóderoch). Výsledná „mapa kvapôčok“ sa používa na manipuláciu s dekodérom BlobGAN.
Autori s istým prekvapením poznamenávajú, že systém sa učí rozkladať scény do rozložení a entít pomocou bežného diskriminátora, ktorý nepoužíva explicitné označenia.
Architektúra a dáta
Entity na mape blobu sa konvertujú na obrázky prostredníctvom revidovaného štýlu odvodeného od StyleGAN2 sieť, v prístupe, ktorý sa inšpiruje predchádzajúcim výskumom NVIDIA.
StyleGAN 2 je upravený v BlobGAN tak, aby akceptoval vstup z mapy objektov BLOB namiesto jedného globálneho vektora, ako je to zvyčajne.
Analogicky, namiesto toho, aby BlobGAN vytvoril obrovskú a komplexnú budovu (latentný priestor) naraz a potom musel preskúmať jej nekonečné cesty, posiela bloky komponentov na začiatku a vždy vie, kde sa nachádzajú. Toto rozuzlenie obsahu a miesta je hlavnou inováciou diela.
* Nefunkčné v čase písania
** Kód v čase písania ešte nebol zverejnený
Prvýkrát uverejnené 8. mája 2022.