Вештачка интелигенција
Уредување на латентниот простор на GAN со „Блобс“
Новото истражување од UC Berkeley и Adobe нуди начин за директно уредување на хиперреалната содржина што може да биде креирана од Generative Adversarial Network (GAN), но која обично не може да се контролира, анимира или слободно да се манипулира на начин познат на Photoshop. корисници и CGI практичари.
насловена BlobGAN, методот вклучува создавање на мрежа од „blobs“ – математички конструкции кои директно се пресликуваат на содржината во латентниот простор на GAN.
Со поместување на дамките, можете да ги преместите „објектите“ во приказ на сцена, на интуитивен начин што е поблиску до CGI и CAD методите отколку многу тековни обиди за мапирање и контрола на латентниот простор на GAN:
Бидејќи дамките кореспондираат со „објекти“ во сцената мапирани во GAN латентен простор, сите предмети се расплетуваат а приори, што овозможува нивно менување поединечно:
Како и со кој било предмет во софтверот за уредување фотографии (или дури и за уредување текст), една дупка може да се дуплира и последователно да се манипулира:
BlobGAN исто така може да анализира нови слики избрани од корисникот во својот латентен простор:
Може да се видат повеќе резултати овде, и во придружните Видео на YouTube (вграден на крајот од овој напис). Има и интерактивна Colab демо* и GitHub репо**
Овој вид инструменталност и опсег може да изгледаат наивни во пост-Photoshop добата, а параметарските софтверски пакети како што се Cinema4D и Blender им дозволуваат на корисниците да создаваат и приспособуваат 3D светови со децении; но тој претставува ветувачки пристап за припитомување на ексцентричностите и таинствената природа на латентниот простор во Генеративната противничка мрежа, со употреба на прокси ентитети кои се мапирани на латентни кодови.
Авторите тврдат:
„На предизвикувачки мулти-категориски сет на сцени во затворени простории, BlobGAN го надминува Style-GAN2 во квалитетот на сликата мерено со FID.
на хартија е насловен BlobGAN: Просторно раздвоени сцени претстави, и е напишана од двајца истражувачи од UC Berkeley, заедно со тројца од Adobe Research.
Среден човек
BlobGAN носи нова парадигма за синтеза на слики GAN. Претходните пристапи за адресирање на дискретни ентитети во латентниот простор, се истакнува во новиот труд, биле или „одозгора надолу“ или „оддолу нагоре“.
Методот од горе надолу во GAN или класификатор на слики ги третира сликите на сцените како класи, како што се „спална соба“, „црква“, „лице“ итн. , како што е неодамнешниот DALL-E 2 од OpenAI.
Наместо тоа, пристапите од долу нагоре, го мапираат секој пиксел во сликата во класа, етикета или категорија. Ваквите пристапи користат различни техники, иако семантичката сегментација е а популарна тековна истражувачка нишка.
Авторите коментираат:
„И двете патеки изгледаат незадоволителни бидејќи ниту една не може да обезбеди лесни начини за расудување за делови од сцената како ентитети. Деловите од сцената се или запечатени во еден заплетен латентен вектор (од горе-надолу), или треба да се групираат заедно од поединечни етикети на пиксели (од долу-нагоре).'
Напротив, BlobGAN нуди без надзор застапеност на средно ниво, или прокси рамка за генеративни модели.
Гаусовите (т.е. засновани на бучава) дамки се подредени по длабочина и претставуваат тесно грло во архитектурата што доделува мапирање на секој ентитет, решавајќи ја најголемата пречка што постои за манипулацијата со содржината GAN: расклопување (исто така проблем за архитектури базирани на автоенкодер). Резултирачката „мапа на дамки“ се користи за манипулирање со декодерот на BlobGAN.
Авторите забележуваат со одредено изненадување дека системот учи да ги разложува сцените на распоред и ентитети преку дискриминатор надвор од полица кој не користи експлицитни етикети.
Архитектура и податоци
Ентитетите во мапата со дамки се претвораат во слики преку ревидиран StyleGAN2-изведен мрежа, во пристап кој зема инспирација од претходно истражување на NVIDIA.
StyleGAN 2 е изменет во BlobGAN за да прифати влез од мапата на blob наместо единствен глобален вектор, како што е обично случај.
По аналогија, наместо да донесе огромна и сложена зграда (латентен простор) во постоење одеднаш, а потоа да мора да ги истражува нејзините бескрајни патишта, BlobGAN ги испраќа компонентите блокови на почетокот и секогаш знае каде се тие. Ова расплетување на содржината и локацијата е главната иновација на работата.
* Не е функционален во моментот на пишување
** Кодот сè уште не е објавен во моментот на пишување
Прво објавено на 8 мај 2022 година.