Вештачка интелигенција

Уредување на латентниот простор на GAN со „Блобс“

Ажурирани on Декември 9, 2022

Новото истражување од UC Berkeley и Adobe нуди начин за директно уредување на хиперреалната содржина што може да биде креирана од Generative Adversarial Network (GAN), но која обично не може да се контролира, анимира или слободно да се манипулира на начин познат на Photoshop. корисници и CGI практичари.

насловена BlobGAN, методот вклучува создавање на мрежа од „blobs“ – математички конструкции кои директно се пресликуваат на содржината во латентниот простор на GAN.

Со поместување на дамките, можете да ги преместите „објектите“ во приказ на сцена, на интуитивен начин што е поблиску до CGI и CAD методите отколку многу тековни обиди за мапирање и контрола на латентниот простор на GAN:

Манипулација со сцените со BlobGAN: како што се преместуваат „blobs“ од корисникот, распоредот на латентни објекти и стилови во GAN соодветно се менуваат. За повеќе примери, видете го придружното видео на хартијата, вградено на крајот од овој напис или на https://www.youtube.com/watch?v=KpUv82VsU5k

Бидејќи дамките кореспондираат со „објекти“ во сцената мапирани во GAN латентен простор, сите предмети се расплетуваат а приори, што овозможува нивно менување поединечно:

Објектите може да се менуваат во големина, да се намалат, клонираат и отстранат, меѓу другите операции.

Како и со кој било предмет во софтверот за уредување фотографии (или дури и за уредување текст), една дупка може да се дуплира и последователно да се манипулира:

Копчињата може да се дуплираат во интерфејсот, а нивните соодветни латентни претстави исто така ќе бидат „копирани и залепени“. Извор: https://dave.ml/blobgan/#results

Топките може да се дуплираат во интерфејсот, а нивните соодветни латентни претстави исто така ќе бидат „копирани и залепени“. Извор: https://dave.ml/blobgan/#results

BlobGAN исто така може да анализира нови слики избрани од корисникот во својот латентен простор:

Со BlobGAN, не морате да вметнувате слики со кои сакате да манипулирате директно во податоците за обуката, а потоа да ги пронајдете нивните латентни кодови, туку можете да внесувате избрани слики по желба и да манипулирате со нив. Фотографиите што се менуваат овде се пост-факто кориснички влез. Извор: https://dave.ml/blobgan/#results

Може да се видат повеќе резултати овде, и во придружните Видео на YouTube (вграден на крајот од овој напис). Има и интерактивна Colab демо* и GitHub репо**

Овој вид инструменталност и опсег може да изгледаат наивни во пост-Photoshop добата, а параметарските софтверски пакети како што се Cinema4D и Blender им дозволуваат на корисниците да создаваат и приспособуваат 3D светови со децении; но тој претставува ветувачки пристап за припитомување на ексцентричностите и таинствената природа на латентниот простор во Генеративната противничка мрежа, со употреба на прокси ентитети кои се мапирани на латентни кодови.

Авторите тврдат:

„На предизвикувачки мулти-категориски сет на сцени во затворени простории, BlobGAN го надминува Style-GAN2 во квалитетот на сликата мерено со FID.

на хартија е насловен BlobGAN: Просторно раздвоени сцени претстави, и е напишана од двајца истражувачи од UC Berkeley, заедно со тројца од Adobe Research.

Среден човек

BlobGAN носи нова парадигма за синтеза на слики GAN. Претходните пристапи за адресирање на дискретни ентитети во латентниот простор, се истакнува во новиот труд, биле или „одозгора надолу“ или „оддолу нагоре“.

Методот од горе надолу во GAN или класификатор на слики ги третира сликите на сцените како класи, како што се „спална соба“, „црква“, „лице“ итн. , како што е неодамнешниот DALL-E 2 од OpenAI.

Наместо тоа, пристапите од долу нагоре, го мапираат секој пиксел во сликата во класа, етикета или категорија. Ваквите пристапи користат различни техники, иако семантичката сегментација е а популарна тековна истражувачка нишка.

Авторите коментираат:

„И двете патеки изгледаат незадоволителни бидејќи ниту една не може да обезбеди лесни начини за расудување за делови од сцената како ентитети. Деловите од сцената се или запечатени во еден заплетен латентен вектор (од горе-надолу), или треба да се групираат заедно од поединечни етикети на пиксели (од долу-нагоре).'

Напротив, BlobGAN нуди без надзор застапеност на средно ниво, или прокси рамка за генеративни модели.

Мрежата за распоред ги мапира локалните (и контролирани) ентитети на „blob“ на латентни кодови. Обоените кругови во центарот сочинуваат „мапа на дамки“. Извор: https://arxiv.org/pdf/2205.02837.pdf

Гаусовите (т.е. засновани на бучава) дамки се подредени по длабочина и претставуваат тесно грло во архитектурата што доделува мапирање на секој ентитет, решавајќи ја најголемата пречка што постои за манипулацијата со содржината GAN: расклопување (исто така проблем за архитектури базирани на автоенкодер). Резултирачката „мапа на дамки“ се користи за манипулирање со декодерот на BlobGAN.

Авторите забележуваат со одредено изненадување дека системот учи да ги разложува сцените на распоред и ентитети преку дискриминатор надвор од полица кој не користи експлицитни етикети.

Архитектура и податоци

Ентитетите во мапата со дамки се претвораат во слики преку ревидиран StyleGAN2-изведен мрежа, во пристап кој зема инспирација од претходно истражување на NVIDIA.

Ревидиран дериват на StyleGAN 2 од NVIDIA Research. Некои од принципите во оваа работа беа усвоени или адаптирани за BlobGAN. Извор: https://arxiv.org/pdf/1912.04958.pdf

StyleGAN 2 е изменет во BlobGAN за да прифати влез од мапата на blob наместо единствен глобален вектор, како што е обично случај.

Серија манипулации овозможени од BlobGAN, вклучително и „автоматско завршување“ на сцена во спалната соба и промена на големината и преместување на елементите во собата. Во редот подолу, ја гледаме инструменталноста достапна за корисникот што го овозможува тоа - мапата на blob.

Серија манипулации овозможени од BlobGAN, вклучително и „автоматско завршување“ на празна сцена во спалната соба и промена на големината и преместување на елементите во собата. Во редот подолу, ја гледаме инструменталноста достапна за корисникот што го овозможува тоа - мапата на blob.

По аналогија, наместо да донесе огромна и сложена зграда (латентен простор) во постоење одеднаш, а потоа да мора да ги истражува нејзините бескрајни патишта, BlobGAN ги испраќа компонентите блокови на почетокот и секогаш знае каде се тие. Ова расплетување на содржината и локацијата е главната иновација на работата.

BlobGAN: Просторно раздвоени сцени претстави

BlobGAN: Spatially Disentangled Scene Representations

Watch this video on YouTube

* Не е функционален во моментот на пишување
** Кодот сè уште не е објавен во моментот на пишување

Прво објавено на 8 мај 2022 година.

Следно

Реструктуирање на лица во видеа со машинско учење

Не ја пропуштајте

Истражувачите покажаа „наномагнетно“ пресметување со вештачка интелигенција

Мартин Андерсон

Писател за машинско учење, вештачка интелигенција и големи податоци.
Лична страница: martinanderson.ai
Контакт: [заштитена по е-пошта]
Твитер: @manders_ai