Umelá inteligencia

Nezamýšľaný prínos mapovania latentného priestoru GAN

Aktualizované on Decembra 9, 2022

Pri pokuse o zlepšenie kvality a vernosti obrázkov generovaných AI skupina výskumníkov z Číny a Austrálie neúmyselne objavila metódu na interaktívne ovládanie latentného priestoru Generatívna kontradiktórna sieť (GAN) – tajomná kalkulatívna matica stojaca za novou vlnou techník syntézy obrazu, ktoré sú nastavené tak, aby spôsobili revolúciu vo filmoch, hrách, sociálnych médiách a mnohých ďalších sektoroch zábavy a výskumu.

Ich objav, vedľajší produkt hlavného cieľa projektu, umožňuje používateľovi ľubovoľne a interaktívne skúmať latentný priestor GAN pomocou myši, ako keby si prehrabával video alebo listoval v knihe.

Výňatok zo sprievodného videa výskumníkov (pozri vloženie na konci článku). Všimnite si, že používateľ manipuluje s transformáciami pomocou „uchopovacieho“ kurzora (vľavo hore). Zdroj: https://www.youtube.com/watch?v=k7sG4XY5rIc

Výňatok zo sprievodného videa výskumníkov (viac príkladov nájdete na konci článku). Všimnite si, že používateľ manipuluje s transformáciami pomocou „uchopovacieho“ kurzora (vľavo hore). Zdroj: https://www.youtube.com/watch?v=k7sG4XY5rIc

Metóda používa „tepelné mapy“ na označenie, ktoré oblasti obrázka by sa mali zlepšiť, pretože GAN prechádza cez rovnaký súbor údajov tisíckrát (alebo stotisíckrát). Teplotné mapy sú určené na zlepšenie kvality obrazu tým, že oznámia GAN, kde robí chybu, takže jej ďalší pokus bude lepší; ale zhodou okolností to tiež poskytuje „mapu“ celého latentného priestoru, ktorú možno prehliadať pohybom myši.

Priestorová vizuálna pozornosť zdôraznená prostredníctvom GradCAM, ktorá označuje oblasti, ktoré si vyžadujú pozornosť, impozantnými jasnými farbami. Zdroj: https://arxiv.org/pdf/2112.00718.pdf

papier sa nazýva Zlepšenie rovnováhy GAN zvyšovaním priestorového povedomia, a pochádza od výskumníkov z Čínskej univerzity v Hongkongu a Austrálskej národnej univerzity. Na stránke projektu nájdete okrem papiera aj video a ďalšie materiály.

Práca je rodiaca sa a v súčasnosti sa obmedzuje na snímky s nízkym rozlíšením (256 × 256), ale je dôkazom konceptu, ktorý sľubuje prelomiť „čiernu skrinku“ latentného priestoru a prichádza v čase, keď sa rozbiehajú viaceré výskumné projekty. pri tých dverách v snahe o väčšiu kontrolu nad syntézou obrazu.

Aj keď sú takéto obrázky pútavé (a viac ich môžete vidieť v lepšom rozlíšení vo videu vloženom na konci tohto článku), čo je možno dôležitejšie je, že projekt našiel spôsob, ako vytvoriť lepšiu kvalitu obrazu a potenciálne aby ste to urobili rýchlejšie, a to tak, že GAN konkrétne poviete, kde počas tréningu robí chybu.

Ale ako nepriateľský naznačuje, že GAN nie je jedinou entitou, ale namiesto toho ide o nerovnaký konflikt medzi autoritou a drinou. Aby sme pochopili, aké vylepšenia v tomto smere výskumníci urobili, pozrime sa, ako bola táto vojna doteraz charakterizovaná.

Poľutovaniahodná situácia Generátora

Ak vás niekedy prenasledovala myšlienka, že nejaký skvelý nový kus oblečenia, ktorý ste si kúpili, bol vyrobený v manufaktúre vo vykorisťovanej krajine, alebo ste mali šéfa či klienta, ktorý vám neustále hovoril: „Urob to znova! bez toho, aby som vám povedal, čo bolo na vašom poslednom pokuse zlé, ušetrite nad ním trochu zľutovania Generator súčasťou siete Generative Adversarial Network.

Generátor je ťažný kôň, ktorý vás posledných päť rokov teší tým, že pomáha GANom vytvárať fotorealistickí ľudia, ktorí neexistujú, upscale staré videohry do rozlíšenia 4ka otočte storočné zábery do plnofarebného HD výstupu pri 60 fps, medzi inými úžasnými novinkami AI.

Od vytvárania fotoreálnych tvárí neskutočných ľudí až po reštaurovanie starých záberov a oživovanie archívnych videohier, GAN má v posledných rokoch plné ruky práce.

Generátor znova a znova prechádza všetkými trénovacími údajmi (ako sú obrázky tvárí, aby sa vytvoril GAN, ktorý môže vytvárať fotografie náhodných neexistujúcich ľudí), jednu fotografiu za druhou, niekoľko dní alebo dokonca týždňov, kým nebude schopný vytvárať obrázky, ktoré sú rovnako presvedčivé ako skutočné fotografie, ktoré študoval.

Ako teda Generátor vie, že robí nejaký pokrok, zakaždým, keď sa pokúsi vytvoriť lepší obraz ako jeho predchádzajúci pokus?

Generátor má šéfa z pekla.

Nemilosrdná nepriehľadnosť diskriminátora

Práca Diskriminátor je povedať Generátoru, že sa mu nepodarilo dostatočne dobre vytvoriť obrázok, ktorý je autentický k pôvodným údajom, a Urob to znova. Diskriminátor to nehovorí Generátorovi čo sa mýlil pri poslednom pokuse Generátora; len sa naň súkromne pozrie, porovná vygenerovaný obrázok so zdrojovými obrázkami (opäť súkromne) a priradí obrázku skóre.

Skóre je nikdy dosť dobré. Diskriminátor neprestane hovoriť 'Sprav to znovu' kým ho vedci z výskumu nevypnú (keď usúdia, že dodatočný tréning už nezlepší výstup).

Týmto spôsobom, bez akejkoľvek konštruktívnej kritiky a vyzbrojený iba skóre, ktorého metrika je záhadou, musí generátor náhodne uhádnuť, ktoré časti alebo aspekty obrazu spôsobili vyššie skóre ako predtým. To ho povedie k mnohým ďalším neuspokojivým trasám, kým niečo zmení dostatočne pozitívne na to, aby získalo vyššie skóre.

Diskriminátor ako tútor a mentor

Inovácia poskytnutá novým výskumom je v podstate taká, že diskriminátor teraz naznačuje Generátorovi ktoré časti obrazu boli nevyhovujúce, aby sa Generátor mohol vo svojej ďalšej iterácii zamerať na tieto oblasti a nezahodil sekcie, ktoré boli hodnotené vyššie. Povaha vzťahu sa zmenila z bojovného na kolaboratívny.

Výskumníci použili na nápravu rozdielov v náhľadoch medzi diskriminátorom a generátorom GradCAM ako mechanizmus schopný formulovať postrehy Diskriminátora do vizuálnej spätnej väzby pre ďalší pokus Generátora.

Nová „rovnovážna“ tréningová metóda sa nazýva EqGAN. Pre maximálnu reprodukovateľnosť výskumníci začlenili existujúce techniky a metódy v predvolených nastaveniach, vrátane použitia StyleGan2 architektúra.

Architektúra EqGAN. Priestorové kódovanie generátora je zosúladené s priestorovým povedomím diskriminátora s náhodnými vzorkami priestorových tepelných máp (pozri predchádzajúci obrázok) zakódovanými späť do generátora cez vrstvu priestorového kódovania (SEL). GradCAM je mechanizmus, ktorým sú mapy pozornosti Diskriminátora sprístupnené generátoru.

GradCAM vytvára teplotné mapy (pozri obrázky vyššie), ktoré odrážajú kritiku Diskriminátora k najnovšej iterácii a sprístupňuje ich Generátorovi.

Akonáhle je model trénovaný, mapovanie zostáva ako artefakt tohto kooperatívneho procesu, ale môže byť tiež použité na preskúmanie konečného latentného kódu interaktívnym spôsobom demonštrovaným vo videu projektu výskumníkov (pozri nižšie).

EqGAN

Projekt využíval množstvo populárnych súborov údajov vrátane súborov údajov LSUN Cat a Churches, ako aj FFHQ súbor údajov. Video nižšie obsahuje aj príklady manipulácie s tvárou a mačkami pomocou EqGAN.

Všetky obrázky boli pred tréningom EqGAN na oficiálnej implementácii StyleGAN256 zmenené na veľkosť 256 × 2. Model bol trénovaný vo veľkosti dávky 64 na 8 GPU, kým Diskriminátor nebol vystavený viac ako 25 miliónom obrázkov.

Testovanie výsledkov systému na vybraných vzorkách s Frechet Inception Distance (FID), autori vytvorili metriku s názvom Disequilibrium Indicator (DI) – miera, do akej si diskriminátor zachováva svoju vedomostnú výhodu oproti generátoru, s cieľom zmenšiť túto medzeru.

V rámci troch trénovaných súborov údajov nová metrika ukázala užitočný pokles po zakódovaní priestorového povedomia do generátora so zlepšenou rovnováhou preukázanou FID aj DI.

Vedci dospeli k záveru:

„Dúfame, že táto práca môže inšpirovať ďalšie práce na prehodnotení rovnováhy GAN a vyvinúť viac nových metód na zlepšenie kvality syntézy obrazu prostredníctvom manévrovania s rovnováhou GAN. V budúcej práci tiež vykonáme teoretickejší výskum tejto otázky.“

A pokračovať:

„Kvalitatívne výsledky ukazujú, že naša metóda úspešne [núti Generátora] sústrediť sa na konkrétne regióny. Experimenty na rôznych súboroch údajov potvrdzujú, že naša metóda zmierňuje nerovnováhu v tréningu GAN a podstatne zlepšuje celkovú kvalitu syntézy obrazu. Výsledný model s priestorovým povedomím umožňuje aj interaktívnu manipuláciu s výstupným obrazom.'

Pozrite si video nižšie, kde nájdete ďalšie podrobnosti o projekte a ďalšie príklady dynamického a interaktívneho skúmania latentného priestoru v GAN.

Zlepšenie rovnováhy GAN zvyšovaním priestorového povedomia