Umělá inteligence

Nechtěný benefit mapování latentního prostoru GAN

Published December 3, 2021

Updated April 28, 2026

Martin Anderson

Zatímco se skupina výzkumníků z Číny a Austrálie snažila zlepšit kvalitu a věrnost umělých obrazů, náhodou objevila metodu pro interaktivní kontrolu latentního prostoru Generative Adversarial Network (GAN) – záhadné výpočetní matice za novou vlnou technik syntézy obrazů, které mají revolucionalizovat filmy, hry, sociální média a mnoho dalších sektorů v zábavě a výzkumu.

Jejich objev, vedlejší produkt hlavního cíle projektu, umožňuje uživateli libovolně a interaktivně procházet latentním prostorem GAN myší, jako kdyby procházel video nebo listoval knihou.

Výňatek z doprovodného videa výzkumníků (viz vložené na konci článku). Poznámka: Uživatel manipuluje transformacemi pomocí „grab“ kurzoru (nahoře vlevo). Zdroj: https://www.youtube.com/watch?v=k7sG4XY5rIc

Výňatek z doprovodného videa výzkumníků (viz vložené na konci článku pro mnoho dalších příkladů). Poznámka: Uživatel manipuluje transformacemi pomocí „grab“ kurzoru (nahoře vlevo). Zdroj: https://www.youtube.com/watch?v=k7sG4XY5rIc

Metoda používá „teplotní mapy“ pro indikaci, které oblasti obrazu by měly být zlepšeny, zatímco GAN projde stejnou datovou sadou tisíce (nebo stovek tisíc)krát. Teplotní mapy jsou určeny ke zlepšení kvality obrazu tím, že GAN informují, kde se chybuje, aby jeho další pokus byl lepší; ale současně to také poskytuje „mapu“ celého latentního prostoru, který lze procházet pohybem myší.

Prostorová vizuální pozornost zdůrazněna pomocí GradCAM, která indikuje oblasti, které vyžadují pozornost aplikací jasných barev. Tyto vzorky jsou generovány v projektu výzkumníků s výchozí implementací StyleGan2. Zdroj: https://arxiv.org/pdf/2112.00718.pdf

Prostorová vizuální pozornost zdůrazněna pomocí GradCAM, která indikuje oblasti, které vyžadují pozornost aplikací jasných barev. Zdroj: https://arxiv.org/pdf/2112.00718.pdf

Článek se jmenuje Improving GAN Equilibrium by Raising Spatial Awareness a pochází z výzkumníků na Chinese University of Hong Kong a Australian National University. Kromě článku, videa a dalších materiálů lze najít na stránce projektu.

Práce je v počátcích a目前 je omezena na nízkorozlišovací obrazové materiály (256×256), ale je to důkaz konceptu, který slibuje otevřít „černou skříňku“ latentního prostoru a přichází v době, kdy mnoho výzkumných projektů útočí na tuto bránu v hledání větší kontroly nad syntézou obrazů.

Ačkoli takové obrázky jsou zajímavé (a můžete vidět více z nich, v lepší kvalitě, ve videu vloženém na konci tohoto článku), co je možná ještě významnější, je, že projekt našel způsob, jak vytvořit lepší kvalitu obrazu a potenciálně to udělat rychleji, tím, že GAN informuje specificky, kde se chybuje během tréninku.

Ale, jak Adversarial naznačuje, GAN není jedinou entitou, ale spíše nerovným konfliktem mezi autoritou a dřinou. Chcete-li pochopit, jaké zlepšení výzkumníci provedli v tomto ohledu, podívejme se, jak byl tento konflikt charakterizován dosud.

Smutný osud Generátoru

Pokud jste někdy byli pronásledováni myšlenkou, že nějaká nová položka oblečení, kterou jste koupili, byla vyrobena v potní továrně vexploitované zemi, nebo měli šéfa nebo klienta, který vám říkal „ Udělej to znovu! “ bez toho, aby vám řekl, co bylo špatně s vaší poslední verzí, šetřete trochu soucitu pro Generátor část Generative Adversarial Network.

Generátor je tažný kůň, který vám posledních pět let pomáhá GAN vytvářet fotorealistické lidi, kteří neexistují, zvyšovat staré videohry na 4K rozlišení a měnit století staré záběry na plnobarevný HD výstup při 60 fps, mezi jinými úžasnými AI novinkami.

Od vytváření fotorealistických tváří neexistujících lidí až po obnovu starých záběrů a oživení archivních videoher, GAN byl posledních několik let velmi aktivní.

Generátor projde všechny tréninkové údaje znovu a znovu (jako obrázky tváří, aby vytvořil GAN, který může vytvářet fotografie náhodných, neexistujících lidí), jeden obrázek po druhém, po dny nebo dokonce týdny, dokud nebude schopen vytvářet obrázky, které jsou stejně přesvědčivé jako skutečné fotografie, které studoval.

Takže, jak Generátor ví, že dělá nějaký pokrok, každé fois, co se snaží vytvořit lepší obrázek než jeho předchozí pokus?

Generátor má šéfa z pekla.

Bezohledná neprůhlednost Diskriminátoru

Úkolem Diskriminátoru je říci Generátoru, že se mu nepodařilo vytvořit dostatečně autentický obrázek, a říci mu Udělej to znovu!. Diskriminátor neříká Generátoru co bylo špatně s jeho posledním pokusem; pouze se na něj podívá, porovná vygenerovaný obrázek se zdrojovými obrázky (opět soukromě) a přidělí mu skóre.

Skóre je nikdy dostatečně dobré. Diskriminátor nebude přestávat říkat Udělej to znovu!, dokud výzkumníci jej nevypnou (když rozhodnou, že další trénink již nezlepší výstup).

V tomto smyslu, chybí jakékoli konstruktivní kritiky, a ozbrojen pouze skóre, jehož metrika je záhadou, Generátor musí náhodně hádat, které části nebo aspekty obrázku způsobily vyšší skóre než předtím. To jej povede po mnoha dalších neuspokojivých cestách, dokud nezmění něco dostatečně pozitivně, aby získal vyšší skóre.

Diskriminátor jako učitel a mentor

Inovace poskytovaná novým výzkumem spočívá v tom, že Diskriminátor nyní indikuje Generátoru které části obrázku byly neuspokojivé, aby Generátor mohl soustředit na tyto oblasti v svém dalším pokusu, a nemusel zahazovat části, které byly ohodnoceny výše. Povaha vztahu se změnila z bojovného na spolupracující.

Aby se zmírnila nesrovnalost vhledu mezi Diskriminátorem a Generátorem, výzkumníci použili GradCAM jako mechanismus, který může formulovat vhledy Diskriminátoru do vizuálního zpětného vazebního pomocníka pro Generátorův další pokus.

Nová „rovnovážná“ tréninková metoda se nazývá EqGAN. Pro maximální reprodukovatelnost výzkumníci zahrnuli existující techniky a metody s výchozími nastaveními, včetně použití StyleGan2 architektury.

Architektura EqGAN. Prostorová kódování Generátoru je zarovnána se prostorovou vědomostí Diskriminátoru, s náhodnými vzorky prostorových teplotních map (viz předchozí obrázek) zakódovány zpět do Generátoru prostřednictvím prostorového kódovacího vrstvy (SEL). GradCAM je mechanismus, kterým jsou mapy pozornosti Diskriminátoru zpřístupněny Generátoru.

GradCAM produkuje teplotní mapy (viz výše uvedené obrázky), které odrážejí kritiku Diskriminátoru ohledně poslední iterace, a zpřístupňují ji Generátoru.

Jakmile je model trénován, mapování zůstává jako artefakt tohoto spolupracujícího procesu, ale lze jej také použít k interaktivnímu procházení konečného latentního kódu způsobem, který je demonstrován ve výzkumném projektu (viz níže).

EqGAN

Projekt použil řadu populárních datových sad, včetně LSUN Cat a Churches datových sad, stejně jako FFHQ datové sady. Video níže také ukazuje příklady manipulace s obličeji a kočkami pomocí EqGAN.

Všechny obrázky byly před tréninkem EqGAN na oficiální implementaci StyleGAN2 převedeny na 256×256. Model byl trénován ve velikosti dávky 64 na 8 GPU, dokud Diskriminátor neviděl více než 25 milionů obrázků.

Testování výsledků systému na vybraných vzorcích pomocí Frechet Inception Distance (FID), autoři stanovili metriku nazvanou Disequilibrium Indicator (DI) – stupeň, ve kterém Diskriminátor uchovává své znalostní výhody nad Generátorem, s cílem zúžit tuto mezeru.

Na všech třech trénovaných datových sadách nová metrika ukázala užitečný pokles po zakódování prostorové vědomosti do Generátoru, s lepší rovnováhou prokázána jak FID, tak DI.

Výzkumníci uzavírají:

‘Doufáme, že tato práce může inspirovat více prací, které budou revidovat GAN rovnováhu a vyvinou více nových metod pro zlepšení kvality syntézy obrazů prostřednictvím manipulace s GAN rovnováhou. Budeme také provádět více teoretických výzkumů na této otázce v budoucí práci.’

A pokračují:

‘Kvalitativní výsledky ukazují, že naše metoda úspěšně donutila Generátor soustředit se na specifické oblasti. Experimenty na různých datových sadách potvrzují, že naše metoda zmírňuje nerovnováhu v tréninku GAN a podstatně zlepšuje celkovou kvalitu syntézy obrazů. Výsledný model se prostorovou vědomostí také umožňuje interaktivní manipulaci výstupního obrázku.’

Podívejte se na video níže pro více informací o projektu a dalších příkladech dynamického a interaktivního procházení latentního prostoru v GAN.

11:12 4. prosince 2021 – Opravená URL pro GradCAM a upravená okolní reference.

Martin Anderson

Spisovatel o strojovém učení, doménový specialista na syntézu lidského obrazu. Bývalý vedoucí výzkumného obsahu ve společnosti Metaphysic.ai.
Osobní stránky: martinanderson.ai

Unite.AI

Nechtěný benefit mapování latentního prostoru GAN

Smutný osud Generátoru

Bezohledná neprůhlednost Diskriminátoru

Diskriminátor jako učitel a mentor

EqGAN

You may like