Umetna inteligenca

Nenamerna korist preslikave latentnega prostora GAN

Posodobljeno on December 9, 2022

Medtem ko je skupina raziskovalcev iz Kitajske in Avstralije poskušala izboljšati kakovost in natančnost slik, ustvarjenih z umetno inteligenco, je nenamerno odkrila metodo za interaktivni nadzor latentnega prostora Generacijska svetovalna mreža (GAN) – skrivnostna kalkulativna matrika, ki stoji za novim valom tehnik sinteze slike, ki naj bi spremenile filme, igre in družbene medije ter številne druge sektorje zabave in raziskav.

Njihovo odkritje, ki je stranski produkt osrednjega cilja projekta, omogoča uporabniku, da z miško poljubno in interaktivno raziskuje latentni prostor GAN-a, kot bi brskal po videu ali listal knjigo.

Odlomek iz spremnega videa raziskovalcev (glejte vdelavo na koncu članka). Upoštevajte, da uporabnik manipulira s transformacijami s kazalcem 'zgrabi' (zgoraj levo). Vir: https://www.youtube.com/watch?v=k7sG4XY5rIc

Odlomek iz spremnega videa raziskovalcev (za več primerov glejte vdelavo na koncu članka). Upoštevajte, da uporabnik manipulira s transformacijami s kazalcem 'zgrabi' (zgoraj levo). Vir: https://www.youtube.com/watch?v=k7sG4XY5rIc

Metoda uporablja 'toplotne zemljevide', da pokaže, katera področja slike je treba izboljšati, ko GAN na tisoče (ali stotisoč) krat preleti isti nabor podatkov. Toplotni zemljevidi so namenjeni izboljšanju kakovosti slike tako, da GAN sporočijo, kje gre narobe, tako da bo njegov naslednji poskus boljši; toda po naključju to zagotavlja tudi 'zemljevid' celotnega latentnega prostora, po katerem lahko brskate s premikanjem miške.

Prostorska vizualna pozornost, poudarjena s pomočjo GradCAM-a, ki nakazuje področja, ki potrebujejo pozornost, z uvedbo svetlih barv. Ti vzorci so ustvarjeni v projektu raziskovalcev s privzeto implementacijo StyleGan2. Vir: https://arxiv.org/pdf/2112.00718.pdf

Prostorska vizualna pozornost, poudarjena s pomočjo GradCAM-a, ki nakazuje področja, ki potrebujejo pozornost, z uvedbo svetlih barv. Vir: https://arxiv.org/pdf/2112.00718.pdf

O papirja je poklican Izboljšanje ravnotežja GAN z dvigovanjem prostorske zavesti, in prihaja od raziskovalcev s kitajske univerze v Hong Kongu in avstralske nacionalne univerze. Poleg prispevka lahko na strani projekta najdete video in drugo gradivo.

Delo je v nastajanju in je trenutno omejeno na posnetke z nizko ločljivostjo (256 × 256), vendar je dokaz koncepta, ki obljublja, da bo razbil "črno skrinjico" latentnega prostora, in prihaja v času, ko je več raziskovalnih projektov na udaru. pri teh vratih v iskanju večjega nadzora nad sintezo slike.

Čeprav so takšne slike privlačne (in si jih lahko ogledate več v boljši ločljivosti v videu, vdelanem na koncu tega članka), je morda pomembnejše to, da je projekt našel način za ustvarjanje izboljšane kakovosti slike in potencialno da to storite hitreje, tako da GAN-u med usposabljanjem posebej poveste, kje gre narobe.

Ampak, kot Nasprotno nakazuje, da GAN ni ena sama entiteta, temveč neenak konflikt med avtoriteto in napornim delom. Da bi razumeli, kakšne izboljšave so naredili raziskovalci v zvezi s tem, poglejmo, kako je bila ta vojna označena do zdaj.

Žalostna stiska Generatorja

Če vas je kdaj preganjala misel, da je bil kakšen odličen nov kos oblačila, ki ste ga kupili, proizveden v obratu za potilitev v izkoriščani državi ali da vam je šef ali stranka ves čas govoril 'Ponovi to!' ne da bi vam kdaj povedal, kaj je bilo narobe z vašim zadnjim poskusom, prihranite kanček usmiljenja do Generator del Generative Adversarial Network.

Generator je vlečni konj, ki vas zadnjih pet ali več let razveseljuje tako, da GAN-jem pomaga ustvarjati fotorealistični ljudje, ki ne obstajajo, vrhunske stare video igre do ločljivosti 4k, in zavrtite stoletje stare posnetke v barvni HD izhod pri 60 sličicah na sekundo, med drugimi čudovitimi novostmi AI.

Od ustvarjanja fotoresničnih obrazov neresničnih ljudi do restavriranja starodavnih posnetkov in oživljanja arhivskih videoiger, je bil GAN v zadnjih nekaj letih zaposlen.

Generator znova in znova pregleda vse podatke o usposabljanju (kot so slike obrazov, da ustvari GAN, ki lahko ustvari fotografije naključnih, neobstoječih ljudi), eno fotografijo naenkrat, več dni ali celo tednov, dokler ne uspe ustvariti slik, ki so tako prepričljive kot pristne fotografije, ki jih je preučeval.

Kako torej Generator ve, da napreduje, vsakič, ko poskuša ustvariti sliko, ki je boljša od prejšnjega poskusa?

Generator ima šefa iz pekla.

Neusmiljena motnost diskriminatorja

Naloga Diskriminator povedati Generatorju, da ni bil dovolj uspešen pri ustvarjanju slike, ki je verodostojna izvirnim podatkom, in Naredi še enkrat. Diskriminator ne pove Generatorju kaj se je zmotil pri zadnjem poskusu Generatorja; le zasebno si jo ogleda, primerja ustvarjeno sliko z izvornimi slikami (spet zasebno) in sliki dodeli oceno.

Rezultat je nikoli dovolj dobro. Diskriminator ne bo nehal govoriti 'Naredi še enkrat' dokler ga znanstveniki raziskovalci ne izklopijo (ko presodijo, da dodatno usposabljanje ne bo več izboljšalo rezultata).

Na ta način mora Generator brez kakršnih koli konstruktivnih kritik in oborožen samo z rezultatom, katerega metrika je skrivnost, naključno uganiti, kateri deli ali vidiki slike so povzročili višji rezultat kot prej. To ga bo vodilo po številnih nadaljnjih nezadovoljivih poteh, preden bo nekaj spremenilo dovolj pozitivno, da bo dobil višji rezultat.

Diskriminator kot učitelj in mentor

Inovacija, ki jo zagotavlja nova raziskava, je v bistvu ta, da Diskriminator zdaj kaže Generatorju kateri deli slike so bili nezadovoljivi, tako da se lahko Generator v svoji naslednji ponovitvi osredotoči na ta področja in ne zavrže razdelkov, ki so bili ocenjeni višje. Narava odnosa se je spremenila iz borbenega v sodelovalnega.

Da bi odpravili neskladje v vpogledu med Diskriminatorjem in Generatorjem, so raziskovalci uporabili GradCAM kot mehanizem, ki je sposoben oblikovati Diskriminatorjeve vpoglede v vizualno povratno pomoč za Generatorjev naslednji poskus.

Nova 'ravnotežna' metoda treninga se imenuje EqGAN. Za največjo ponovljivost so raziskovalci vključili obstoječe tehnike in metode pri privzetih nastavitvah, vključno z uporabo StyleGan2 arhitektura.

Arhitektura EqGAN. Prostorsko kodiranje generatorja je usklajeno s prostorsko zavestjo diskriminatorja, z naključnimi vzorci prostorskih toplotnih kart (glejte prejšnjo sliko), ki so kodirani nazaj v generator prek plasti prostorskega kodiranja (SEL). GradCAM je mehanizem, s katerim so zemljevidi pozornosti diskriminatorja na voljo generatorju.

GradCAM izdela toplotne zemljevide (glejte zgornje slike), ki odražajo diskriminatorjevo kritiko zadnje ponovitve, in jih da na voljo Generatorju.

Ko je model usposobljen, preslikava ostane artefakt tega kooperativnega procesa, lahko pa se uporabi tudi za raziskovanje končne latentne kode na interaktiven način, prikazan v videu projekta raziskovalcev (glej spodaj).

EqGAN

Projekt je uporabil številne priljubljene nabore podatkov, vključno z nabori podatkov LSUN Cat in Churches ter FFHQ nabor podatkov. Spodnji video prikazuje tudi primere obrazne in mačje manipulacije z uporabo EqGAN.

Velikost vseh slik je bila spremenjena na 256×256 pred usposabljanjem EqGAN za uradno implementacijo StyleGAN2. Model je bil učen v velikosti serije 64 v 8 grafičnih procesorjih, dokler ni bil diskriminator izpostavljen več kot 25 milijonom slik.

Testiranje rezultatov sistema na izbranih vzorcih z začetno razdaljo Frechet (FID), so avtorji vzpostavili metriko, imenovano Indikator neravnovesja (DI) – stopnja, do katere Diskriminator ohranja svojo prednost znanja pred Generatorjem, s ciljem zmanjšanja te vrzeli.

V treh usposobljenih nizih podatkov je nova metrika pokazala koristen padec po kodiranju prostorske zavesti v Generator, z izboljšanim ravnotežjem, ki sta ga dokazala FID in DI.

Raziskovalci sklepajo:

"Upamo, da bo to delo lahko navdihnilo več del za ponovni pregled ravnovesja GAN in razvilo več novih metod za izboljšanje kakovosti sinteze slike z manevriranjem ravnovesja GAN." V prihodnjem delu bomo izvedli tudi več teoretičnih raziskav o tem vprašanju.«

In nadaljujte:

„Kvalitativni rezultati kažejo, da naša metoda uspešno [prisili Generator], da se osredotoči na določene regije. Poskusi na različnih nizih podatkov potrjujejo, da naša metoda ublaži neravnovesje pri usposabljanju GAN in znatno izboljša splošno kakovost sinteze slike. Nastali model s prostorskim zavedanjem omogoča tudi interaktivno manipulacijo izhodne slike.«

Za več podrobnosti o projektu in nadaljnje primere dinamičnega in interaktivnega raziskovanja latentnega prostora v GAN si oglejte spodnji video.

Izboljšanje ravnovesja GAN z dvigovanjem prostorske zavesti

Improving GAN Equilibrium by Raising Spatial Awareness

Watch this video on YouTube

11:12, 4. december 2021 – Popravljen URL za GradCAM in urejena okoliška referenca.

Up Next

Nov pristop strojnega učenja bi lahko pospešil načrtovanje zdravil

Ne zamudite

Spreminjanje čustev v videoposnetkih z umetno inteligenco

Martin Anderson

Pisec o strojnem učenju, umetni inteligenci in velikih podatkih.
Osebno spletno mesto: martinanderson.ai
Kontakt: [e-pošta zaščitena]
Twitter: @manders_ai