Tekoäly

Vahingossa löydetty etu GAN:n latentin avaruuden kartoittamisesta

Published December 3, 2021

Updated April 28, 2026

Martin Anderson

Yrittäessään parantaa tekoälyllä luotujen kuvien laatua ja uskottavuutta Kiinasta ja Australiasta oleva tutkijaryhmä on vahingossa keksinyt menetelmän, jolla voidaan ohjata interaktiivisesti generatiivisen adversiaalisen verkon (GAN) latenttia avaruutta – salaperäistä laskentamatriisia, joka on uuden kuvasynteesitekniikkojen takana, jotka tulevat vallankumoukseen elokuva-, peli- ja sosiaalisen median aloilla sekä monilla muilla viihteen ja tutkimuksen aloilla.

Heidän löytönsä, joka on sivutuote projektin keskeisestä tavoitteesta, sallii käyttäjän tutkia GAN:n latenttia avaruutta mielikuvituksellisesti hiiren avulla, ikään kuin olisi vierittävä video tai selatessa kirjaa.

Tutkijoiden mukaan olevasta videosta (ks. liite artikkelin lopussa). Huomaa, että käyttäjä muokkaa muodonmuutoksia ‘otteen’ kohdistimella (ylävasen). Lähde: https://www.youtube.com/watch?v=k7sG4XY5rIc

Menetelmä käyttää ‘lämpökarttoja’ osoittamaan, mitkä kuvan alueet parannettava, kun GAN suorittaa saman tietojoukon tuhannen (tai satojen tuhannen) kerran. Lämpökartat on tarkoitettu parantamaan kuvan laatua kertomalla GAN:lle, missä menee väärin, jotta seuraava yritys olisi parempi; mutta sattumalta se tarjoaa myös ‘kartan’ koko latentista avaruudesta, jota voidaan selata liikuttamalla hiirtä.

Paikallinen visuaalinen tarkkaavaisuus korostettu GradCAM: n avulla, joka osoittaa alueet, jotka vaativat huomiota asettamalla kirkkaita värejä. Lähde: https://arxiv.org/pdf/2112.00718.pdf

Artikkeli on nimeltään GAN-tasapainon parantaminen paikallisen tietoisuuden lisäämisellä, ja se on peräisin Kiinan Hongkongin yliopiston ja Australian kansallisen yliopiston tutkijoilta. Artikkelin lisäksi video ja muu materiaali löytyy projektisivulta.

Työ on vasta alkuvaiheessa, ja se on tällä hetkellä rajoitettu matalan resoluution kuvien (256×256) kanssa, mutta se on osoitus siitä, että latentin avaruuden ‘musta laatikko’ voidaan avata, ja se tulee aikana, jolloin useat tutkimushankkeet pyrkivät saavuttamaan suuremman valvonnan kuvasynteesin yli.

Vaikka nämä kuvat ovat mielenkiintoisia (ja voit nähdä niistä enemmän paremmassa resoluutiossa videossa, joka on liitetty artikkelin loppuun), se, mikä on ehkä merkittävintä, on, että projekti on löytänyt tavan parantaa kuvan laatua ja mahdollisesti tehdä se nopeammin, kertomalla GAN:lle tarkalleen, missä se epäonnistuu koulutuksen aikana.

Mutta, kuten Adversarial osoittaa, GAN ei ole yksittäinen yksikkö, vaan epätasa-arvoinen konflikti viranomaisen ja työn välillä. Ymmärtääksemme, mitä parannuksia tutkijat ovat tehneet tässä suhteessa, tarkastellaan, miten tämä sota on luonnehdittu tähän asti.

Luojan surkeat olosuhteet

Jos olet joskus ollut ahdistunut ajatellessasi, että joku uusi vaate, jonka olet ostanut, on valmistettu jonkin hyväksikäytetyn maan halpatuotantolaitoksessa, tai olet ollut esimiehen tai asiakkaan alaisena, joka on kertonut sinulle ‘tee se uudelleen’ ilman kertomatta, mikä sinun edellisessä yrityksessäsi oli väärin, säästä pieni osa myötätuntoa Luojalle osalle generatiivisesta adversiaalisesta verkkotyypistä.

Luojan tehtävänä on ollut viimeisen viiden vuoden ajan ilahduttaa sinua auttamalla GAN:ia luomaan fotorealistisia ihmisiä, joita ei ole olemassa, päivittämällä vanhoja videopelejä 4k-resoluutioon ja muuttamalla sadan vuoden vanhoja kuvia täysiväri-HD-kuvaaksi 60fps-vauhdilla, muun muassa.

Luomalla fotorealistisia kasvoja, jotka eivät ole olemassa, palauttamalla vanhoja kuvia ja elävöittämällä vanhoja videopelejä, GAN on ollut kiireinen viime vuosina.

Luojan on suoritettava kaikki koulutusdata uudelleen ja uudelleen (kuten kasvojen kuvia, jotta GAN voi luoda kuvia satunnaisista, olemattomista ihmisistä), yksi kuva kerrallaan, päivien tai jopa viikkojen ajan, kunnes se pystyy luomaan kuvia, jotka ovat yhtä vakuuttavia kuin aito kuvamateriaali, jota se opiskeli.

Miten Luojan tietää, että se tekee mitään edistystä kussakin yrityksessään? Luojalla on helvetti-bossi.

Erimielinen tuomarin ääni

Tuomarin tehtävänä on kertoa Luojalle, ettei se tehnyt tarpeeksi hyvää työtä luodessaan kuvaa, joka on aito alkuperäiselle datalle, ja kertoa tee se uudelleen. Tuomari ei kerro Luojalle mitä oli vikana Luojan edellisessä yrityksessä; se vain tarkastelee sitä yksityisesti, vertaa luotua kuvaa alkuperäisiin kuviin (jälleen kerran yksityisesti) ja antaa kuvalle arvosanan.

Arvosana ei koskaan ole tarpeeksi hyvä. Tuomari ei lopeta sanomasta tee se uudelleen, kunnes tutkijat sammuttavat sen (kun he katsovat, että lisäkoulutus ei paranna tulosta enää).

Tällä tavoin, ilman mitään konstruktiiivista kritiikkiä ja aseistettuna vain arvosanalla, jonka mittari on salaisuus, Luojan on arvioitava satunnaisesti, mitkä osat tai kuvan osa-alueet aiheuttivat korkeamman arvosanan kuin aiemmin. Tämä johtaa sen useisiin epätydyttäviin reitteihin ennen kuin se muuttaa jotain myönteisesti tarpeeksi saadakseen korkeamman arvosanan.

Tuomari opettajana ja menttorina

Uusi tutkimus tarjoaa perustavanlaatuinen innovaation, jonka mukaan Tuomari osoittaa Luojalle mitkä osat kuvasta olivat tyydyttäviä, jotta Luojan voi keskittyä niihin alueisiin seuraavassa iteroinnissa eikä heittää pois osia, joita arvostettiin korkeammin. Luonnetta on muutettu taistelusta yhteistyöhön.

Tutkijat käyttivät GradCAM:ia mekanismina, joka pystyy muodostamaan Tuomarin havaintoja visuaaliseksi palautteeksi Luojan seuraavaa yritystä varten.

Uusi ‘tasapaino’ -koulutusmenetelmä on nimeltään EqGAN. Maksimaalisen toistettavuuden vuoksi tutkijat ottivat käyttöön olemassa olevia tekniikoita ja menetelmiä oletusarvoisilla asetuksilla, mukaan lukien StyleGan2 -arkkitehtuuri.

EqGAN:n arkkitehtuuri. Luojan paikallinen koodaus on kytketty Tuomarin paikalliseen tietoisuuteen, ja satunnaiset näytteet paikallisista lämpökartista (ks. edellinen kuva) on koodattu takaisin Luojan paikalliseen koodaukseen paikallisen koodauskerroksen (SEL) avulla. GradCAM on mekanismi, jolla Tuomarin tarkkaavaisuuskartat ovat saatavilla Luojalle.

GradCAM tuottaa lämpökarttoja (ks. yllä olevat kuvat), jotka heijastavat Tuomarin kritiikkiä viimeisimmästä iteroinnista, ja tekee tämän saataville Luojalle.

Kun malli on koulutettu, kartta säilyy tämän yhteistyön prosessin jäänteenä, mutta sitä voidaan myös käyttää interaktiivisesti tutkimalla lopullista latenttikoodia tutkijoiden projektivideossa (ks. alla) esitetyllä tavalla.

EqGAN

Projekti käytti useita suosittuja tietoja, mukaan lukien LSUN Cat ja Churches -tietokannat, sekä FFHQ -tietokannan. Videossa on myös esimerkkejä kasvojen ja kissan muokkauksesta EqGAN:lla.

Kaikki kuvat on muunnettu 256×256-resoluutioon ennen EqGAN:n koulutusta StyleGAN2:n virallisen toteutuksen avulla. Malli on koulutettu eräkoolle 64 yli 8 GPU:lla, kunnes Tuomari on nähnyt yli 25 miljoonaa kuvaa.

Testaamalla järjestelmän tuloksia valituissa näytteissä Frechet Inception Distance (FID) -menetelmällä, kirjoittajat määrittivät mitan, jota kutsutaan Epätasapaino-osoittimaksi (DI) – Tuomarin tietämysetua Luojan yli, tavoitteena kaventaa tämä kuilu.

Kolmessa koulutetussa tietokannassa uusi mittari osoitti hyödyllisen laskun paikallisen tietoisuuden koodaamisen jälkeen Luojalle, ja parannetun tasapainon osoittivat sekä FID että DI.

Tutkijat toteavat:

‘Toivomme, että tämä työ voi inspiroida enemmän tutkimuksia GAN-tasapainosta ja kehittää uusia menetelmiä kuvasynteesin laadun parantamiseksi GAN-tasapainon manipuloinnilla. Tulemme myös suorittamaan enemmän teoreettista tutkimusta tästä aiheesta tulevassa työssä.’

Ja jatkavat:

‘Laadulliset tulokset osoittavat, että menetelmämme onnistuu keskittämään Luojan tietyn alueen osalle. Kokeet eri tietokannoissa vahvistavat, että menetelmämme lievittää epätasapainoa GAN-koulutuksessa ja parantaa merkittävästi kuvasynteesin laatua. Tuloksena oleva malli, jossa on paikallinen tietämys, mahdollistaa myös interaktiivisen muokkauksen tulostekuvaa.’

Katsokaa videota alla lisätietoja projektista ja lisää esimerkkejä dynaamisesta ja interaktiivisesta latentin avaruuden tutkimisesta GAN:ssa.

11:12 4. joulukuuta 2021 – Korjattu GradCAM:n URL ja siivottu ympäröivä viittaus.

Martin Anderson

Kirjailija tekoälystä, alan erikoisosaaja ihmiskuvien synteesissä. Entinen tutkimussisällön johtaja Metaphysic.ai:lla.
Henkilökohtainen sivu: martinanderson.ai
Ota yhteyttä: [email protected]

Unite.AI

Vahingossa löydetty etu GAN:n latentin avaruuden kartoittamisesta

Luojan surkeat olosuhteet

Erimielinen tuomarin ääni

Tuomari opettajana ja menttorina

EqGAN

You may like