Tekoäly
GANin piilevän tilan kartoittamisesta aiheutuva tahaton hyöty

Yrittäessään parantaa tekoälyllä luotujen kuvien laatua ja tarkkuutta, ryhmä kiinalaisia ja australialaisia tutkijoita on vahingossa löytänyt menetelmän, jolla voidaan ohjata interaktiivisesti kätketyn tilan piilevää tilaa. Generatiivinen kilpaileva verkosto (GAN) – salaperäinen laskennallinen matriisi kuvasynteesitekniikoiden uuden aallon takana. Niiden on tarkoitus mullistaa elokuvat, pelit ja sosiaalinen media sekä monet muut viihteen ja tutkimuksen osa-alueet.
Heidän löytönsä, projektin keskeisen tavoitteen sivutuote, antaa käyttäjälle mahdollisuuden mielivaltaisesti ja vuorovaikutteisesti tutkia GANin piilevää tilaa hiirellä, ikään kuin selaamalla videota tai selailemaan kirjaa.

Ote tutkijoiden oheisesta videosta (katso monia muita esimerkkejä artikkelin lopussa olevasta upotuksesta). Huomaa, että käyttäjä manipuloi muunnoksia napa-kohdistimella (vasemmalla yläkulmalla). Lähde: https://www.youtube.com/watch?v=k7sG4XY5rIc
Menetelmä käyttää "lämpökarttoja" osoittamaan, mitä kuvan alueita tulisi parantaa, koska GAN käy läpi saman tietojoukon tuhansia (tai satoja tuhansia) kertoja. Lämpökartat on tarkoitettu parantamaan kuvanlaatua kertomalla GANille missä se menee pieleen, jotta seuraava yritys on parempi; mutta sattumalta tämä tarjoaa myös koko piilevän tilan "kartan", jota voidaan selata liikuttamalla hiirtä.

GradCAM korostaa alueellista visuaalista huomiota, joka osoittaa huomiota vaativat alueet kirkkailla väreillä. Lähde: https://arxiv.org/pdf/2112.00718.pdf
- paperi kutsutaan GAN-tasapainon parantaminen lisäämällä tilatietoisuutta, ja tulee Hongkongin kiinalaisen yliopiston ja Australian kansallisen yliopiston tutkijoilta. Paperin lisäksi projektisivulta löytyy videoita ja muuta materiaalia.
Teos on syntymässä ja rajoittuu tällä hetkellä matalaresoluutioisiin kuviin (256 × 256), mutta se on todiste konseptista, joka lupaa avata piilevän avaruuden "mustan laatikon" ja tulee aikaan, jolloin useita tutkimusprojekteja on käynnissä. sillä ovella pyrkiessään hallitsemaan paremmin kuvasynteesiä.
Vaikka tällaiset kuvat ovat kiinnostavia (ja voit nähdä niitä enemmän, paremmalla resoluutiolla tämän artikkelin loppuun upotetussa videossa), mikä ehkä tärkeämpää on, että projekti on löytänyt tavan parantaa kuvanlaatua ja mahdollisesti tehdäksesi sen nopeammin kertomalla GAN:lle, missä se menee pieleen koulutuksen aikana.
Mutta kuten kontradiktorisen osoittaa, GAN ei ole yksittäinen kokonaisuus, vaan sen sijaan epätasa-arvoinen konflikti auktoriteetin ja työvoiman välillä. Ymmärtääksemme, mitä parannuksia tutkijat ovat tehneet tässä suhteessa, katsotaanpa, kuinka tätä sotaa on luonnehdittu tähän asti.
Generaattorin säälittävä ahdinko
Jos sinua on koskaan ahdistanut ajatus, että ostamasi upea uusi vaate on valmistettu riistomaassa sijaitsevassa hikipajassa, tai jos sinulla on pomo tai asiakas, joka käski sinua 'Tee se uudelleen!' kertomatta sinulle, mikä viimeisessä yrityksessäsi oli vialla, säästä sääli Generaattori osa generatiivista vastavuoroista verkostoa.
Generaattori on työhevonen, joka on ilahduttanut sinua noin viiden viime vuoden ajan auttamalla GANeja luomaan fotorealistisia ihmisiä, joita ei ole olemassa, tasokkaita vanhoja videopelejä 4k resoluutioon, ja käännä vuosisadan vanhaa materiaalia täysväriseen HD-lähtöön nopeudella 60 fps, muiden ihmeellisten AI-uutuuksien joukossa.

GAN on ollut kiireinen muutaman viime vuoden aikana aina epätodellisten ihmisten valokuvien luomisesta muinaisten materiaalien entisöimiseen ja arkiston videopelien elvyttämiseen.
Generaattori käy läpi kaikki harjoitustiedot kerta toisensa jälkeen (kuten kasvojen kuvat, luodakseen GANin, joka voi luoda kuvia satunnaisista, olemattomista ihmisistä), yksi kuva kerrallaan, päivien tai jopa viikkojen ajan, kunnes se pystyy luomaan kuvia, jotka ovat yhtä vakuuttavia kuin sen tutkimat aidot valokuvat.
Joten mistä Generator tietää, että se edistyy, joka kerta, kun se yrittää luoda kuvan, joka on parempi kuin sen edellinen yritys?
Generatorilla on pomo helvetistä.
Syrjinnän armoton opasiteetti
Työ diskriminaattoria on kertoa generaattorille, että se ei onnistunut tarpeeksi hyvin luodessaan kuvaa, joka on aito alkuperäiselle datalle, ja Tee se uudestaan. Diskriminaattori ei kerro generaattorille mitä oli väärässä Generatorin viimeisessä yrityksessä; se vain tarkastelee sitä yksityisesti, vertaa luotua kuvaa lähdekuviin (jälleen yksityisesti) ja antaa kuvalle arvosanan.
Pisteet on ei ikinä tarpeeksi hyvä. Diskriminaattori ei lakkaa sanomasta 'Tee se uudestaan' kunnes tutkijat sammuttavat sen (kun he arvioivat, että lisäkoulutus ei paranna tulosta entisestään).
Tällä tavalla ilman rakentavaa kritiikkiä ja vain arvoituksilla, joiden mittari on mysteeri, generaattorin on arvattava sattumanvaraisesti, mitkä kuvan osat tai osat saivat korkeamman pistemäärän kuin ennen. Tämä johtaa sen alas monia muita epätyydyttäviä reittejä ennen kuin se muuttaa jotain tarpeeksi positiivisesti saadakseen korkeamman pistemäärän.
Diskriminaattori ohjaajana ja mentorina
Uuden tutkimuksen tuoma innovaatio on pohjimmiltaan se, jonka Discriminator nyt osoittaa Generaattorille mitkä kuvan osat eivät olleet tyydyttäviä, jotta generaattori voi keskittyä näihin alueisiin seuraavassa iteraatiossaan eikä heittää pois osiot, jotka on arvioitu korkeammalle. Suhteen luonne on muuttunut taistelullisesta yhteistyöhaluiseksi.
Erottajan ja generaattorin välisen näkemyksen eron korjaamiseksi tutkijat käyttivät GradCAM mekanismina, joka pystyy muotoilemaan Diskriminaattorin näkemykset visuaaliseksi palautteen apuvälineeksi generaattorin seuraavaa yritystä varten.
Uusi tasapainoharjoittelumenetelmä on nimeltään EqGAN. Maksimaalisen toistettavuuden saavuttamiseksi tutkijat otettiin käyttöön olemassa olevia tekniikoita ja menetelmiä oletusasetuksissa, mukaan lukien StyleGan2 arkkitehtuuri.

EqGANin arkkitehtuuri. Generaattorin spatiaalinen koodaus on kohdistettu erottimen tilatietoisuuteen, ja satunnaiset näytteet spatiaalisista lämpökartoista (katso aikaisempi kuva) koodataan takaisin generaattoriin spatial encoding layer (SEL) kautta. GradCAM on mekanismi, jolla Discriminatorin huomiokartat saatetaan generaattorin saataville.
GradCAM tuottaa lämpökarttoja (katso yllä olevat kuvat), jotka heijastavat Discriminatorin viimeisintä iteraatiota koskevaa kritiikkiä ja tuovat sen generaattorin saataville.
Kun malli on koulutettu, kartoitus pysyy tämän yhteistyöprosessin artefaktina, mutta sitä voidaan käyttää myös lopullisen piilevän koodin tutkimiseen tutkijoiden projektivideossa näytetyllä interaktiivisella tavalla (katso alla).
EqGAN
Projektissa käytettiin useita suosittuja tietojoukkoja, mukaan lukien LSUN Cat- ja Churches -tietojoukot sekä FFHQ tietojoukko. Alla olevassa videossa on myös esimerkkejä kasvojen ja kissojen manipuloinnista EqGANilla.
Kaikkien kuvien koko muutettiin 256 × 256:een ennen kuin EqGAN koulutettiin StyleGAN2:n viralliseen käyttöönottoon. Mallia koulutettiin 64:n eräkokona 8 GPU:lla, kunnes Discrinator oli altistunut yli 25 miljoonalle kuvalle.
Järjestelmän tulosten testaus valituista näytteistä Frechet Inception Distance (IN), kirjoittajat loivat mittarin nimeltä Disequilibrium Indicator (DI) – missä määrin Diskriminaattori säilyttää tietoetunsa generaattoriin verrattuna tavoitteenaan kaventaa tätä kuilua.
Kolmen koulutetun tietojoukon aikana uusi mittari osoitti hyödyllistä pudotusta tilatietoisuuden koodauksen jälkeen generaattoriin, ja sekä FID että DI osoittivat parantuneen tasapainon.
Tutkijat päättelevät:
"Toivomme, että tämä työ voi innostaa uusia töitä GAN-tasapainon tarkistamiseksi ja kehittää uusia menetelmiä kuvan synteesin laadun parantamiseksi GAN-tasapainoa ohjaamalla. Teemme myös lisää teoreettista tutkimusta tästä aiheesta tulevassa työssä.
Ja jatka:
"Laadulliset tulokset osoittavat, että menetelmämme onnistuneesti [pakottaa generaattorin] keskittymään tiettyihin alueisiin. Kokeet eri tietosarjoilla vahvistavat, että menetelmämme lieventää epätasapainoa GAN-koulutuksessa ja parantaa huomattavasti yleistä kuvasynteesin laatua. Tuloksena oleva tilatietoinen malli mahdollistaa myös tulosteen kuvan interaktiivisen käsittelyn.'
Katso alla oleva video saadaksesi lisätietoja projektista ja lisää esimerkkejä dynaamisesta ja vuorovaikutteisesta GAN:n piilevän tilan tutkimisesta.
11 12. joulukuuta 4 – GradCAM:in URL-osoite korjattu ja ympäröivä viite siivottu.