Kunstig intelligens

Den uforutsette fordelen med å kartlegge et GANs latente rom

Published December 3, 2021

Updated April 28, 2026

Martin Anderson

Mens de prøvde å forbedre kvaliteten og troverdigheten av AI-genererte bilder, oppdaget en gruppe forskere fra Kina og Australia utilsiktet en metode for å interaktivt kontrollere det latente rommet i et Generative Adversarial Network (GAN) – den mystiske beregningsmatrisen bak den nye bølgen av bilde-synteseteknikker som er ment å revolusjonere film, spill, sosiale medier og mange andre sektorer i underholdning og forskning.

Deres oppdagelse, en biprodukt av prosjektets sentrale mål, lar en bruker arbitrært og interaktivt utforske et GANs latente rom med en mus, som om man blar gjennom en video eller en bok.

Et utdrag fra forskernes ledsagende video (se innlegg ved slutten av artikkelen). Merk at brukeren manipulerer transformasjonene med en 'grab'-kursor (øverst til venstre). Kilde: https://www.youtube.com/watch?v=k7sG4XY5rIc

Et utdrag fra forskernes ledsagende video (se innlegg ved slutten av artikkelen for mange flere eksempler). Merk at brukeren manipulerer transformasjonene med en ‘grab’-kursor (øverst til venstre). Kilde: https://www.youtube.com/watch?v=k7sG4XY5rIc

Metoden bruker ‘varme-kart’ for å indikere hvilke områder av et bilde som skal forbedres mens GAN kjører gjennom samme datasett tusener (eller hundredtusener) av ganger. Varme-kartene er ment å forbedre bilde-kvaliteten ved å fortelle GAN hvor det går galt, så at dens neste forsøk vil være bedre; men, tilfeldigvis, gir dette også en ‘kart’ over hele det latente rommet som kan blar gjennom ved å flytte en mus.

Romlig visuell oppmerksomhet betont via GradCAM, som indikerer områder som trenger oppmerksomhet ved å påføre lyse farger. Disse eksemplene er generert i forskernes prosjekt med en standardimplementering av StyleGan2. Kilde: https://arxiv.org/pdf/2112.00718.pdf

Romlig visuell oppmerksomhet betont via GradCAM, som indikerer områder som trenger oppmerksomhet ved å påføre lyse farger. Kilde: https://arxiv.org/pdf/2112.00718.pdf

Den artikkelen heter Forbedring av GAN-likviditet ved å øke romlig bevissthet, og kommer fra forskere ved det kinesiske universitetet i Hong Kong og det australske nasjonale universitet. I tillegg til artikkelen, video og annet materiale kan finnes på prosjektets side.

Arbeidet er i sin spede begynnelse, og er for tiden begrenset til lav-oppløsning bilder (256×256), men er en bevis på at det kan åpne opp ‘svarte boksen’ av det latente rommet, og kommer på et tidspunkt når flere forskningsprosjekter banker på døren for å få større kontroll over bilde-syntese.

Selv om slike bilder er engasjerende (og du kan se mer av dem, i bedre oppløsning, i videoen som er innlemmet i slutten av denne artikkelen), er det kanskje mer betydningsfullt at prosjektet har funnet en måte å forbedre bilde-kvaliteten, og potensielt å gjøre det raskere, ved å fortelle GAN spesifikt hvor det går galt under treningen.

Men, som Adversarial indikerer, er en GAN ikke en enkelt enhet, men heller en ulik kamp mellom myndighet og slit. For å forstå hva forbedringer forskerne har gjort i denne henseende, la oss se på hvordan denne krigen har blitt karakterisert til nå.

Den elendige skjebnen til Generator

Hvis du noensinne har blitt forfulgt av tanken på at noen nye varer du kjøpte ble produsert i en sweatshop i et utnyttet land, eller hadde en sjef eller kunde som fortsatte å si ‘Gjør det igjen!’ uten å fortelle deg hva som var galt med ditt siste forsøk, spar en liten smule medlidenhet for Generator-delen av en Generative Adversarial Network.

Generator er den arbeidshesten som har glede deg i løpet av de siste fem eller så år ved å hjelpe GAN med å skape fotorealistiske mennesker som ikke eksisterer, oppgradere gamle videospill til 4k-oppløsning, og omdanne hundre år gamle filmer til full-farges HD-utgang på 60fps, blant andre vidunderlige AI-nyheter.

Fra å skape fotorealistiske ansikter av ikke-eksisterende mennesker til å restaurere gamle filmer og gjenopplive arkiv-videospill, har GAN vært opptatt de siste årene.

Generator kjører gjennom alle treningdata igjen og igjen (slik som bilder av ansikter, for å lage en GAN som kan skape bilder av tilfeldige, ikke-eksisterende mennesker), ett bilde om gangen, i dager eller uker, til den er i stand til å skape bilder som er like overbevisende som de ekte bildene den studerte.

Så hvordan vet Generator at den gjør noen fremgang, hver gang den prøver å skape et bilde som er bedre enn sitt forrige forsøk?

Generator har en sjef fra helvete.

Den ubarmhjertige uklarheten til Discriminator

Discriminators jobb er å fortelle Generator at den ikke gjorde det godt nok i å skape et bilde som er autentisk i forhold til originaldata, og å Gjør det igjen. Discriminator forteller ikke Generator hva var galt med Generators siste forsøk; den tar bare en hemmelig titt på det, sammenligner det genererte bildet med kildebildene (igjen, hemmelig), og tildeler bildet en score.

Scoringsverdien er aldri god nok. Discriminator vil ikke stoppe å si ‘Gjør det igjen’ før forskningsvitenskapsmennene slår den av (når de vurderer at ytterligere trening ikke vil forbedre utgangen).

På denne måten, uten noen konstruktiv kritikk, og bare med en score hvis mål er et mysterium, må Generator tilfeldig gjette hvilke deler eller aspekter av bildet forårsaket en høyere score enn før. Dette vil føre den videre ned mange flere utilfredsstillende veier før den endrer noe positivt nok til å få en høyere score.

Discriminator som lærer og mentor

Innovasjonen som det nye forskningen tilbyr, er essensielt at Discriminator nå indikerer til Generator hvilke deler av bildet var utilfredsstillende, så Generator kan konsentrere seg om disse områdene i sitt neste forsøk, og ikke kaste vekk delene som ble vurdert høyere. Naturen til forholdet har endret seg fra konfliktfylt til samarbeidende.

For å rette opp ulikheten i innsikt mellom Discriminator og Generator, brukte forskerne GradCAM som en mekanisme i stand til å formulere Discriminators innsikt i en visuell tilbakemeldingshjelp for Generators neste forsøk.

Den nye ‘likevekt’-treningmetoden kalles EqGAN. For maksimal reproduserbarhet, inkorporerte forskerne eksisterende teknikker og metoder med standardinnstillinger, inkludert bruk av StyleGan2-arkitekturen.

EqGANs arkitektur. Den romlige kodningen av Generator er justert til den romlige bevisstheten til Discriminator, med tilfeldige eksempler på romlige varme-kart (se tidligere bilde) kodet tilbake til generator via den romlige kodningslaget (SEL). GradCAM er mekanismen som gjør Discriminators oppmerksomhets-kart tilgjengelig for generator.

GradCAM produserer varme-kart (se ovenfor bilder) som reflekterer Discriminators kritikk av det siste forsøket, og gjør dette tilgjengelig for Generator.

Når modellen er trent, forblir kartet som en rest av denne samarbeidsprosessen, men kan også brukes til å utforske den endelige latente koden på en interaktiv måte, som demonstrert i forskernes prosjektvideo (se nedenfor).

EqGAN

Prosjektet brukte en rekke populære datasett, inkludert LSUN Cat og Churches-datasett, samt FFHQ-datasettet. Videoen nedenfor viser også eksempler på ansikts- og feline-manipulasjon med EqGAN.

Alle bilder ble størrelsesendret til 256×256 før EqGAN ble trent på den offisielle implementeringen av StyleGAN2. Modellen ble trent med en batch-størrelse på 64 over 8 GPU-er til Discriminator hadde blitt eksponert for over 25 millioner bilder.

Ved å teste resultater av systemet over utvalgte eksempler med Frechet Inception Distance (FID), etablerte forfatterne en målestokk kalt Ulikhet-Indikator (DI) – graden til hvilken Discriminator beholder sin kunnskapsfordel over Generator, med målet å snevre denne gapet.

Over de tre datasettene som ble trent, viste den nye målestokken en nyttig nedgang etter å ha kodet romlig bevissthet inn i Generator, med forbedret likevekt demonstrert av både FID og DI.

Forskerne konkluderer:

‘Vi håper at dette arbeidet kan inspirere flere arbeider med å se på GAN-likviditet og utvikle flere nye metoder for å forbedre bilde-syntese-kvaliteten gjennom å manøvrere GAN-likviditet. Vi vil også gjennomføre mer teoretisk undersøkelse på dette spørsmålet i fremtidige arbeider.’

Og fortsetter:

‘Kvalitative resultater viser at vår metode suksessfullt [tvinger Generator] til å konsentrere seg om bestemte regioner. Eksperimenter på ulike datasett validerer at vår metode mildner ulikheten i GAN-trening og forbedrer vesentlig bilde-syntese-kvaliteten. Den resulterende modellen med romlig bevissthet muliggjør også interaktiv manipulering av utgangsbildet.’

Se videoen nedenfor for mer informasjon om prosjektet og flere eksempler på dynamisk og interaktiv utforsking av det latente rommet i en GAN.