Kunstig intelligens

Den uventede fordel ved at kortlægge en GANs latent rum

Published December 3, 2021

Updated April 28, 2026

Martin Anderson

Mens de forsøgte at forbedre kvaliteten og troværdigheden af AI-genererede billeder, opdagede en gruppe forskere fra Kina og Australien utilsigtet en metode til at interaktivt kontrollere det latente rum af en Generative Adversarial Network (GAN) – den mystiske beregningsmatrix bag den nye bølge af billedsyntheseteknikker, der er på vej til at revolutionere film, gaming, sociale medier og mange andre sektorer inden for underholdning og forskning.

Deres opdagelse, en biprodukt af projektets centrale mål, giver brugeren mulighed for at arbitrært og interaktivt udforske et GANs latente rum med en mus, som om man scrubber gennem en video eller bladrer gennem en bog.

Et uddrag fra forskernes ledsagende video (se embed nedenfor i artiklen). Bemærk, at brugeren manipulerer transformationerne med en 'grab' cursor (øverst til venstre).

Et uddrag fra forskernes ledsagende video (se embed nedenfor i artiklen for mange flere eksempler). Kilde: https://www.youtube.com/watch?v=k7sG4XY5rIc

Metoden anvender ‘varme-kort’ for at angive, hvilke områder af et billede der skal forbedres, mens GAN køres gennem samme datasæt tusinder (eller hundredetusinder) af gange. Varme-kortene er beregnet til at forbedre billedkvaliteten ved at fortælle GAN, hvor det går galt, så dens næste forsøg vil være bedre; men samtidig giver det også en ‘kort’ over hele det latente rum, der kan gennemses ved at flytte musen.

Rumlig visuel opmærksomhed fremhævet via GradCAM, som angiver områder, der kræver opmærksomhed ved at påføre lyse farver. Kilde: https://arxiv.org/pdf/2112.00718.pdf

Den artikel hedder Forbedring af GAN-ligevægt ved at øge rumlig opmærksomhed, og kommer fra forskere ved det kinesiske universitet i Hong Kong og det australske nationale universitet. Ud over artiklen kan video og andet materiale findes på projektets side.

Arbejdet er i sin vorden, og er i øjeblikket begrænset til lav opløsning billedmaterialer (256×256), men er en bevis for, at det er muligt at bryde åbent ‘sorte boks’ af det latente rum og kommer på et tidspunkt, hvor flere forskningsprojekter banker på døren for at opnå større kontrol over billedsynthese.

Selv om sådanne billeder er interessante (og du kan se mere af dem i bedre opløsning i videoen nedenfor), er det måske mere betydningsfuldt, at projektet har fundet en måde at forbedre billedkvaliteten og potentelt at gøre det hurtigere, ved at fortælle GAN specifikt, hvor det går galt under træningen.

Men, som Adversarial antyder, er en GAN ikke en enkelt enhed, men snarere en uligevægtig konflikt mellem myndighed og slid. For at forstå, hvilke forbedringer forskerne har gjort i denne henseende, skal vi se på, hvordan denne krig er blevet karakteriseret indtil nu.

Den elendige situation for Generatoren

Hvis du nogensinde har været forfulgt af tanken om, at et nyt stykke tøj, du købte, blev produceret i en sweatshop i et udnyttet land, eller havde en chef eller klient, der hele tiden sagde “Gør det igen!” uden at fortælle dig, hvad der var galt med dit sidste forsøg, så spar en smule medlidenhed med Generatoren-delen af en Generative Adversarial Network.

Generatoren er den arbejdskraft, der har moret dig i de sidste fem år eller så ved at hjælpe GAN’er med at skabe fotorealistiske mennesker, der ikke eksisterer, opgradere gamle videospil til 4k opløsning og omdanne hundredårige optagelser til fuld farve HD-udgang ved 60fps, blandt andre vidunderlige AI-nyheder.

Fra at skabe fotorealistiske ansigter af ikke-eksisterende mennesker til at genskabe gamle optagelser og genskabe arkiv-videospil, har GAN været beskæftiget i de sidste år.

Generatoren kører gennem alle træningsdata igen og igen (såsom billeder af ansigter, for at skabe en GAN, der kan skabe billeder af tilfældige, ikke-eksisterende mennesker), ét billede ad gangen, i dage eller endda uger, indtil den kan skabe billeder, der er så overbevisende som de ægte billeder, den studerede.

Så hvordan ved Generatoren, at den gør fremskridt, hver gang den prøver at skabe et billede, der er bedre end dens foregående forsøg?

Generatoren har en chef fra helvede.

Den ubarmhjertige uigennemsigtighed af Diskriminatoren

Diskriminatoren har til opgave at fortælle Generatoren, at den ikke gjorde det godt nok i at skabe et billede, der er ægte for den oprindelige data, og at Gør det igen. Diskriminatoren fortæller ikke Generatoren hvad der var galt med Generatoren sidste forsøg; den tager blot en privat kig på det, sammenligner det genererede billede med kilde-billederne (igen privat) og tildeler billedet en score.

Scoren er aldrig god nok. Diskriminatoren vil ikke stoppe med at sige ‘Gør det igen’, før forskerne slår den fra (når de vurderer, at yderligere træning ikke vil forbedre outputtet yderligere).

På denne måde, uden nogen konstruktiv kritik, og kun bevæbnet med en score, hvis målestok er en hemmelighed, må Generatoren tilfældigt gætte, hvilke dele eller aspekter af billedet forårsagede en højere score end før. Dette vil føre den videre ad mange flere utilfredsstillende veje, før den ændrer noget positivt nok til at få en højere score.

Discriminatoren som lærer og mentor

Innovationen i den nye forskning er i væsentlig, at Diskriminatoren nu angiver til Generatoren hvilke dele af billedet var utilfredsstillende, så Generatoren kan fokusere på disse områder i dens næste iteration, og ikke kassere de dele, der blev vurderet højere. Naturen af forholdet er ændret fra konflikt til samarbejde.

For at afhjælpe uligheden i indsigt mellem Diskriminatoren og Generatoren anvendte forskerne GradCAM som en mekanisme, der kan formulerer Diskriminatoren indsigt i et visuelt feedback-redskab for Generatoren næste forsøg.

Den nye ‘ligevægt’-træningsmetode kaldes EqGAN. For maksimal reproducerbarhed inkorporerede forskerne eksisterende teknikker og metoder med standardindstillinger, herunder brugen af StyleGan2-arkitekturen.

EqGANs arkitektur. Den rumlige kodning af Generatoren er aligneret med Diskriminatoren rumlige opmærksomhed, med tilfældige prøver af rumlige varme-kort (se tidligere billede) kodet tilbage i Generatoren via den rumlige kodningslag (SEL). GradCAM er mekanismen, hvormed Diskriminatoren opmærksomheds-kort er tilgængelige for Generatoren.

GradCAM producerer varme-kort (se ovenstående billeder), der afspejler Diskriminatoren kritik af den seneste iteration, og gør dette tilgængeligt for Generatoren.

Når modellen er trænet, forbliver kortet som en artifact af denne samarbejdsproces, men kan også anvendes til at udforske den endelige latente kode på den interaktive måde, der demonstreres i forskernes projektvideo (se nedenfor).

EqGAN

Projektet anvendte en række populære datasæt, herunder LSUN Cat og Churches datasæt, samt FFHQ-datasættet. Videoen nedenfor viser også eksempler på ansigts- og katte-manipulation med EqGAN.

Alle billeder blev ændret til 256×256 før træning af EqGAN på den officielle implementering af StyleGAN2. Modellen blev trænet med en batch-størrelse på 64 over 8 GPU’er, indtil Diskriminatoren havde været udsat for over 25 millioner billeder.

Test af resultaterne af systemet over udvalgte prøver med Frechet Inception Distance (FID), fastslog forfatterne en metode kaldet Disequilibrium Indicator (DI) – graden af, hvilken Diskriminatoren fastholder sin viden-overlæg over Generatoren, med det formål at mindske denne kløft.

Over de tre datasæt, der blev trænet, viste den nye metode en nyttig nedgang efter kodning af rumlig opmærksomhed i Generatoren, med forbedret ligevægt demonstreret af både FID og DI.

Forskerne konkluderer:

‘Vi håber, at dette arbejde kan inspirere mere arbejde med at genoverveje GAN-ligevægten og udvikle mere nytænkende metoder til at forbedre billedsynskvaliteten gennem manøvrering af GAN-ligevægten. Vi vil også gennemføre mere teoretisk undersøgelse af dette spørgsmål i fremtidigt arbejde.’

Og fortsætter:

‘Kvalitative resultater viser, at vores metode med succes [tvinger Generatoren] til at koncentrere sig om bestemte områder. Eksperimenter på forskellige datasæt validerer, at vores metode mildner den uligevægt i GAN-træning og forbedrer væsentligt billedsynskvaliteten. Den resulterende model med rumlig opmærksomhed giver også mulighed for interaktiv manipulation af output-billedet.’

Se videoen nedenfor for mere information om projektet og yderligere eksempler på dynamisk og interaktiv udforskning af det latente rum i en GAN.