Artificiell intelligens

Den oavsiktliga fördelen med att karta en GAN:s latenta utrymme

Published December 3, 2021

Updated April 28, 2026

Martin Anderson

Medan de försökte förbättra kvaliteten och trovärdigheten hos AI-genererade bilder upptäckte en grupp forskare från Kina och Australien oavsiktligt en metod för att interaktivt kontrollera den latenta utrymmet i en Generative Adversarial Network (GAN) – den mystiska beräkningsmatrisen bakom den nya vågen av bildsyntestekniker som kommer att revolutionera film, spel, sociala medier och många andra sektorer inom underhållning och forskning.

Derás upptäckt, en biprodukt av projektets centrala mål, tillåter en användare att godtyckligt och interaktivt utforska en GAN:s latenta utrymme med en mus, som om man bläddrar genom en video eller ett fotoalbum.

Ett utdrag från forskarnas medföljande video (se inbäddad i slutet av artikeln). Observera att användaren manipulerar transformationerna med en 'grab' -cursor (överst till vänster). Källa: https://www.youtube.com/watch?v=k7sG4XY5rIc

Ett utdrag från forskarnas medföljande video (se inbäddad i slutet av artikeln för många fler exempel). Observera att användaren manipulerar transformationerna med en ‘grab’ -cursor (överst till vänster). Källa: https://www.youtube.com/watch?v=k7sG4XY5rIc

Metoden använder ‘värmekartor’ för att indikera vilka områden av en bild som bör förbättras medan GAN körs genom samma dataset tusentals (eller hundratusentals) gånger. Värmekartorna är avsedda att förbättra bildkvaliteten genom att tala om för GAN var den har fel, så att dess nästa försök blir bättre; men samtidigt ger detta också en ‘karta’ över hela det latenta utrymmet som kan bläddras genom genom att flytta på musen.

Rumslig visuell uppmärksamhet betonad via GradCAM, som indikerar områden som behöver uppmärksamhet genom att pålägga ljusa färger. Dessa prover genereras i forskarnas projekt med en standardimplementering av StyleGan2. Källa: https://arxiv.org/pdf/2112.00718.pdf

Rumslig visuell uppmärksamhet betonad via GradCAM, som indikerar områden som behöver uppmärksamhet genom att pålägga ljusa färger. Källa: https://arxiv.org/pdf/2112.00718.pdf

Den artikeln heter Att förbättra GAN-jämvikt genom att öka rumslig medvetenhet, och kommer från forskare vid det kinesiska universitetet i Hongkong och det australiensiska nationella universitetet. Utöver artikeln finns video och annat material tillgängligt på projektets sida.

Arbetet är i sin linda, och för närvarande begränsat till lågupplöst bild (256×256), men det är ett bevis på koncept som lovar att bryta upp den ‘svarta lådan’ av det latenta utrymmet, och kommer vid en tidpunkt då flera forskningsprojekt slår på dörren i jakten på större kontroll över bildsyntes.

Även om sådana bilder är engagerande (och du kan se fler av dem, i bättre upplösning, i videon som är inbäddad i slutet av den här artikeln), är det kanske mer betydelsefullt att projektet har hittat ett sätt att skapa förbättrad bildkvalitet, och potentiellt att göra det snabbare, genom att tala om för GAN specifikt var den har fel under utbildningen.

Men, som Adversarial antyder, är en GAN inte en enda enhet, utan snarare en ojämn konflikt mellan auktoritet och slit. För att förstå vilka förbättringar forskarna har gjort i detta avseende, låt oss titta på hur denna konflikt har karakteriserats hittills.

Generatorens ömkansvärda belägenhet

Om du någonsin har blivit besatt av tanken att någon stor ny artikel du köpte tillverkades i en svetshop i ett utnyttjat land, eller hade en chef eller kund som ständigt sa till dig att ‘Gör om det!’ utan att någonsin säga vad som var fel med ditt senaste försök, spara lite medlidande för Generatoren -delen av en Generative Adversarial Network.

Generatoren är den slitstarke som har glatt dig under de senaste fem åren genom att hjälpa GAN skapa fotorealistiska människor som inte existerar, förbättra gamla videospel till 4k-upplösning, och förvandla sekelsgamla filmer till fullfärgs HD-utmatning i 60 fps, bland andra underverk av AI-nyheter.

Från att skapa fotorealistiska ansikten av overkliga människor till att återställa antika filmer och återuppliva arkivvideospel, har GAN varit upptagen under de senaste åren.

Generatoren körs genom all utbildningsdata igen och igen (såsom bilder av ansikten, för att skapa en GAN som kan skapa foton av slumpmässiga, icke-existerande människor), en bild i taget, under dagar eller till och med veckor, tills den kan skapa bilder som är lika övertygande som de äkta foton som den studerade.

Så hur vet Generatoren att den gör några framsteg, varje gång den försöker skapa en bild som är bättre än dess föregående försök?

Generatoren har en chef från helvetet.

Diskriminatorens obevekliga opacitet

Diskriminatorens uppgift är att tala om för Generatoren att den inte gjorde tillräckligt bra ifrån sig för att skapa en bild som är äkta för den ursprungliga datan, och att Gör om det. Diskriminatoren säger inte till Generatoren vad som var fel med Generatorens senaste försök; den tar bara en privat titt på det, jämför den genererade bilden med källbilderna (även privat), och tilldelar bilden en poäng.

Poängen är aldrig tillräckligt bra. Diskriminatoren kommer inte att sluta säga ‘Gör om det’ tills forskarna stänger av den (när de bedömer att ytterligare utbildning inte kommer att förbättra utmatningen).

På detta sätt, utan någon konstruktiv kritik, och beväpnad endast med en poäng vars mått är ett mysterium, måste Generatoren slumpmässigt gissa vilka delar eller aspekter av bilden som orsakade en högre poäng än tidigare. Detta kommer att leda den till många fler otillfredsställande vägar innan den ändrar något positivt nog för att få en högre poäng.

Diskriminatoren som lärare och mentor

Innovationen som den nya forskningen tillhandahåller är i princip att Diskriminatoren nu indikerar till Generatoren vilka delar av bilden som var otillfredsställande, så att Generatoren kan fokusera på dessa områden i sitt nästa försök, och inte kasta bort de delar som fick en högre poäng. Karaktären på relationen har förändrats från stridig till samarbetsvillig.

För att avhjälpa olikheten i insikt mellan Diskriminatoren och Generatoren använde forskarna GradCAM som en mekanism som kan formulera Diskriminatorens insikter till en visuell återkopplingshjälp för Generatorens nästa försök.

Den nya ‘jämvikts’-träningsmetoden kallas EqGAN. För maximal reproducerbarhet inkorporerade forskarna befintliga tekniker och metoder med standardinställningar, inklusive användning av StyleGan2 -arkitekturen.

EqGAN-arkitekturen. Den rumsliga kodningen av Generatoren är anpassad till Diskriminatorens rumsliga medvetenhet, med slumpmässiga prover av rumsliga värmekartor (se tidigare bild) kodade tillbaka till generatoren via den rumsliga kodningslagret (SEL). GradCAM är mekanismen genom vilken Diskriminatorens uppmärksamhetskartor görs tillgängliga för generatoren.

GradCAM producerar värmekartor (se ovan bilder) som återger Diskriminatorens kritik av den senaste iterationen, och gör detta tillgängligt för Generatoren.

När modellen är tränad förblir kartan som en artefakt av denna samarbetsprocess, men kan också användas för att utforska den slutliga latentkoden på det interaktiva sätt som demonstreras i forskarnas projektvideo (se nedan).

EqGAN

Projektet använde ett antal populära dataset, inklusive LSUN Cat och Churches dataset, samt FFHQ -dataset. Videon nedan visar också exempel på ansikts- och feline-manipulation med EqGAN.

Alla bilder storleksändrades till 256×256 före utbildning av EqGAN på den officiella implementationen av StyleGAN2. Modellen tränades med en batchstorlek på 64 över 8 GPU:er tills Diskriminatoren hade exponerats för över 25 miljoner bilder.

Genom att testa resultaten av systemet över valda prover med Frechet Inception Distance (FID), etablerade författarna en metric som kallas Disequilibrium Indicator (DI) – graden till vilken Diskriminatoren behåller sin kunskapsfördel över Generatoren, med målet att minska gapet.

Över de tre dataset som tränades visade den nya metriken en användbar minskning efter att rumslig medvetenhet kodats in i Generatoren, med förbättrad jämvikt demonstrerad av både FID och DI.

Forskarna slutsats:

‘Vi hoppas att detta arbete kan inspirera fler arbeten som granskar GAN-jämvikten och utvecklar fler nya metoder för att förbättra bildsynteskvaliteten genom att manövrera GAN-jämvikten. Vi kommer också att genomföra mer teoretisk undersökning av detta problem i framtida arbete.’

Och fortsätter:

‘Kvalitativa resultat visar att vår metod framgångsrikt [tvingar Generatoren] att fokusera på specifika områden. Experiment på olika dataset validerar att vår metod mildrar obalansen i GAN-utbildning och avsevärt förbättrar den övergripande bildsynteskvaliteten. Den resulterande modellen med rumslig medvetenhet möjliggör också interaktiv manipulation av utmatningsbilden.’

Titta på videon nedan för mer information om projektet och ytterligare exempel på dynamisk och interaktiv utforskning av det latenta utrymmet i en GAN.